Một bài thuyết trình hấp dẫn của Kate Crawford, nhà nghiên cứu chính tại Microsoft Research, tại Hội nghị Strata 2013 sẽ xem xét kỹ hơn về dữ liệu lớn và ý nghĩa của nó, khám phá một số điều mà Crawford gọi là "ảo ảnh thuật toán" và những hạn chế của các giải pháp dữ liệu quy mô lớn đang được chấp nhận ở nhiều nơi trong thế giới kinh doanh.
Sử dụng một sự tương tự cơ bản với ảo ảnh quang học liên quan đến một con mèo quay tròn, Crawford đưa ra trường hợp rằng trong khi dữ liệu lớn là điều cần thiết cho nhiều ứng dụng kinh doanh, có nhiều cách để diễn giải nhiều kết quả của các bộ dữ liệu có vẻ khách quan đối với những người ra quyết định của con người .
"Mọi thứ có thể được nhìn khác đi", Crawford nói, trích dẫn một bài báo trong đó cô và đồng tác giả David Boyd phản ánh về một số nguyên tắc chính của việc sử dụng dữ liệu lớn, bao gồm cả những gì Crawford gọi là "thần thoại", hoặc niềm tin rằng dữ liệu lớn mang lại sự thật tuyệt đối và chủ nghĩa khách quan cho một dự án. Các nhà lãnh đạo, cô nói, thường liên kết trực tiếp dữ liệu lớn với tầm nhìn của một con chim khách quan, trong khi bỏ qua những gì cô gọi là ba hạn chế hoặc cân nhắc cơ bản có thể ảnh hưởng đến tính khách quan này theo những cách chính: thiên vị, tín hiệu và quy mô.
Bắt đầu với sự thiên vị, Crawford sử dụng các ví dụ về lũ lụt ở Úc và Hoa Kỳ để cho thấy rằng dữ liệu lớn không phải lúc nào cũng phù hợp với thực tế trên đường phố. Cô quan hệ trong nguyên tắc thứ hai, tín hiệu, minh họa thêm về cách các bộ dữ liệu có thể phản ánh các thực tế ẩn có thể làm sai lệch nhiều kết quả. Lấy một ví dụ, Crawford đã trích dẫn nhiều loại bản đồ thế giới đã được phát triển trong nỗ lực thể hiện cái nhìn khách quan về kích thước tương đối của các châu lục và quốc gia.
"Bản đồ không phải là trung lập, " Crawford nói. "Chúng tôi đang đưa ra lựa chọn mỗi khi chúng tôi quyết định đại diện cho dữ liệu của mình."
Để minh họa rõ hơn cho nguyên tắc này, Crawford sử dụng ví dụ về một ứng dụng báo cáo ổ gà ở Boston cho các quan chức thành phố, cho thấy rằng các loại ứng dụng này hoạt động trên điện thoại thông minh và thiết bị di động có thể kết thúc bằng cách làm cho các báo cáo tổng thể trông giống như bản đồ điều tra dân số cho thấy tuổi tương đối và thu nhập trên toàn thành phố hoặc đô thị.
"Chúng tôi có nguy cơ tiếp tục gây ra sự bất bình đẳng xã hội cụ thể", Crawford nói, chỉ ra những người có thể bị bỏ rơi khỏi một tập dữ liệu lớn nhất định do sự khác biệt trong sử dụng công nghệ.
"Điều gì xảy ra nếu bạn sống trong bóng tối của các tập dữ liệu lớn?" cô ấy nói.
Ngoài ra, Crawford cũng nói về nghiên cứu từ nhiều năm trước, đặt câu hỏi liệu thông tin cấp cao luôn đại diện cho dữ liệu chi tiết hơn và liệu "toàn cảnh khách quan" luôn hoạt động như một đại diện chính xác hơn so với dữ liệu ở quy mô nhỏ hơn. Crawford cũng yêu cầu người nghe nghĩ không chỉ về dữ liệu lớn mà còn về "dữ liệu có chiều sâu". Bằng cách này, cô có nghĩa là dữ liệu thực sự hướng dẫn người đọc hướng tới thực tế khách quan, thay vì che đậy các chi tiết bằng cách tiếp cận toàn cầu hơn, trong khi dễ hiểu hơn, có thể bỏ qua các yếu tố chính của những gì thực sự tồn tại.