Q:
Tại sao máy thiên vị là một vấn đề trong học máy?
A:Câu hỏi này có thể được trả lời theo hai cách khác nhau. Đầu tiên, tại sao vấn đề sai lệch máy móc, như trong, tại sao nó tồn tại trong các quá trình học máy?
Học máy, mặc dù tinh vi và phức tạp, nhưng ở một mức độ giới hạn dựa trên các tập dữ liệu mà nó sử dụng. Việc xây dựng các bộ dữ liệu liên quan đến sự thiên vị vốn có. Giống như trên các phương tiện truyền thông, nơi thiếu sót và các lựa chọn đưa vào có chủ ý có thể cho thấy sự thiên vị cụ thể, trong học máy, các bộ dữ liệu được sử dụng phải được kiểm tra để xác định loại sai lệch nào tồn tại.
Tải xuống miễn phí: Machine Learning và Why It Matters |
Ví dụ, đó là một vấn đề phổ biến đối với các quy trình thiết kế và thử nghiệm công nghệ để hiển thị tùy chọn cho một loại người dùng hơn một loại người dùng khác. Một ví dụ lớn là sự chênh lệch giới tính trong thế giới công nghệ.
Tại sao điều này tạo ra sự khác biệt và tại sao nó lại áp dụng cho học máy?
Bởi vì việc thiếu phụ nữ hiện có trong môi trường thử nghiệm có thể dẫn đến một công nghệ được sản xuất ít thân thiện với khán giả nữ. Cách một số chuyên gia mô tả điều này là nếu không có thử nghiệm nữ hiện có, sản phẩm cuối có thể không nhận ra đầu vào của người dùng nữ - nó có thể không có công cụ để nhận dạng danh tính nữ hoặc xử lý thỏa đáng với đầu vào từ phụ nữ.
Điều tương tự cũng đúng đối với các sắc tộc khác nhau, những người thuộc các tôn giáo khác nhau hoặc bất kỳ loại hình nhân khẩu học nào khác. Nếu không có dữ liệu phù hợp, các thuật toán học máy sẽ không hoạt động chính xác cho một tập người dùng nhất định, do đó dữ liệu đưa vào phải được thêm vào một cách có chủ ý vào công nghệ. Thay vì chỉ lấy các tập dữ liệu chính và củng cố sự thiên vị vốn có, người xử lý con người cần thực sự xem xét vấn đề.
Một ví dụ khác là một công cụ học máy lấy thông tin về công việc và tiền lương và đưa ra kết quả. Nếu bộ dữ liệu vốn có không được phân tích, máy sẽ củng cố sai lệch. Nếu họ nhận thấy rằng đàn ông nắm giữ phần lớn công việc điều hành và quá trình học máy bao gồm lọc qua bộ dữ liệu thô và trả về kết quả tương ứng, thì nó sẽ trả về kết quả cho thấy thiên vị nam.
Phần thứ hai của câu hỏi liên quan đến lý do tại sao sự thiên vị này lại có hại như vậy. Nếu không có sự giám sát và kiểm tra đầy đủ, các công nghệ mới có thể gây hại, không giúp ích gì cho ý thức hòa nhập và bình đẳng của chúng ta. Nếu một sản phẩm công nghệ mới được tung ra có thể nhận ra khuôn mặt có làn da sáng hơn, nhưng không phải da sẫm màu hơn, nó có thể dẫn đến căng thẳng sắc tộc leo thang và cảm giác rằng công ty đang nghi vấn không nhạy cảm với sự đa dạng. Nếu một thuật toán học máy tái tạo và nâng cao sự thiên vị trong các tập dữ liệu, thì trí thông minh nhân tạo đó sẽ thêm tiếng nói của nó vào tiếng nói của con người và xu hướng của con người đã tồn tại trong hệ thống xã hội ủng hộ một nhóm người hơn một nhóm người khác.
Cách tốt nhất để giải quyết vấn đề này là xem xét kỹ các bộ dữ liệu cơ bản, sử dụng lựa chọn tính năng, thêm đầu vào biến và tự thao tác các bộ dữ liệu thô và tăng sức mạnh thực sự của việc học máy với việc tạo ra dữ liệu có chủ ý của con người, để có được kết quả mang lại khả năng phân tích tuyệt vời, nhưng cũng có một số hiểu biết của con người mà máy tính chưa thể sao chép.