Trang Chủ Trên bản tin tức Tại sao lựa chọn tính năng rất quan trọng trong học máy?

Tại sao lựa chọn tính năng rất quan trọng trong học máy?

Anonim

Q:

Tại sao lựa chọn tính năng rất quan trọng trong học máy?

A:

Lựa chọn tính năng là cực kỳ quan trọng trong học máy chủ yếu vì nó đóng vai trò là một kỹ thuật cơ bản để hướng việc sử dụng các biến đến những gì hiệu quả và hiệu quả nhất cho một hệ thống máy học nhất định.

Các chuyên gia nói về cách lựa chọn tính năng và trích xuất tính năng hoạt động để giảm thiểu lời nguyền về chiều hoặc giúp giải quyết vấn đề quá mức - đây là những cách khác nhau để giải quyết ý tưởng mô hình hóa quá phức tạp.

Tải xuống miễn phí: Machine Learning và Why It Matters

Một cách khác để nói điều này là lựa chọn tính năng giúp cung cấp cho các nhà phát triển công cụ chỉ sử dụng dữ liệu hữu ích và phù hợp nhất trong các bộ đào tạo học máy, giúp giảm đáng kể chi phí và khối lượng dữ liệu.

Một ví dụ là ý tưởng đo hình dạng phức tạp theo tỷ lệ. Khi chương trình chia tỷ lệ, nó xác định số lượng điểm dữ liệu lớn hơn và hệ thống trở nên phức tạp hơn nhiều. Nhưng một hình dạng phức tạp không phải là tập dữ liệu điển hình mà một hệ thống máy học đang sử dụng. Các hệ thống này có thể sử dụng các tập dữ liệu có mức độ chênh lệch lớn giữa các biến khác nhau. Chẳng hạn, trong việc phân loại các loài, các kỹ sư có thể sử dụng lựa chọn tính năng để chỉ nghiên cứu các biến sẽ mang lại cho họ kết quả được nhắm mục tiêu nhiều nhất. Nếu mọi động vật trong biểu đồ có cùng số mắt hoặc chân, dữ liệu đó có thể bị xóa hoặc các điểm dữ liệu khác có liên quan khác có thể được trích xuất.

Lựa chọn tính năng là quá trình phân biệt đối xử theo đó các kỹ sư hướng các hệ thống máy học hướng tới mục tiêu. Ngoài ý tưởng loại bỏ sự phức tạp khỏi các hệ thống ở quy mô, lựa chọn tính năng cũng có thể hữu ích trong việc tối ưu hóa các khía cạnh của cái mà các chuyên gia gọi là "sự đánh đổi sai lệch thiên vị" trong học máy.

Những lý do tại sao lựa chọn tính năng giúp phân tích sai lệch và phương sai phức tạp hơn. Một nghiên cứu từ Đại học Cornell về lựa chọn tính năng, phương sai thiên vị và đóng gói phục vụ để minh họa cách lựa chọn tính năng hỗ trợ các dự án.

Theo các tác giả, bài báo "kiểm tra cơ chế theo đó lựa chọn tính năng cải thiện tính chính xác của việc học có giám sát".

Nghiên cứu tiếp tục nêu rõ:

Một phân tích sai lệch / sai lệch theo kinh nghiệm khi tiến trình lựa chọn tính năng chỉ ra rằng bộ tính năng chính xác nhất tương ứng với điểm đánh đổi sai lệch sai lệch tốt nhất cho thuật toán học tập.

Khi thảo luận về việc sử dụng mức độ liên quan mạnh hay yếu, các nhà văn nói về lựa chọn tính năng là "phương pháp giảm phương sai" - điều này có ý nghĩa khi bạn nghĩ về phương sai về cơ bản là lượng biến thể trong một biến đã cho. Nếu không có phương sai, điểm dữ liệu hoặc mảng về cơ bản có thể là vô dụng. Nếu có phương sai rất cao, nó có thể chuyển thành những gì các kỹ sư có thể nghĩ là "tiếng ồn" hoặc kết quả không liên quan, tùy tiện gây khó khăn cho hệ thống máy học.

Theo quan điểm này, lựa chọn tính năng là một phần cơ bản của thiết kế trong học máy.

Tại sao lựa chọn tính năng rất quan trọng trong học máy?