Trang Chủ Âm thanh Làm thế nào để quét dữ liệu cho học máy trở thành nút cổ chai tốn nhiều công sức nhất kể từ khi nhập dữ liệu thủ công trong di chuyển kế thừa?

Làm thế nào để quét dữ liệu cho học máy trở thành nút cổ chai tốn nhiều công sức nhất kể từ khi nhập dữ liệu thủ công trong di chuyển kế thừa?

Anonim

Q:

Làm thế nào để quét dữ liệu cho học máy trở thành nút cổ chai tốn nhiều công sức nhất kể từ khi nhập dữ liệu thủ công trong di chuyển kế thừa?

A:

Một trong những vấn đề thực tế mà các công ty có thể gặp phải khi cố gắng bắt đầu một dự án máy học (ML) là thách thức có được các bộ dữ liệu đào tạo ban đầu. Điều này có thể bao gồm các quy trình sử dụng nhiều lao động như quét web hoặc quét dữ liệu khác.

Các thuật ngữ quét web và quét dữ liệu chủ yếu đề cập đến hoạt động tự động bằng phần mềm máy tính, nhưng đối với nhiều dự án ML, sẽ có trường hợp máy tính không có sự tinh vi để thu thập dữ liệu được nhắm mục tiêu đúng, vì vậy nó sẽ phải được thực hiện "bằng tay." Cái này bạn có thể gọi là "quét dữ liệu / web của con người" và đó là một công việc vô ơn. Nó thường liên quan đến việc đi ra ngoài và tìm kiếm dữ liệu hoặc hình ảnh để "nuôi" chương trình ML thông qua các bộ huấn luyện. Nó thường lặp đi lặp lại khá nhiều, làm cho nó tẻ nhạt, chậm chạp, đòi hỏi công việc.

Tải xuống miễn phí: Machine Learning và Why It Matters

Quét dữ liệu cho các bộ đào tạo ML thể hiện một nút thắt có vấn đề đặc biệt trong học máy, một phần vì rất nhiều công việc khác mang tính khái niệm cao và không lặp lại. Nhiều người có thể đưa ra một ý tưởng tuyệt vời cho một ứng dụng mới thực hiện các nhiệm vụ học máy, nhưng các loại hạt và bu lông và công việc thực tế có thể khó hơn rất nhiều. Cụ thể, ủy thác công việc lắp ráp các bộ huấn luyện thực sự có thể là một trong những phần khó nhất của dự án ML, như được khám phá đầy đủ trong chương trình truyền hình "Thung lũng Silicon" của Mike Judge. Trong tập bốn, một doanh nhân khởi nghiệp lần đầu tiên bắt nạt một đối tác thực hiện công việc đòi hỏi nhiều lao động, sau đó cố gắng truyền lại cho sinh viên đại học bằng cách ngụy trang như một bài tập về nhà.

Ví dụ này mang tính hướng dẫn bởi vì nó cho thấy mức độ không thích và dường như không quan trọng của việc cạo dữ liệu thủ công. Tuy nhiên, nó cũng cho thấy rằng quá trình này là cần thiết cho một loạt các sản phẩm máy học. Mặc dù hầu hết mọi người ghét nhập dữ liệu, các bộ đào tạo phải được lắp ráp theo một cách nào đó. Các chuyên gia về quy trình thường khuyên bạn nên sử dụng dịch vụ quét web - về cơ bản chỉ là thuê ngoài công việc rất tốn công này cho các bên ngoài, nhưng điều đó có thể gây ra sự phân nhánh bảo mật và gây ra các vấn đề khác. Khi giữ công việc thu thập dữ liệu thủ công trong nhà, một lần nữa, phải có một quy định được thực hiện cho những gì thường là một quá trình rất thủ công và tốn thời gian.

Theo một số cách, "quét dữ liệu của con người" cho việc học máy trông giống như việc nhập dữ liệu thủ công đôi khi phải được thực hiện trong di chuyển cũ. Khi đám mây ngày càng trở nên phổ biến và các công ty đưa quy trình và quy trình công việc của họ vào đám mây, một số người nhận thấy rằng họ đã không làm việc thông qua các khía cạnh thực tế về cách đưa dữ liệu công ty của họ từ một hệ thống kế thừa bị cô lập vào các ứng dụng gốc trên đám mây. Kết quả là, một số người khác là các nhà khoa học dữ liệu hoặc người sáng tạo với các kỹ năng CNTT thiết yếu đã thấy mình thực hiện các nhiệm vụ nhập dữ liệu khó chịu.

Điều tương tự có khả năng xảy ra với máy học. Bạn có thể nghe một nhà khoa học dữ liệu phàn nàn rằng, tôi là một người sáng tạo, hay tôi là người đứng về phía phát triển - nhưng ai đó phải làm công việc bẩn thỉu.

Một lần nữa, nếu luồng sáng tạo không phù hợp với đánh giá thực tế về phân công luồng công việc, thì sẽ có sự không phù hợp trong cách xử lý tác vụ. Khi một công ty không có người thực hiện công việc quét dữ liệu trong việc thu thập các tập dữ liệu, công ty thiếu một phần quan trọng trong chuỗi thủ tục cho một dự án thành công. Thật đáng để ghi nhớ điều này bất cứ khi nào một công ty cố gắng thực hiện tốt ý tưởng dựa trên việc phát triển các ứng dụng học máy mới.

Làm thế nào để quét dữ liệu cho học máy trở thành nút cổ chai tốn nhiều công sức nhất kể từ khi nhập dữ liệu thủ công trong di chuyển kế thừa?