Q:
Tại sao máy học có khả năng mở rộng quan trọng?
A:Học máy có thể mở rộng là một từ thông dụng chính trong ngành công nghiệp máy học, một phần vì việc đưa các quy trình học máy lên quy mô là một khía cạnh quan trọng và đầy thách thức của nhiều dự án học máy.
Ví dụ, một số dự án máy học nhỏ hơn có thể không cần phải mở rộng quy mô, nhưng khi các kỹ sư đang dự tính các loại mô hình sản xuất khác nhau, cố gắng phân tích các bộ dữ liệu khổng lồ hoặc cố gắng áp dụng học máy vào các môi trường phần cứng khác nhau, khả năng mở rộng có thể có nghĩa là tất cả mọi thứ.
Tải xuống miễn phí: Machine Learning và Why It Matters |
Học máy có thể mở rộng rất quan trọng khi rõ ràng rằng phạm vi của dự án sẽ vượt xa thiết lập ban đầu. Các cách tiếp cận thuật toán khác nhau có thể cần thiết để giúp các quy trình học máy khớp với các quy trình phân tích dữ liệu khác. Học máy có thể yêu cầu nhiều tài nguyên hơn cho cùng một bộ dữ liệu.
Về mặt các công cụ được sử dụng, Apache Hadoop thường được sử dụng cho các tập dữ liệu cực lớn, ví dụ, khoảng 5 TB. Bên dưới nhãn hiệu này, có các công cụ cấp trung khác có thể thực hiện công việc tốt, chẳng hạn như Pandas, Matlab và R. Các chuyên gia CNTT sẽ kết hợp các công cụ với mức độ mở rộng cần thiết. Họ sẽ hiểu các chương trình máy học cần phải làm bao nhiêu và làm thế nào để chúng được trang bị để đạt được những mục tiêu đó.
Cùng với khả năng mở rộng quy mô thành các tập dữ liệu lớn hơn nhiều theo thứ tự vài terabyte, một thách thức khác với học máy có thể mở rộng là phát triển một hệ thống có thể hoạt động trên nhiều nút. Một số hệ thống máy học cơ bản chỉ có thể được thiết lập để chạy trên một máy tính hoặc thành phần phần cứng riêng lẻ. Nhưng khi các quá trình học máy phải tương tác với nhiều nút, điều đó sẽ đòi hỏi một cách tiếp cận khác. Bắt máy học hoạt động trong một kiến trúc phân tán là một phần quan trọng khác của học máy có thể mở rộng. Hãy xem xét một tình huống trong đó các thuật toán học máy phải truy cập dữ liệu từ hàng chục hoặc thậm chí hàng trăm máy chủ - điều này sẽ đòi hỏi khả năng mở rộng và tính linh hoạt đáng kể.
Một động lực khác của học máy có thể mở rộng là quá trình học sâu, trong đó các kỹ sư và các bên liên quan có thể nhận được nhiều kết quả hơn từ việc đi sâu hơn vào các tập dữ liệu và thao tác chúng theo những cách sâu sắc hơn. Các dự án học tập sâu là một ví dụ tuyệt vời về cách các công ty có thể cần áp dụng chiến lược học máy có thể mở rộng để đạt được khả năng mà họ cần. Khi việc học sâu tiếp tục phát triển, nó sẽ gây áp lực lên các hệ thống máy học để mở rộng hiệu quả hơn.