Trang Chủ Âm thanh Một số cách chính để tự động hóa và tối ưu hóa các quy trình khoa học dữ liệu là gì?

Một số cách chính để tự động hóa và tối ưu hóa các quy trình khoa học dữ liệu là gì?

Anonim

Q:

Một số cách chính để tự động hóa và tối ưu hóa các quy trình khoa học dữ liệu là gì?

A:

Các quy trình khoa học dữ liệu trong bối cảnh học máy và AI có thể được chia thành bốn giai đoạn riêng biệt:

  1. thu thập và thăm dò dữ liệu,
  2. xây dựng mô hình,
  3. triển khai mô hình và
  4. đánh giá và sàng lọc trực tuyến.

Từ kinh nghiệm của tôi, các giai đoạn gây trở ngại nhất là các giai đoạn thu thập dữ liệu và triển khai mô hình trong bất kỳ quy trình khoa học dữ liệu dựa trên máy học nào, và đây là hai cách để tối ưu hóa chúng:

1. Thiết lập một kho dữ liệu có thể truy cập cao.

Trong hầu hết các tổ chức, dữ liệu không được lưu trữ ở một vị trí trung tâm. Hãy lấy thông tin liên quan đến khách hàng. Bạn có thông tin liên hệ khách hàng, email hỗ trợ khách hàng, phản hồi của khách hàng và lịch sử duyệt web của khách hàng nếu doanh nghiệp của bạn là một ứng dụng web. Tất cả các dữ liệu này được phân tán tự nhiên, vì chúng phục vụ các mục đích khác nhau. Chúng có thể nằm trong các cơ sở dữ liệu khác nhau và một số có thể được cấu trúc đầy đủ và một số không có cấu trúc, và thậm chí có thể được lưu trữ dưới dạng tệp văn bản thuần túy.

Thật không may, sự phân tán của các bộ dữ liệu này rất hạn chế đối với công việc khoa học dữ liệu vì là nền tảng của tất cả các vấn đề NLP, máy học và AI là dữ liệu . Vì vậy, có tất cả dữ liệu này ở một nơi - kho dữ liệu - là tối quan trọng trong việc tăng tốc phát triển và triển khai mô hình. Cho rằng đây là một phần quan trọng đối với tất cả các quy trình khoa học dữ liệu, các tổ chức nên thuê các kỹ sư dữ liệu có trình độ để giúp họ xây dựng kho dữ liệu của họ. Điều này có thể dễ dàng bắt đầu khi dữ liệu đơn giản đổ vào một vị trí và từ từ phát triển thành kho lưu trữ dữ liệu được suy nghĩ kỹ lưỡng, được ghi chép đầy đủ và truy vấn bằng các công cụ tiện ích để xuất các tập hợp dữ liệu sang các định dạng khác nhau cho các mục đích khác nhau.

2. Đưa ra các mô hình của bạn như một dịch vụ để tích hợp liền mạch.

Ngoài việc cho phép truy cập dữ liệu, điều quan trọng là có thể tích hợp các mô hình được phát triển bởi các nhà khoa học dữ liệu vào sản phẩm. Việc tích hợp các mô hình được phát triển trong Python với một ứng dụng web chạy trên Ruby có thể cực kỳ khó khăn. Ngoài ra, các mô hình có thể có nhiều phụ thuộc dữ liệu mà sản phẩm của bạn có thể không thể cung cấp.

Một cách để giải quyết vấn đề này là thiết lập cơ sở hạ tầng mạnh xung quanh mô hình của bạn và hiển thị vừa đủ chức năng cần thiết cho sản phẩm của bạn để sử dụng mô hình làm dịch vụ web trên mạng. Ví dụ, nếu ứng dụng của bạn cần phân loại tình cảm trên các đánh giá sản phẩm, tất cả những gì cần làm là gọi dịch vụ web, cung cấp văn bản có liên quan và dịch vụ sẽ cung cấp lại phân loại tình cảm phù hợp mà sản phẩm có thể sử dụng trực tiếp. Theo cách này, việc tích hợp chỉ đơn giản là dưới dạng một lệnh gọi API. Việc tách riêng mô hình và sản phẩm sử dụng nó giúp cho các sản phẩm mới mà bạn nghĩ ra cũng dễ dàng sử dụng các mô hình này mà không gặp rắc rối nào.

Bây giờ, thiết lập cơ sở hạ tầng xung quanh mô hình của bạn là một câu chuyện hoàn toàn khác và đòi hỏi một khoản đầu tư ban đầu lớn từ các nhóm kỹ thuật của bạn. Một khi cơ sở hạ tầng ở đó, đó chỉ là vấn đề xây dựng mô hình theo cách phù hợp với cơ sở hạ tầng.

Một số cách chính để tự động hóa và tối ưu hóa các quy trình khoa học dữ liệu là gì?