Trong số các công ty khởi nghiệp công nghệ, nhà khoa học dữ liệu là một thuật ngữ ngày càng phổ biến được sử dụng để chỉ những người đam mê dữ liệu có thể kết nối các khu vực chức năng thông minh dữ liệu theo truyền thống. Một nhà khoa học dữ liệu là người thoải mái thực hiện một số khía cạnh (nếu không phải tất cả) của các dự án thông minh dữ liệu:
- Thu thập dữ liệu: Điều này có thể đòi hỏi phải viết trình phân tích cú pháp tùy chỉnh và trình thu thập dữ liệu web hoặc tập lệnh nhắm mục tiêu các dịch vụ web hoặc API cụ thể cho các nguồn dữ liệu phi truyền thống.
- Quản lý dữ liệu: ETL, thao tác, truy vấn và duy trì dữ liệu trong cơ sở dữ liệu, kho lưu trữ khóa-giá trị hoặc Hadoop.
- Trực quan hóa thông tin: Khám phá các mẫu thông qua việc sử dụng các bộ công cụ trực quan tĩnh và / hoặc các nền tảng tương tác dựa trên Flash, JavaScript hoặc Xử lý.
- Phân tích: Điều này có thể bao gồm từ các kỹ thuật đơn giản đến phức tạp trong thống kê đa biến, học máy và NLP.
- Insight: Trích xuất, tóm tắt và trình bày những phát hiện quan trọng cho nhiều đối tượng.
Có nhiều công cụ, kỹ năng và chi tiết kỹ thuật, và người ta có thể dành nhiều năm để làm chủ từng mục được liệt kê ở trên. Mặc dù một nhà khoa học dữ liệu có thể không có kiến thức chuyên môn thực sự trong bất kỳ lĩnh vực nào, anh ta hoặc cô ta thoải mái bỏ qua lại và thực hiện các nhiệm vụ cơ bản trong tất cả chúng. Kết quả là một người đam mê dữ liệu đủ nhanh nhẹn để nhanh chóng điều tra một dự án dữ liệu và đưa ra câu trả lời cho các câu hỏi (cấp cao) từ ban quản lý. (về các nhà khoa học dữ liệu trong các nhà khoa học dữ liệu: Những ngôi sao nhạc rock mới của thế giới công nghệ.)
Để nuôi dưỡng các nhà khoa học dữ liệu, các công ty cần tập trung nhiều hơn vào văn hóa và cấu trúc tổ chức. Nhiều nhân viên dữ liệu có đủ kỹ năng và đào tạo để nhanh chóng làm việc hiệu quả trong nhiều lĩnh vực thông minh dữ liệu. Vấn đề là hầu hết không làm việc trong môi trường khuyến khích họ trở thành nhà khoa học dữ liệu. Chúng bị mắc kẹt trong các silo và giới hạn ở một hoặc hai lĩnh vực thông minh dữ liệu. Thông thường, họ bị hạn chế sử dụng các công cụ "được phê duyệt" bởi người quản lý của họ.