Bởi nhân viên Techopedia, ngày 22 tháng 6 năm 2016
Takeaway: Host Rebecca Jozwiak thảo luận về những lợi thế của danh mục dữ liệu với Dez Blanchfield, Robin Bloor và David Crawford.
Bạn phải đăng ký cho sự kiện này để xem video. Đăng ký để xem video.
Rebecca Jozwiak: Thưa quý vị và các bạn, xin chào và chào mừng đến với Hot Technologies của năm 2016. Hôm nay chúng tôi đã có, Sức mạnh của Gợi ý: Làm thế nào một Danh mục dữ liệu trao quyền cho các nhà phân tích. Tôi là người dẫn chương trình của bạn Rebecca Jozwiak, điền vào cho người dẫn chương trình thông thường của chúng tôi Eric Kavanagh hôm nay, trong khi anh ấy đang đi du lịch khắp thế giới, vì vậy cảm ơn bạn đã tham gia cùng chúng tôi. Năm nay trời nóng, tôi không chỉ nóng ở Texas, mà còn nóng khắp nơi. Có một sự bùng nổ của tất cả các loại công nghệ mới sắp ra mắt. Chúng ta đã có IoT, truyền dữ liệu, áp dụng đám mây, Hadoop tiếp tục trưởng thành và được thông qua. Chúng tôi có tự động hóa, học máy, và tất cả những thứ này tất nhiên được nhấn mạnh bởi dữ liệu. Và các doanh nghiệp đang ngày càng trở nên dữ liệu hơn trong ngày. Và tất nhiên, quan điểm của điều đó dẫn đến kiến thức, và khám phá và, bạn biết đấy, đưa ra quyết định tốt hơn. Nhưng để thực sự nhận được nhiều giá trị nhất từ dữ liệu, thật dễ dàng để có được. Nếu bạn giữ nó bị khóa, hoặc chôn, hoặc trong não của một vài người trong doanh nghiệp, điều đó sẽ không giúp ích gì nhiều cho toàn bộ doanh nghiệp.
Và tôi đã suy nghĩ về việc lập danh mục dữ liệu và nghĩ về các thư viện, nơi mà trước đây bạn đã đi đâu nếu bạn cần tìm ra thứ gì đó, nếu bạn cần nghiên cứu một chủ đề, hoặc tìm kiếm một số thông tin, bạn đã đến thư viện, và tất nhiên bạn đã đi đến danh mục thẻ, hoặc người phụ nữ làm việc ở đó. Nhưng thật thú vị khi đi lang thang xung quanh, nếu bạn chỉ muốn nhìn và chắc chắn bạn có thể khám phá ra một điều gì đó gọn gàng, bạn có thể tìm ra một số sự thật thú vị mà bạn không biết, nhưng nếu bạn thực sự cần tìm ra điều gì đó và bạn biết những gì bạn đang tìm kiếm, bạn cần danh mục thẻ và tất nhiên doanh nghiệp tương đương là một danh mục dữ liệu, có thể giúp chiếu sáng tất cả dữ liệu để người dùng của chúng tôi làm phong phú, khám phá, chia sẻ, tiêu thụ và thực sự giúp đỡ mọi người nhận được dữ liệu nhanh hơn và dễ dàng hơn.
Vì vậy, hôm nay chúng ta đã có Dez Blanchfield, nhà khoa học dữ liệu của chúng ta và chúng ta có Bác sĩ Robin Bloor, nhà phân tích chính của chúng ta, chúng ta đã có David Crawford từ Alation, người sẽ nói về câu chuyện lập danh mục dữ liệu của công ty anh ta, nhưng trước tiên chúng tôi sẽ dẫn đầu với Dez. Dez, tôi đang chuyền bóng cho bạn và sàn là của bạn.
Dez Blanchfield: Cảm ơn bạn, cảm ơn vì đã có tôi ngày hôm nay. Đây là một vấn đề tôi cực kỳ quan tâm, bởi vì hầu hết mọi tổ chức tôi gặp trong công việc hàng ngày của tôi, tôi đều tìm thấy chính xác cùng một vấn đề mà chúng tôi đã nói rất ngắn gọn về trò đùa trước buổi diễn, và đó là hầu hết các tổ chức đã kinh doanh trong hơn một vài năm có rất nhiều dữ liệu được chôn giấu xung quanh tổ chức, các định dạng khác nhau và trên thực tế tôi có các khách hàng có bộ dữ liệu quay lại Lotus Notes, cơ sở dữ liệu vẫn đang chạy trong một số các trường hợp như các tập tin giả của họ, và tất cả họ đang gặp phải thách thức này trong việc tìm kiếm dữ liệu của họ ở đâu và làm thế nào để truy cập vào nó, ai sẽ cung cấp quyền truy cập vào đó, khi nào cung cấp quyền truy cập vào chúng và làm thế nào để danh mục, và làm thế nào để đưa nó đến một nơi mà mọi người đều có thể: A) nhận thức được những gì ở đó và những gì trong đó, và B), làm thế nào để có quyền truy cập vào nó và sử dụng nó. Và một trong những thách thức lớn nhất tất nhiên là tìm ra nó, thử thách lớn khác là biết những gì trong đó và làm thế nào để truy cập nó.
Tôi có thể biết rằng tôi đã có hàng tá cơ sở dữ liệu, nhưng tôi thực sự không biết những gì trong đó hoặc làm thế nào để tìm ra những gì trong đó, và vì vậy chúng tôi luôn phát hiện ra trong dữ liệu trước khi trình chiếu, bạn có xu hướng đi dạo quanh văn phòng và đặt câu hỏi, la hét qua các bức tường hình khối và thử tìm hiểu, thường thì kinh nghiệm của tôi là, bạn thậm chí có thể thấy mình đang lang thang đến quầy lễ tân, quầy lễ tân và hỏi xem có ai biết ai không bạn sẽ đi nói chuyện với. Rất thường xuyên, không phải lúc nào cũng là dân IT vì họ không biết về tập dữ liệu vì ai đó mới tạo ra nó và nó có thể đơn giản như một - khá thường xuyên chúng ta sẽ tìm thấy một dự án nào đó đứng trong môi trường CNTT và người quản lý dự án đã sử dụng một bảng tính gồm tất cả mọi thứ và nó đã nhận được một lượng lớn thông tin có giá trị xung quanh tài sản và bối cảnh và tên, và trừ khi bạn biết dự án đó và bạn biết người đó, bạn không thể tìm thấy thông tin đó. Nó chỉ không có sẵn và bạn phải có được tệp gốc đó.
Có một cụm từ được đưa ra xung quanh liên quan đến dữ liệu và tôi không nhất thiết phải đồng ý với nó, nhưng tôi nghĩ đó là một sự vứt bỏ dễ thương và đó là một số người nhất định nghĩ rằng dữ liệu là dầu mới, và tôi chắc chắn rằng chúng ta sẽ đề cập đến điều đó trong một số khía cạnh, vào ngày hôm nay. Nhưng điều tôi nhận thấy, chắc chắn là một phần của sự chuyển đổi đó, là các tổ chức của các doanh nghiệp đã học cách định giá dữ liệu của họ đã đạt được lợi thế đáng kể so với các đối thủ cạnh tranh.
Có một bài báo thú vị của IBM, khoảng năm hoặc sáu năm trước, và họ đã khảo sát khoảng 4.000 công ty ở Úc và họ đã lấy tất cả thông tin, tất cả dữ liệu hiệu suất, tất cả dữ liệu tài chính và đặt nó vào một nồi đun sôi và sau đó đã gửi nó đến Trường Kinh tế Úc, và họ thực sự bắt đầu một xu hướng chung ở đây, và đó là các công ty tận dụng công nghệ luôn có được lợi thế cạnh tranh so với các đối thủ và đối thủ cạnh tranh mà các đối thủ của họ gần như không bao giờ bắt kịp, và tôi nghĩ bây giờ rất giống với dữ liệu mà chúng ta đã thấy mọi người gọi là chuyển đổi kỹ thuật số trong đó các tổ chức đã tìm ra rõ ràng cách tìm dữ liệu họ có, để cung cấp dữ liệu đó và cung cấp dữ liệu đó ở một số rất dễ tiêu thụ thời trang cho tổ chức, mà không nhất thiết phải luôn luôn biết tại sao tổ chức có thể cần nó và có được lợi thế đáng kể so với các đối thủ cạnh tranh.
Tôi đã có một vài ví dụ trên slide này, mà bạn có thể thấy. Theo tôi, một vấn đề là, sự gián đoạn quy mô lớn trên hầu hết mọi lĩnh vực công nghiệp, theo quan điểm của tôi, đang bị điều khiển bởi dữ liệu và nếu xu hướng hiện tại là bất cứ điều gì xảy ra, thì quan điểm của tôi là chúng ta chỉ thực sự nhận được bắt đầu bởi vì khi các thương hiệu lâu đời cuối cùng cũng thức dậy ý nghĩa của việc này và tham gia vào trò chơi, họ sẽ tham gia trò chơi với giá bán buôn. Khi một số nhà bán lẻ lớn có hàng núi dữ liệu bắt đầu áp dụng một số phân tích lịch sử về dữ liệu, nếu họ thậm chí biết nó tồn tại, thì một số người chơi trực tuyến sẽ nhận được một chút cuộc gọi báo thức.
Nhưng với hầu hết các thương hiệu này, ý tôi là chúng ta đã có Uber, công ty taxi lớn nhất thế giới. Họ không sở hữu bất kỳ chiếc taxi nào, vậy điều gì làm cho họ trở nên kỳ diệu, dữ liệu của họ là gì? Airbnb, nhà cung cấp dịch vụ lưu trú lớn nhất, chúng tôi đã có WeChat, công ty điện thoại lớn nhất thế giới, nhưng họ không có cơ sở hạ tầng thực tế và không có thiết bị cầm tay, không có đường dây điện thoại. Alibaba, nhà bán lẻ lớn nhất hành tinh, nhưng họ không sở hữu bất kỳ hàng tồn kho nào. Facebook, công ty truyền thông lớn nhất trong từ này. Tôi nghĩ rằng tính đến cuối cùng họ đã có 1, 4 tỷ người dùng dữ liệu đang hoạt động, đây là một con số đáng kinh ngạc. Nó không ở đâu gần - Tôi nghĩ rằng ai đó đã tuyên bố rằng một phần tư hành tinh thực sự ở đó mỗi ngày, và đây là một nhà cung cấp nội dung thực sự không tạo ra nội dung, tất cả dữ liệu họ phục vụ không phải do họ tạo ra, nó được tạo ra bởi những người đăng ký của họ, và tất cả chúng ta đều biết mô hình này.
SocietyOne, mà bạn có thể nghe hoặc không biết, đó là một thương hiệu địa phương, tôi nghĩ ở một vài quốc gia, đó là một ngân hàng thực sự cho vay ngang hàng, nên nói cách khác, nó không có tiền. Tất cả những gì nó làm là nó quản lý các giao dịch và dữ liệu nằm bên dưới nó. Netflix, tất cả chúng ta đều rất, rất quen thuộc với điều đó. Có một lớp lót thú vị ở đây. Khi Netflix có thể được sử dụng hợp pháp tại Úc, khi được công bố chính thức, bạn không phải sử dụng VPN để truy cập, nhiều người trên khắp thế giới có xu hướng - nếu bạn không thể truy cập vào khu vực địa phương của mình - khi Netfix được ra mắt tại Úc, nó đã tăng băng thông quốc tế trên các liên kết internet của chúng tôi lên 40%, do đó, nó đã tăng gần gấp đôi mức sử dụng internet ở Úc chỉ sau một ứng dụng, một ứng dụng được lưu trữ trên đám mây không có gì ngoài chơi với dữ liệu. Nó chỉ là một thống kê gây chú ý.
Và tất nhiên, tất cả chúng ta đều quen thuộc với Apple và Google, nhưng đây là những doanh nghiệp phần mềm lớn nhất trên hành tinh, nhưng họ không thực sự viết các ứng dụng. Điều gì phù hợp với tất cả các tổ chức này? Chà, đó là dữ liệu và họ không đến đó vì họ không biết dữ liệu của họ ở đâu và họ không biết cách lập danh mục.
Những gì chúng tôi tìm thấy bây giờ là có toàn bộ lớp tài sản mới này được gọi là dữ liệu và các công ty đang đánh thức nó. Nhưng họ không phải lúc nào cũng có công cụ và bí quyết và cách thức để ánh xạ tất cả dữ liệu đó, để lập danh mục tất cả dữ liệu đó và cung cấp dữ liệu đó, nhưng chúng tôi đã thấy rằng các công ty gần như không có tài sản vật lý nào có được giá trị thị trường cao trong ghi lại thời gian thông qua lớp tài sản dữ liệu mới này. Như tôi đã nói, một số người chơi cũ hiện đang thức dậy và chắc chắn sẽ đưa nó ra ngoài.
Tôi là một fan hâm mộ lớn của việc đưa dân gian vào một cuộc hành trình nhỏ, vì vậy trong mười tám trăm, mười tám trăm, và bạn sẽ quen thuộc hơn với điều này ở thị trường Hoa Kỳ, hóa ra là để điều tra dân số mỗi năm hoặc lâu hơn, tôi nghĩ rằng họ đã điều hành họ mười năm một lần vào thời điểm đó, nhưng nếu bạn sẽ điều tra một cuộc điều tra dân số hàng năm, bạn có thể mất đến tám hoặc chín năm để thực sự phân tích dữ liệu. Hóa ra bộ dữ liệu đó sau đó được để trong các hộp ở những nơi trên giấy và hầu như không ai có thể tìm thấy nó. Họ chỉ tiếp tục thực hiện các báo cáo này, nhưng dữ liệu thực tế rất khó để có được, chúng tôi có một tình huống tương tự với một thời điểm quan trọng khác của thế giới, vào khoảng những năm 1940, với Chiến tranh thế giới thứ hai, và điều này là Bletchley Park Bombe đánh vần là BOMBE và nó là một công cụ phân tích khủng khiếp số lượng lớn sẽ đi qua các tập dữ liệu nhỏ và tìm các tín hiệu trong đó, và được sử dụng để giúp bẻ khóa mã thông qua Enigma.
Điều này một lần nữa, về cơ bản là một thiết bị được thiết kế, không có nhiều mục lục, nhưng để gắn thẻ và ánh xạ dữ liệu, và làm cho nó có thể lấy các mẫu và tìm thấy nó trong các tập dữ liệu, trong trường hợp này, phá mã, tìm khóa và cụm từ và tìm chúng thường xuyên trong các tập dữ liệu và vì vậy chúng tôi đã trải qua hành trình tìm kiếm những thứ trong dữ liệu và hướng tới việc lập danh mục dữ liệu.
Và rồi những điều này xuất hiện, những giá đỡ máy móc giá rẻ khổng lồ này, chỉ là những chiếc máy có sẵn. Và chúng tôi đã làm một số điều rất thú vị, và một trong những điều chúng tôi đã làm với họ là chúng tôi đã xây dựng các cụm chi phí rất thấp có thể bắt đầu lập chỉ mục hành tinh, và rất nổi tiếng là những thương hiệu lớn đã đến và biến mất, nhưng có lẽ là ngôi nhà chung nhất của Google thương hiệu mà tất cả chúng ta đã nghe nói - nó trở thành một động từ thực sự và bạn biết bạn thành công khi thương hiệu của bạn trở thành một động từ. Nhưng điều mà Google dạy chúng ta, mà không nhận ra điều đó, có thể là trong thế giới kinh doanh, là họ có thể lập chỉ mục cho toàn hành tinh ở một mức độ nhất định và lập danh mục dữ liệu trên toàn thế giới và cung cấp dữ liệu rất dễ dàng, hình thức thuận tiện trong một công thức một dòng nhỏ xíu, một trang web gần như không có gì trên đó và bạn nhập truy vấn của mình, nó đi và tìm thấy nó bởi vì họ đã thu thập hành tinh, lập chỉ mục và làm cho nó dễ dàng có sẵn.
Và điều chúng tôi nhận thấy là, hãy chờ đợi, chúng tôi không làm điều này trong các tổ chức - tại sao vậy? Tại sao chúng ta có một tổ chức có thể lập bản đồ toàn bộ hành tinh và lập chỉ mục cho nó, thu thập dữ liệu và lập chỉ mục cho nó, và làm cho nó có sẵn, chúng ta có thể tìm kiếm nó, sau đó nhấp vào thứ để đi và tìm thấy nó, làm thế nào chúng ta đi Bây giờ có rất nhiều máy móc nhỏ trên khắp thế giới làm điều đó cho mạng nội bộ và tìm kiếm mọi thứ, nhưng họ vẫn thực sự hiểu được ý tưởng vượt ra ngoài web truyền thống trang, hoặc một máy chủ tập tin.
Thay vì bây giờ nhập vào thế hệ danh mục dữ liệu tiếp theo này bằng nhiều cách, khám phá truy cập dữ liệu qua ghi chú sau đó và các cuộc hội thoại làm mát bằng nước không thực sự là một phương pháp thích hợp để khám phá và lập danh mục dữ liệu nữa, và thực tế, tôi không nghĩ nó bao giờ thực sự là Chúng tôi không còn có thể dẫn toàn bộ thách thức đó đến mọi người chỉ cần chuyển ghi chú, đăng ghi chú và trò chuyện về nó. Hiện tại chúng tôi đang hoạt động tốt và thực sự vượt ra khỏi khu vực nơi cách tiếp cận thế hệ tiếp theo này để phân loại dữ liệu đã đến và biến mất. Chúng ta phải vòng tay ôm lấy nó. Nếu đây là một vấn đề dễ dàng, chúng tôi đã giải quyết nó theo nhiều cách trước đó, nhưng tôi nghĩ rằng đó không phải là một vấn đề dễ dàng, chỉ cần lập chỉ mục và gọi dữ liệu chỉ là một phần của nó, biết những gì trong dữ liệu và xây dựng siêu dữ liệu xung quanh những gì chúng ta khám phá và sau đó làm cho nó có sẵn ở dạng dễ sử dụng, đặc biệt là tự phục vụ và phân tích. Đây vẫn là một vấn đề đang được giải quyết, nhưng nhiều phần của câu đố trong năm năm đã được giải quyết tốt và thực sự có sẵn.
Như chúng ta đã biết, dữ liệu danh mục của con người là một công thức cho sự thất bại bởi vì lỗi của con người là một trong những cơn ác mộng lớn nhất mà chúng ta phải đối phó trong việc xử lý dữ liệu và tôi thường nói về chủ đề này, theo quan điểm của tôi, con người điền vào các mẫu giấy có lẽ là cơn ác mộng lớn nhất chúng tôi xử lý dữ liệu lớn và phân tích, để liên tục phải sửa những thứ họ làm, thậm chí xuống những thứ đơn giản như ngày tháng và trường, mọi người đặt nó ở định dạng sai.
Nhưng như tôi đã nói, chúng ta đã thấy các công cụ tìm kiếm internet lập chỉ mục trên thế giới mỗi ngày, vì vậy bây giờ chúng ta đang nghĩ đến việc có thể thực hiện trên các tập dữ liệu kinh doanh trong quá trình khám phá, và các công cụ và hệ thống hiện đang có sẵn như bạn sắp học hôm nay Vì vậy, mẹo, thực sự theo quan điểm của tôi, là chọn đúng công cụ, công cụ tốt nhất cho công việc. Và một cách thích hợp hơn trên hết, tìm phần đúng của nó để giúp bạn bắt đầu con đường này. Và tôi tin rằng chúng ta sẽ nghe về điều đó ngày hôm nay, nhưng trước khi chúng ta làm điều đó, tôi sẽ chuyển qua trường đại học của mình, Robin Bloor và nghe anh ấy nói về chủ đề này. Robin, tôi có thể chuyển qua cho bạn?
Robin Bloor: Vâng, chắc chắn bạn có thể. Hãy xem điều này có hiệu quả không, ồ đúng rồi. Được rồi, tôi đến từ một hướng khác với Dez thực sự, nhưng tôi sẽ ở cùng một nơi. Đây là về kết nối với dữ liệu, vì vậy tôi chỉ nghĩ rằng tôi sẽ tìm hiểu thực tế về kết nối với dữ liệu, từng điểm một.
Có một thực tế là dữ liệu bị phân mảnh nhiều hơn bao giờ hết. Khối lượng dữ liệu đang tăng lên một cách phi thường, nhưng trên thực tế, các nguồn dữ liệu khác nhau cũng đang tăng với tốc độ đáng kinh ngạc, và do đó dữ liệu ngày càng bị phân mảnh mọi lúc. Nhưng vì các ứng dụng phân tích nói riêng - nhưng đó không phải là các ứng dụng duy nhất - chúng tôi có lý do thực sự tốt để kết nối với tất cả các dữ liệu này, vì vậy chúng tôi bị mắc kẹt ở một nơi khó khăn, chúng tôi bị mắc kẹt trong một thế giới dữ liệu bị phân mảnh, và có cơ hội trong dữ liệu khi Dez gọi nó, loại dầu mới.
Về dữ liệu, tốt, nó từng sống trên đĩa quay, trong hệ thống tệp hoặc cơ sở dữ liệu. Bây giờ nó sống trong một môi trường đa dạng hơn nhiều, nó sống trong các hệ thống tệp nhưng hiện tại nó cũng sống trong các phiên bản Hadoop, hoặc thậm chí là các phiên bản Spark. Nó sống trong nhiều loài cơ sở dữ liệu. Cách đây không lâu, chúng tôi đã chuẩn hóa một số cơ sở dữ liệu quan hệ, bạn biết rằng đã ra khỏi cửa sổ trong năm năm qua, bởi vì cần có cơ sở dữ liệu tài liệu và cần có cơ sở dữ liệu đồ thị, vì vậy bạn biết đấy, trò chơi có đã thay đổi Vì vậy, nó sống trên đĩa quay, nhưng bây giờ nó sống trên SSD. Số lượng SSD mới nhất - chắc chắn là đơn vị SSD mới nhất sắp ra mắt từ Samsung - hai mươi gigabyte, rất lớn. Bây giờ nó sống trong bộ nhớ, theo nghĩa là bản sao chính của dữ liệu có thể nằm trong bộ nhớ, thay vì trên đĩa, chúng tôi không sử dụng để xây dựng các hệ thống như thế; chúng tôi làm ngay bây giờ Và nó sống trong đám mây. Điều đó có nghĩa là nó có thể sống trong bất kỳ thứ gì trong số này, trên đám mây, bạn sẽ không nhất thiết phải biết nó ở đâu trong một đám mây, bạn sẽ chỉ có địa chỉ của nó.
Chỉ cần ram về nhà, Hadoop cho đến nay, đã thất bại như một kho lưu trữ dữ liệu mở rộng. Chúng tôi đã hy vọng nó sẽ trở thành một kho lưu trữ dữ liệu mở rộng và nó sẽ trở thành một hệ thống tập tin cho mọi thứ, và về cơ bản, cầu vồng sẽ xuất hiện trên bầu trời, và những con kỳ lân sẽ nhảy xung quanh, và điều đó không xảy ra. Điều đó có nghĩa là chúng ta kết thúc với một vấn đề về vận chuyển dữ liệu và đôi khi không cần thiết phải truyền dữ liệu, nhưng đó cũng là một khó khăn. Ngày nay, dữ liệu thực sự có lực hấp dẫn, một khi bạn đã truy cập vào nhiều terabyte dữ liệu, chọn và ném nó xung quanh, loại độ trễ xuất hiện trên mạng của bạn hoặc xuất hiện ở nhiều nơi. Nếu bạn muốn vận chuyển dữ liệu xung quanh, thời gian là một yếu tố. Ngày nay hầu như luôn luôn có một số giới hạn về thời gian bạn có được một thứ, một dữ liệu từ nơi này đến nơi khác. Đã từng có những gì chúng ta từng nghĩ là cửa sổ hàng loạt, khi máy không hoạt động, và cho dù bạn có bao nhiêu dữ liệu, bạn chỉ có thể ném nó xung quanh và tất cả sẽ hoạt động. Chà đó đi rồi, chúng ta đang sống trong một thế giới thời gian thực hơn nhiều. Do đó thời gian là một yếu tố. Ngay khi bạn muốn di chuyển dữ liệu xung quanh, vì vậy nếu dữ liệu có trọng lực, có lẽ bạn không thể di chuyển dữ liệu.
Quản lý dữ liệu là một yếu tố theo nghĩa bạn thực sự phải quản lý tất cả dữ liệu này, bạn không nhận được nó miễn phí và có thể cần sao chép để thực sự có được dữ liệu để thực hiện công việc cần làm, bởi vì nó có thể không phải là bất cứ nơi nào bạn đã đặt nó. Nó có thể không có đủ tài nguyên để xử lý dữ liệu thông thường. Vì vậy, dữ liệu được sao chép và dữ liệu được sao chép nhiều hơn bạn tưởng. Tôi nghĩ rằng ai đó đã nói với tôi từ lâu rằng phần dữ liệu trung bình được sao chép ít nhất hai lần rưỡi. ESB hoặc Kafka trình bày một tùy chọn cho luồng dữ liệu, nhưng ngày nay nó đòi hỏi kiến trúc. Ngày nay bạn thực sự cần phải suy nghĩ theo cách này hay cách khác, về ý nghĩa thực sự của việc ném dữ liệu xung quanh. Do đó, để truy cập dữ liệu ở đó, thường là tốt hơn, miễn là, tất nhiên, bạn có thể có được hiệu suất bạn cần khi bạn thực sự đi tìm dữ liệu và điều đó phụ thuộc vào ngữ cảnh. Vì vậy, đó là một tình huống khó khăn, dù sao. Về mặt truy vấn dữ liệu, chúng tôi đã từng có thể nghĩ về SQL, chúng tôi đã thực sự đến bây giờ, bạn biết đấy, các dạng truy vấn khác nhau, SQL có, nhưng liền kề, cũng là truy vấn đồ thị, Spark chỉ là một ví dụ về thực hiện đồ thị, bởi vì chúng ta cũng cần thực hiện tìm kiếm văn bản, hơn bao giờ hết, cũng là loại tìm kiếm regex, đó là các tìm kiếm thực sự phức tạp cho các mẫu và khớp mẫu chính hãng, tất cả những điều này thực sự đang nổi lên. Và tất cả chúng đều hữu ích vì chúng giúp bạn có được thứ bạn đang tìm kiếm, hoặc chúng có thể giúp bạn có thứ bạn đang tìm kiếm.
Các truy vấn ngày nay trải dài trên nhiều dữ liệu, vì vậy nó không phải lúc nào cũng làm điều đó và thường thì hiệu suất sẽ kinh khủng nếu bạn làm điều đó. Vì vậy, nó phụ thuộc vào hoàn cảnh, nhưng mọi người mong đợi có thể truy vấn dữ liệu từ nhiều nguồn dữ liệu, do đó, liên kết dữ liệu theo cách này hay cách khác đang ngày càng trở nên hiện tại. Ảo hóa dữ liệu, một cách làm khác, tùy thuộc vào hiệu suất, cũng rất phổ biến. Truy vấn dữ liệu thực sự là một phần của một quy trình, không phải toàn bộ quá trình. Thật đáng để chỉ ra rằng nếu bạn thực sự xem hiệu suất phân tích, thì các phân tích thực tế có thể mất nhiều thời gian hơn so với việc thu thập dữ liệu, bởi vì điều đó phụ thuộc vào hoàn cảnh, nhưng truy vấn dữ liệu là một điều cần thiết tuyệt đối nếu bạn muốn thực hiện loại phân tích trên nhiều nguồn dữ liệu và thực sự, bạn thực sự phải có khả năng mở rộng.
Vì vậy, về danh mục. Các danh mục tồn tại vì một lý do, ít nhất chúng tôi đang nói rằng, bạn biết đấy, chúng tôi có các thư mục và chúng tôi có các lược đồ trong cơ sở dữ liệu, và chúng tôi có mỗi danh mục và chúng tôi có bất cứ nơi nào bạn đi, bạn sẽ tìm thấy một nơi và sau đó bạn sẽ thực sự thấy rằng có một số loại danh mục, và danh mục toàn cầu thống nhất là một ý tưởng rõ ràng tốt. Nhưng rất ít công ty có một điều như vậy. Tôi nhớ, hồi năm hai nghìn - năm hai nghìn hoảng loạn - tôi nhớ rằng những người cộng sản thậm chí không thể xác định được họ có bao nhiêu thực thi, không quan tâm họ có bao nhiêu cửa hàng dữ liệu khác nhau, và có lẽ bây giờ là trường hợp, bạn biết đấy, hầu hết các công ty không chủ động biết theo nghĩa toàn cầu, họ đã có dữ liệu gì. Nhưng rõ ràng ngày càng cần thiết phải có một danh mục toàn cầu, hoặc ít nhất là có một bức tranh toàn cầu về những gì đang diễn ra vì sự tăng trưởng của các nguồn dữ liệu và sự phát triển liên tục của các ứng dụng và đặc biệt cần thiết cho các phân tích, bởi vì bạn cũng theo một cách, và có những vấn đề khác ở đây như dòng dõi và vấn đề với dữ liệu, và nó cần thiết cho bảo mật, nhiều khía cạnh của quản trị dữ liệu, nếu bạn thực sự không biết bạn có dữ liệu gì, ý tưởng đó rằng bạn sẽ cai trị nó chỉ là vô lý. Vì vậy, trong đó, tất cả các dữ liệu được phân loại theo một cách nào đó chỉ là một thực tế. Câu hỏi là liệu danh mục có mạch lạc không, và thực sự bạn có thể làm gì với nó. Vì vậy, tôi sẽ trở lại Rebecca.
Rebecca Jozwiak: Được rồi, cảm ơn Robin. Tiếp theo chúng ta đã có David Crawford từ Alation, David Tôi sẽ đi trước và chuyền bóng cho bạn, và bạn có thể mang nó đi.
David Crawford: Cảm ơn bạn rất nhiều. Tôi thực sự đánh giá cao các bạn có tôi trong chương trình này. Tôi nghĩ rằng tôi sẽ bắt đầu điều này, vì vậy tôi nghĩ vai trò của tôi ở đây là lấy một số lý thuyết đó và xem nó được áp dụng như thế nào, và kết quả mà chúng tôi có thể lái xe ở khách hàng thực và vì vậy bạn có thể thấy Một vài điều trên slide, tôi muốn nói về những kết quả mà chúng ta sẽ có thể thấy trong các cải tiến có thể phân tích. Vì vậy, để thúc đẩy cuộc thảo luận, chúng ta sẽ nói về cách họ đến đó. Vì vậy, tôi may mắn được làm việc khá chặt chẽ với nhiều người thực sự thông minh, những khách hàng này và tôi chỉ muốn chỉ ra một vài người có thể thực sự đo lường và nói về việc một danh mục dữ liệu đã tác động đến nhà phân tích của họ như thế nào quy trình làm việc. Và chỉ cần đứng ở phía trước, tôi nghĩ một trong những điều mà chúng ta thấy sự thay đổi, với danh mục dữ liệu là các giải pháp trung gian trước đây và một trong những cách mà các mối quan hệ thực sự nghĩ về các giải pháp mà chúng ta đưa ra, là bắt đầu từ các nhà phân tích và làm việc ngược lại. Để nói, hãy làm điều này về việc cho phép năng suất của các nhà phân tích. Trái ngược với việc chỉ tuân thủ, hoặc trái ngược với việc chỉ có một kho lưu trữ, chúng tôi đang tạo ra một công cụ giúp các nhà phân tích làm việc hiệu quả hơn.
Vì vậy, khi tôi nói chuyện với một nhà khoa học dữ liệu tại công ty dịch vụ tài chính Square, có một anh chàng, Nick, người đang kể cho chúng tôi về cách anh ta, anh ta thường mất vài giờ để tìm đúng dữ liệu để bắt đầu báo cáo, giờ anh ta có thể làm điều đó chỉ trong vài giây bằng cách tìm kiếm thị phần, chúng tôi đã nói chuyện với CTO của họ, người đã kéo các nhà phân tích của anh ta đang sử dụng Square, xin lỗi, đang sử dụng Alation, để tìm hiểu xem họ đã thấy những lợi ích gì và họ đã báo cáo 50 tăng năng suất phần trăm và rằng, một trong những nhà bán lẻ hàng đầu thế giới, eBay, họ đã có hơn một nghìn người đang phân tích SQL một cách thường xuyên và tôi làm việc khá chặt chẽ với Deb Says ở đó, ai là dự án người quản lý trong nhóm công cụ dữ liệu của họ và cô phát hiện ra rằng khi những người truy vấn chấp nhận Alation, chấp nhận một danh mục, họ sẽ thấy tốc độ của việc viết các truy vấn mới đối với cơ sở dữ liệu gấp đôi.
Vì vậy, đây là kết quả thực sự, đây là những người thực sự áp dụng danh mục trong tổ chức của họ và tôi muốn đưa bạn qua những gì nó cần để thiết lập. Làm thế nào một danh mục được thành lập trong một công ty, và có lẽ điều quan trọng nhất để nói, là rất nhiều trong số đó xảy ra tự động, vì vậy Dez đã nói về các hệ thống, tìm hiểu về các hệ thống và đó chính xác là những gì một danh mục dữ liệu hiện đại làm. Vì vậy, họ cài đặt Alation trong trung tâm dữ liệu của mình và sau đó họ kết nối nó với nhiều nguồn siêu dữ liệu khác nhau trong môi trường dữ liệu của họ. Tôi sẽ tập trung một chút vào cơ sở dữ liệu và các công cụ BI - từ cả hai thứ này, chúng tôi sẽ trích xuất siêu dữ liệu kỹ thuật, về cơ bản những gì tồn tại. Phải rồi, vậy những bảng nào? Báo cáo gì? Các định nghĩa báo cáo là gì? Vì vậy, họ trích xuất siêu dữ liệu kỹ thuật đó và một trang danh mục được tạo tự động cho mọi đối tượng bên trong các hệ thống đó, và sau đó, họ cũng trích xuất và lớp trên đầu siêu dữ liệu kỹ thuật đó, chúng nằm trên dữ liệu sử dụng. Điều đó chủ yếu được thực hiện bằng cách đọc nhật ký truy vấn từ cơ sở dữ liệu và đây là một nguồn thông tin thực sự thú vị. Vì vậy, bất cứ khi nào nhà phân tích viết một truy vấn, bất cứ khi nào một công cụ báo cáo, cho dù đó là nhà phát triển, hoặc ngoài giá, liệu công cụ báo cáo có chạy truy vấn để cập nhật bảng điều khiển hay không, khi một ứng dụng chạy truy vấn để chèn dữ liệu vào hoạt động một tập dữ liệu - tất cả những thứ đó được ghi lại trong nhật ký truy vấn cơ sở dữ liệu. Cho dù bạn có một danh mục hay không, chúng đều được ghi lại trong nhật ký truy vấn với cơ sở dữ liệu. Những gì một danh mục dữ liệu có thể làm, và đặc biệt là những gì danh mục của Alation có thể làm, là đọc các nhật ký đó, hỏi các truy vấn bên trong chúng và tạo một biểu đồ sử dụng thực sự thú vị dựa trên các nhật ký đó và chúng tôi phát huy để thông báo cho người dùng trong tương lai của dữ liệu về cách người dùng trước đây của dữ liệu đã sử dụng nó.
Vì vậy, chúng tôi tập hợp tất cả kiến thức đó vào một danh mục và để biến nó thành sự thật, đây là những tích hợp đã được triển khai tại khách hàng, vì vậy, chúng tôi đã thấy Oracle, Teradata, Redshift, Vertica và một loạt khác Cơ sở dữ liệu quan hệ. Trong thế giới Hadoop, có một loạt SQL trên Hadoop, loại quan hệ, lưu trữ meta trên đầu hệ thống tệp Hadoop, Impala, Tez, Presto và Hive, chúng tôi cũng đã thấy thành công với các nhà cung cấp riêng của Hadoop như Altiscale và chúng tôi cũng đã có thể kết nối với máy chủ Tableau, máy chủ MicroStrargety và lập chỉ mục các bảng điều khiển ở đó, cũng như tích hợp với các công cụ biểu đồ khoa học dữ liệu như Plotly.
Vì vậy, chúng tôi kết nối với tất cả các hệ thống này, chúng tôi đã kết nối các hệ thống này với khách hàng, chúng tôi đã lấy siêu dữ liệu kỹ thuật, chúng tôi đã lấy dữ liệu sử dụng và chúng tôi sắp xếp tự động theo danh mục dữ liệu, nhưng theo cách đó, chúng tôi tập trung kiến thức, nhưng chỉ tập trung mọi thứ vào một danh mục dữ liệu, tự nó không cung cấp những tăng năng suất thực sự tuyệt vời mà chúng ta đã nói về eBay, Square và thị phần. Để làm được điều đó, chúng tôi thực sự cần thay đổi cách chúng tôi nghĩ về việc cung cấp kiến thức cho các nhà phân tích. Một trong những câu hỏi mà họ đang yêu cầu chuẩn bị cho vấn đề này là, Làm thế nào để danh mục thực sự tác động đến quy trình làm việc của nhà phân tích?
Đó là những gì chúng ta dành cả ngày để suy nghĩ, và để nói về sự thay đổi trong suy nghĩ này, về một câu đẩy, một mô hình kéo, tôi muốn tạo ra một sự tương tự nhanh chóng với thế giới giống như trước và sau khi đọc trên Kindle. Vì vậy, đó chỉ là một kinh nghiệm mà một số bạn có thể có, khi bạn đang đọc một cuốn sách vật lý, bạn bắt gặp một từ, bạn không chắc bạn biết định nghĩa của từ đó siêu tốt, bạn có thể đoán nó từ ngữ cảnh, không phải là bạn sẽ rời khỏi đi văng, đi đến kệ sách của bạn, tìm từ điển của bạn, phủi nó và lật đến đúng nơi trong danh sách các từ theo thứ tự chữ cái để đảm bảo rằng, vâng bạn có định nghĩa đúng, và bạn biết các sắc thái của nó. Vì vậy, nó không thực sự xảy ra. Vì vậy, bạn mua một ứng dụng Kindle và bạn bắt đầu đọc sách ở đó và bạn thấy một từ bạn không hoàn toàn chắc chắn và bạn chạm vào từ đó. Bất ngờ, ngay trong cùng một màn hình, là định nghĩa từ điển của từ này, với tất cả các sắc thái của nó, cách sử dụng ví dụ khác nhau và bạn vuốt một chút, và bạn nhận được một bài viết Wikipedia về chủ đề đó, bạn lại vuốt, bạn có một công cụ dịch thuật có thể dịch nó sang các ngôn ngữ khác hoặc từ các ngôn ngữ khác, và đột nhiên kiến thức về ngôn ngữ của bạn phong phú hơn rất nhiều, và nó chỉ xảy ra một số lần đáng kinh ngạc, so với khi bạn phải đi và kéo tài nguyên đó cho chính mình.
Và vì vậy, điều tôi sẽ tranh luận, đó là quy trình làm việc của một nhà phân tích và cách mà một nhà phân tích sẽ xử lý tài liệu dữ liệu, thực sự rất giống với cách người đọc sẽ tương tác với từ điển, cho dù là một vật lý, hoặc mặc dù Kindle, và vì vậy, những gì chúng ta, theo cách chúng ta thực sự thấy tăng năng suất này, không phải là làm đổ danh mục, mà là kết nối nó với quy trình làm việc của nhà phân tích, và vì vậy, họ đã yêu cầu tôi làm một bản demo ở đây, và tôi muốn để làm cho đó là trọng tâm của bài trình bày này. Nhưng tôi chỉ muốn thiết lập bối cảnh cho bản demo. Khi chúng tôi nghĩ về việc thúc đẩy kiến thức dữ liệu cho người dùng khi họ cần, chúng tôi nghĩ rằng nơi phù hợp để làm điều đó, nơi họ dành thời gian và nơi họ thực hiện phân tích, là một công cụ truy vấn SQL. Một nơi mà bạn viết và chạy các truy vấn SQL. Và vì vậy, chúng tôi đã xây dựng một cái, và chúng tôi đã xây dựng nó, và điều thực sự khác biệt về nó so với các công cụ truy vấn khác là sự tích hợp sâu với danh mục dữ liệu.
Vì vậy, công cụ truy vấn của chúng tôi được gọi là Alation Compose. Đây là một công cụ truy vấn dựa trên web và tôi sẽ hiển thị cho bạn sau. Một công cụ truy vấn dựa trên web hoạt động trên tất cả các logo cơ sở dữ liệu mà bạn đã thấy trên trang chiếu trước đó. Điều tôi sẽ cố gắng để giới thiệu cụ thể là cách thông tin danh mục đến với người dùng. Và nó làm điều đó thông qua các loại ba cách khác nhau. Nó thực hiện điều đó thông qua các biện pháp can thiệp và đó là nơi mà ai đó là người điều hành dữ liệu, hoặc người quản lý dữ liệu, hoặc một quản trị viên của một cách nào đó, hoặc người quản lý, có thể nói, Tôi muốn sắp xếp xen kẽ với một ghi chú hoặc cảnh báo trong quy trình làm việc và đảm bảo rằng nó được phân phối đến người dùng vào đúng thời điểm. Vì vậy, đó là một sự can thiệp và chúng tôi sẽ chỉ ra điều đó.
Gợi ý thông minh là cách mà công cụ sử dụng tất cả kiến thức tổng hợp của nó về danh mục để đề xuất các đối tượng và các phần của truy vấn khi bạn viết nó. Điều quan trọng nhất cần biết là nó thực sự tận dụng nhật ký truy vấn để làm điều đó, để đề xuất những thứ dựa trên việc sử dụng và cũng để tìm ngay cả các phần của các truy vấn đã được viết trước đó. Và chúng tôi sẽ chỉ ra điều đó.
Và sau đó xem trước. Xem trước là, khi bạn nhập tên của một đối tượng, chúng tôi hiển thị cho bạn mọi thứ mà danh mục biết, hoặc ít nhất là những điều có liên quan nhất mà danh mục biết về đối tượng đó. Vì vậy, các mẫu dữ liệu, những người đã sử dụng nó trước đây, tên và mô tả logic của đối tượng đó, tất cả đều đến với bạn trong khi bạn viết nó mà không cần phải yêu cầu.
Vì vậy, không cần nói thêm nữa, tôi sẽ đến bản demo và tôi sẽ đợi nó xuất hiện. Những gì tôi sẽ cho bạn thấy ở đây là công cụ truy vấn. Đó là một giao diện viết SQL chuyên dụng. Đó là một giao diện riêng biệt từ danh mục, theo một nghĩa nào đó. Dez và Robin đã nói về danh mục, và tôi sẽ chuyển qua giao diện danh mục một chút về cách nó được đưa trực tiếp vào để phục vụ quy trình làm việc.
Tôi chỉ hiển thị ở đây một nơi tôi có thể nhập SQL và ở phía dưới, bạn sẽ thấy rằng chúng tôi sắp xếp một số thông tin về các đối tượng mà chúng tôi đang tham khảo. Vì vậy, tôi sẽ bắt đầu nhập một truy vấn và tôi sẽ dừng lại khi tôi nhận được một trong những can thiệp này. Vì vậy, tôi sẽ chọn loại, chọn và tôi muốn năm. Tôi muốn tên. Và tôi sẽ tìm kiếm một số dữ liệu lương. Vì vậy, đây là một bộ dữ liệu giáo dục. Nó có thông tin về các tổ chức giáo dục đại học và tôi đang xem mức lương trung bình của giảng viên ở một trong những bảng này.
Vì vậy, tôi thực sự đã gõ từ lương Lương. Hãy không chính xác trong tên của cột theo cách đó. Chúng tôi sử dụng cả siêu dữ liệu logic và siêu dữ liệu vật lý để thực hiện các đề xuất. Và điều tôi muốn chỉ ra ở đây là cái hộp màu vàng này xuất hiện ở đây. Nó nói có một cảnh báo trên cột này. Tôi đã không đi tìm điều đó, tôi đã không tham gia một lớp học về cách sử dụng dữ liệu này đúng cách. Nó đã đến với tôi, và nó là một cảnh báo về một thỏa thuận bảo mật liên quan đến dữ liệu này. Vì vậy, có một số quy tắc công bố. Nếu tôi sẽ truy vấn dữ liệu này, tôi sẽ lấy dữ liệu ra khỏi bảng này, tôi nên cẩn thận về cách tôi tiết lộ nó. Vì vậy, bạn có một chính sách quản trị ở đây. Có một số thách thức tuân thủ giúp việc tuân thủ chính sách này trở nên dễ dàng hơn rất nhiều khi tôi biết về nó tại thời điểm tôi đang xem dữ liệu.
Vì vậy, tôi đã nhận được điều đó đến với tôi, và sau đó tôi cũng sẽ xem xét học phí. Và ở đây chúng ta thấy các bản xem trước đi vào chơi. Trên cột học phí này, tôi thấy - có một cột học phí trên bảng tổ chức, và tôi đang thấy một hồ sơ về điều đó. Alation đi và lấy dữ liệu mẫu từ các bảng và trong trường hợp này, nó cho tôi thấy một thứ khá thú vị. Nó cho tôi thấy sự phân phối của các giá trị và nó cho tôi thấy rằng giá trị 0 xuất hiện 45 lần trong mẫu và nhiều hơn bất kỳ giá trị nào khác. Vì vậy, tôi đã có một số ý nghĩa rằng chúng ta có thể thiếu một số dữ liệu.
Nếu tôi là một nhà phân tích nâng cao, thì đây có thể là một phần trong quy trình làm việc của tôi. Đặc biệt nếu tôi là một người đặc biệt tỉ mỉ, nơi tôi sẽ thực hiện một loạt các truy vấn hồ sơ trước thời hạn. Bất cứ khi nào tôi tiếp cận một phần dữ liệu mới, tôi luôn nghĩ về phạm vi bảo hiểm dữ liệu của chúng tôi là gì. Nhưng nếu tôi chưa quen với phân tích dữ liệu, nếu tôi chưa quen với bộ dữ liệu này, tôi có thể cho rằng nếu có một cột, nó sẽ được điền vào mọi lúc. Hoặc tôi có thể cho rằng nếu nó không được điền vào, nó không phải là không, nó là null hoặc đại loại như thế. Nhưng trong trường hợp này, chúng ta có rất nhiều số 0 và nếu tôi làm trung bình, họ có thể sai, nếu tôi chỉ cho rằng những số 0 đó thực sự bằng 0 thay vì thiếu dữ liệu.
Nhưng Alation, bằng cách đưa bản xem trước này vào quy trình làm việc của bạn, loại yêu cầu bạn xem qua thông tin này và thậm chí cho các nhà phân tích người mới có cơ hội thấy rằng có điều gì đó cần chú ý ở đây về dữ liệu đó. Vì vậy, chúng tôi có bản xem trước đó.
Điều tiếp theo mà tôi sẽ làm là tôi sẽ cố gắng tìm hiểu những bảng nào để có được thông tin này. Vì vậy, ở đây chúng ta thấy những gợi ý thông minh. Nó đã diễn ra mọi lúc, nhưng đặc biệt ở đây, tôi thậm chí không gõ bất cứ thứ gì ngoài việc nó sẽ gợi ý cho tôi những bảng nào tôi có thể muốn sử dụng cho truy vấn này. Và điều quan trọng nhất cần biết về điều này là nó tận dụng các chỉ số sử dụng. Vì vậy, trong một môi trường như eBay, nơi bạn có hàng trăm ngàn bảng trong một cơ sở dữ liệu, có một công cụ có thể đánh lúa mì từ vỏ trấu và sử dụng các chỉ số sử dụng đó, thực sự quan trọng để tạo ra các đề nghị giá trị một cái gì đó.
Vì vậy, nó sẽ đề xuất bảng này. Khi tôi xem bản xem trước, chúng tôi thực sự làm nổi bật ba trong số các cột mà tôi đã đề cập đã có trong truy vấn của mình. Vì vậy, tôi biết rằng nó có ba, nhưng nó không có tên. Tôi cần phải có tên, vì vậy tôi sẽ tham gia. Khi tôi tham gia, bây giờ một lần nữa tôi có các bản xem trước này để giúp tôi tìm, đâu là bảng có tên. Vì vậy, tôi thấy rằng cái này có một tên được viết hoa đúng định dạng. Nó dường như có một hàng với một tên cho mỗi tổ chức, vì vậy tôi sẽ nắm lấy điều đó, và bây giờ tôi cần một điều kiện tham gia.
Và vì vậy, ở đây những gì Alation đang làm là một lần nữa nhìn lại nhật ký truy vấn, thấy những lần trước đó hai bảng này đã được nối và gợi ý những cách khác nhau để tham gia chúng. Một lần nữa, có một số can thiệp. Nếu tôi nhìn vào một trong số này, nó có một cảnh báo cho tôi thấy rằng điều này chỉ nên được sử dụng để phân tích tổng hợp. Nó có thể sẽ tạo ra điều sai nếu bạn đang cố gắng làm điều gì đó thông qua tổ chức theo thể chế. Trong trường hợp này, với OPE ID được xác nhận là cách kết hợp hai bảng này nếu bạn muốn dữ liệu cấp đại học. Vì vậy, tôi làm điều đó và đó là một truy vấn ngắn, nhưng tôi đã viết truy vấn của mình mà không thực sự có bất kỳ hiểu biết nào về dữ liệu. Tôi chưa bao giờ thực sự nhìn vào sơ đồ ER của bộ dữ liệu này, nhưng tôi biết khá nhiều về dữ liệu này vì thông tin liên quan đang đến với tôi.
Vì vậy, đó là một trong ba cách mà một danh mục có thể, thông qua một công cụ truy vấn tích hợp, tác động trực tiếp đến quy trình làm việc khi bạn đang viết truy vấn. Nhưng một trong những lợi ích khác của việc có một công cụ truy vấn được tích hợp với một danh mục là, khi tôi hoàn thành truy vấn của mình và tôi lưu nó, tôi có thể đặt một tiêu đề như Học phí Học viện và Lương Khoa, và sau đó tôi có một nút cho phép tôi chỉ xuất bản nó vào danh mục. Nó trở nên rất dễ dàng cho tôi để nuôi trở lại này. Ngay cả khi tôi không xuất bản nó, nó vẫn bị bắt như một phần của nhật ký truy vấn, nhưng khi tôi xuất bản nó, nó thực sự trở thành một phần của nơi tập trung tất cả các kiến thức dữ liệu đang sống.
Vì vậy, nếu tôi nhấp vào Tìm kiếm tất cả các truy vấn trong Alation, tôi sẽ được thực hiện - và ở đây bạn sẽ thấy thêm một số giao diện danh mục - Tôi được đưa đến một tìm kiếm truy vấn chuyên dụng chỉ cho tôi cách tìm truy vấn trên toàn bộ tổ chức. Và bạn thấy rằng truy vấn mới được công bố của tôi là ở đầu. Và một số người có thể nhận thấy ở đây, khi chúng tôi nắm bắt các truy vấn, chúng tôi cũng nắm bắt được các tác giả và chúng tôi sắp xếp mối quan hệ này giữa tôi với tư cách là một tác giả và những đối tượng dữ liệu mà bây giờ tôi biết. Và tôi đang được thành lập như một chuyên gia về truy vấn này và trên các đối tượng dữ liệu này. Điều đó thực sự hữu ích khi mọi người cần đi tìm hiểu về dữ liệu, sau đó họ có thể đi tìm đúng người để tìm hiểu. Và nếu tôi thực sự mới đối với dữ liệu, cho dù tôi là nhà phân tích nâng cao - với tư cách là nhà phân tích nâng cao, tôi có thể xem xét điều này và xem một loạt các ví dụ sẽ giúp tôi bắt đầu với bộ dữ liệu mới. Là một người có thể không cảm thấy siêu hiểu biết về SQL, tôi có thể tìm thấy các truy vấn được tạo sẵn là các báo cáo mà tôi có thể tận dụng.
Đây là một bài của Phil Mazanett về điểm SAT trung bình. Nhấp vào đây và tôi nhận được một trang danh mục cho chính truy vấn đó. Nó nói về một bài báo được viết có tham khảo truy vấn này, vì vậy có một số tài liệu để tôi đọc nếu tôi muốn tìm hiểu cách sử dụng nó. Và tôi có thể mở nó trong công cụ truy vấn bằng cách nhấp vào nút Soạn và tôi chỉ có thể tự chạy nó ở đây mà không cần chỉnh sửa. Và thực tế, bạn có thể thấy một chút khả năng báo cáo nhẹ của chúng tôi, khi bạn viết một truy vấn, bạn có thể thả vào một biến mẫu như thế này và nó tạo ra một cách đơn giản để tạo một biểu mẫu để thực hiện truy vấn dựa trên trên một vài tham số.
Vì vậy, đó là những gì tôi có cho bản demo. Tôi sẽ chuyển trở lại các slide. Chỉ để tóm tắt, chúng tôi đã chỉ ra cách quản trị viên, người điều hành dữ liệu, có thể can thiệp bằng cách đặt cảnh báo lên các đối tượng hiển thị trong công cụ truy vấn, cách Alation sử dụng kiến thức về cách sử dụng đối tượng dữ liệu để đưa ra đề xuất thông minh, cách thức mang lại trong hồ sơ và các mẹo khác để cải thiện quy trình làm việc của các nhà phân tích khi họ chạm vào các đối tượng cụ thể và cách tất cả các loại nguồn cấp dữ liệu đó trở lại danh mục khi các truy vấn mới được viết.
Rõ ràng tôi là người phát ngôn thay mặt cho công ty. Tôi sẽ nói những điều tốt đẹp về danh mục dữ liệu. Nếu bạn muốn nghe trực tiếp từ một trong những khách hàng của chúng tôi, Kristie Allen tại Safeway điều hành một nhóm các nhà phân tích và có một câu chuyện thực sự thú vị về thời điểm cô ấy cần thực sự đánh bại đồng hồ để thực hiện một thử nghiệm tiếp thị và toàn bộ cô ấy nhóm đã sử dụng Alation để hợp tác và thực hiện nhanh chóng dự án đó. Vì vậy, bạn có thể theo liên kết bit.ly này để kiểm tra câu chuyện đó hoặc nếu bạn muốn nghe một chút về cách Alation có thể mang một danh mục dữ liệu vào tổ chức của bạn, chúng tôi rất vui khi thiết lập bản demo được cá nhân hóa. Cảm ơn rất nhiều.
Rebecca Jozwiak: Cảm ơn rất nhiều, David. Tôi chắc chắn rằng Dez và Robin có một vài câu hỏi trước khi tôi chuyển sang hỏi đáp khán giả. Dez, bạn có muốn đi trước không?
Dez Blanchfield: Hoàn toàn. Tôi thích ý tưởng về khái niệm truy vấn được xuất bản này và liên kết nó trở lại nguồn của tác giả. Tôi đã là một nhà vô địch lâu năm về ý tưởng này của một cửa hàng ứng dụng nội bộ và tôi nghĩ rằng đây là một nền tảng thực sự tuyệt vời để xây dựng dựa trên đó.
Tôi đã hiểu được một số cái nhìn sâu sắc về một số tổ chức mà bạn đang thấy, và một số câu chuyện thành công mà họ có thể có trong toàn bộ hành trình này không chỉ tận dụng công cụ và nền tảng của bạn để khám phá dữ liệu, nhưng sau đó cũng biến đổi các đặc điểm văn hóa và hành vi nội bộ của họ xung quanh. Bây giờ có loại cửa hàng ứng dụng nội bộ này, nơi bạn chỉ cần tải xuống, khái niệm nơi họ không chỉ có thể tìm thấy mà còn thực sự có thể bắt đầu phát triển các cộng đồng nhỏ với những người nắm giữ kiến thức đó.
David Crawford: Vâng, tôi nghĩ rằng chúng tôi đã ngạc nhiên. Chúng tôi tin vào giá trị của các truy vấn chia sẻ, cả từ quá khứ của tôi với tư cách là người quản lý sản phẩm tại Adtech và từ tất cả các khách hàng mà chúng tôi đã nói chuyện, nhưng tôi vẫn ngạc nhiên về mức độ thường xuyên là một trong những điều đầu tiên mà khách hàng nói về giá trị mà họ nhận được từ Alation.
Tôi đang thực hiện một số thử nghiệm của người dùng về công cụ truy vấn tại một trong những khách hàng của chúng tôi có tên Invoice2go và họ có một người quản lý sản phẩm còn khá mới và họ nói - anh ấy thực sự đã nói với tôi, trong khi kiểm tra người dùng, tôi thực sự sẽ không Viết SQL hoàn toàn ngoại trừ việc nó trở nên dễ dàng bởi Alation. Và tất nhiên, với tư cách là Thủ tướng, tôi đi, Ý nghĩa của bạn là gì, chúng tôi đã làm điều đó như thế nào? bởi vì tôi có thể đăng nhập và tôi có thể thấy tất cả các truy vấn hiện có này. Bắt đầu với một bảng trống với SQL là một điều cực kỳ khó thực hiện, nhưng sửa đổi một truy vấn hiện có nơi bạn có thể thấy kết quả được đưa ra và bạn có thể nói, Tôi ơi, tôi chỉ cần thêm cột này, hay hay, tôi cần lọc nó theo một phạm vi ngày cụ thể, đó là một việc dễ dàng hơn nhiều.
Chúng ta đã thấy những vai trò phụ trợ này, như người quản lý sản phẩm, có thể là những người trong ngành bán hàng, những người bắt đầu chọn và những người luôn muốn học SQL và bắt đầu chọn nó bằng cách sử dụng danh mục này. Chúng tôi cũng đã thấy rằng rất nhiều công ty đã cố gắng thực hiện loại nguồn mở. Tôi đã cố gắng xây dựng những thứ này trong nội bộ, nơi họ theo dõi các truy vấn và làm cho nó có sẵn, và có một số thách thức thiết kế thực sự khó khăn để làm cho chúng hữu ích. Facebook đã có một công cụ nội bộ mà họ gọi là HiPal, loại bắt được tất cả các truy vấn được viết trên Hive, nhưng những gì bạn phát hiện ra là, nếu bạn không loại bỏ người dùng theo đúng cách, bạn sẽ kết thúc bằng một danh sách rất dài của các tuyên bố chọn. Và với tư cách là một người dùng đang cố gắng tìm hiểu xem một truy vấn có hữu ích cho tôi hay nếu nó tốt, nếu tôi xem qua một danh sách dài các câu lệnh được chọn, tôi sẽ mất nhiều thời gian hơn để nhận được thứ gì đó có giá trị hơn bắt đầu từ số không. Chúng tôi đã suy nghĩ khá kỹ về cách tạo một danh mục truy vấn mang những thứ phù hợp ra phía trước và cung cấp nó theo cách hữu ích.
Dez Blanchfield: Tôi nghĩ tất cả chúng ta đều trải qua hành trình này từ khi còn rất nhỏ, cho đến khi trưởng thành, theo nhiều cách. Một loạt các công nghệ. Bản thân tôi, tôi đã trải qua điều rất chân thật đó, như học cách cắt mã. Tôi sẽ đi qua các tạp chí và sau đó là sách, và tôi sẽ học ở một mức độ nhất định, và sau đó tôi cần phải đi và thực sự được đào tạo và giáo dục thêm về nó.
Nhưng vô tình tôi thấy rằng ngay cả khi tôi vừa đi vừa tự học đọc tạp chí, đọc sách và cắt các chương trình của người khác và tham gia các khóa học về nó, tôi vẫn kết thúc việc học nhiều như tôi đã nói với các khóa học khác. những người đã có một số kinh nghiệm. Và tôi nghĩ rằng đó là một khám phá thú vị rằng, bây giờ khi bạn mang điều đó đến phân tích dữ liệu, về cơ bản chúng ta đang thấy điều tương tự, rằng con người luôn luôn khá thông minh.
Một điều khác mà tôi thực sự muốn hiểu là, ở một mức độ rất cao, nhiều tổ chức sẽ hỏi, Thời gian để đi đến điểm đó là bao lâu? nền tảng của bạn đã được cài đặt và họ bắt đầu khám phá các loại công cụ? Mọi người sẽ nhanh chóng thấy điều này biến thành một khoảnh khắc thực sự ngay lập tức khi họ nhận ra rằng họ thậm chí không còn lo lắng về ROI nữa bởi vì nó ở đó, nhưng giờ đây họ thực sự thay đổi cách họ kinh doanh ? Và họ đã phát hiện ra một nghệ thuật đã mất và họ hy vọng họ có thể làm điều gì đó thực sự, thực sự thú vị với nó.
David Crawford: Vâng, tôi có thể chạm vào nó một chút. Tôi nghĩ rằng khi chúng tôi được cài đặt, một trong những điều tốt đẹp, một trong những điều mà mọi người thích về một danh mục được kết nối trực tiếp vào hệ thống dữ liệu, là bạn không bắt đầu để trống nơi bạn phải điền nó vào từng trang. Và điều này đúng với các giải pháp dữ liệu trước đây khi bạn bắt đầu với một công cụ trống và bạn phải bắt đầu tạo một trang cho mọi thứ bạn muốn ghi lại.
Vì chúng tôi ghi lại rất nhiều thứ tự động bằng cách trích xuất siêu dữ liệu, về cơ bản trong vài ngày sau khi cài đặt phần mềm, bạn có thể có một hình ảnh về môi trường dữ liệu của mình có ít nhất 80 phần trăm trong công cụ. Và sau đó tôi nghĩ ngay khi mọi người bắt đầu viết các truy vấn bằng công cụ, chúng sẽ được lưu tự động trở lại vào danh mục và vì vậy chúng cũng sẽ bắt đầu hiển thị.
Tôi không muốn quá háo hức khi nói điều đó. Tôi nghĩ rằng hai tuần là một ước tính bảo thủ khá tốt, đến một tháng. Hai tuần đến một tháng, ước tính thận trọng về việc thực sự quay đầu và cảm thấy như bạn đang nhận được giá trị từ đó, giống như bạn bắt đầu chia sẻ một số kiến thức và có thể đến đó và tìm hiểu mọi thứ về dữ liệu của bạn.
Dez Blanchfield: Thật đáng kinh ngạc, thực sự, khi bạn nghĩ về nó. Thực tế là một số nền tảng dữ liệu lớn mà bạn lập chỉ mục và lập danh mục hiệu quả đôi khi sẽ mất đến hàng năm để triển khai và triển khai và đứng lên đúng cách.
Câu hỏi cuối cùng tôi dành cho bạn trước khi trao cho Robin Bloor, là các kết nối. Một trong những điều ngay lập tức nhảy ra với tôi là bạn rõ ràng đã giải quyết được toàn bộ thử thách. Vì vậy, có một vài câu hỏi thực sự nhanh chóng. Một, làm thế nào nhanh chóng để kết nối được thực hiện? Rõ ràng là bạn bắt đầu với nền tảng lớn nhất, như Oracles và Teradatas, v.v. và DB2. Nhưng bạn có thường xuyên nhìn thấy các kết nối mới đi qua không, và họ mất bao nhiêu thời gian để quay vòng? Tôi tưởng tượng bạn có một khung tiêu chuẩn cho họ. Và làm thế nào sâu bạn đi vào những người? Ví dụ, Oracles và IBM của thế giới, và thậm chí cả Tereadata, và sau đó là một số nền tảng nguồn mở phổ biến hơn. Họ có làm việc trực tiếp với bạn không? Bạn đang tự khám phá nó? Bạn có phải có kiến thức bên trong về các nền tảng?
Việc phát triển một trình kết nối trông như thế nào và bạn tham gia sâu vào các mối quan hệ đó như thế nào để đảm bảo các trình kết nối đó khám phá mọi thứ bạn có thể có thể?
David Crawford: Vâng, chắc chắn, đó là một câu hỏi tuyệt vời. Tôi nghĩ rằng đối với hầu hết các phần, chúng ta có thể phát triển các kết nối. Chúng tôi chắc chắn đã làm khi chúng tôi là một người trẻ tuổi khởi nghiệp và không có khách hàng. Chúng tôi có thể phát triển các kết nối chắc chắn mà không cần bất kỳ truy cập nội bộ. Chúng tôi không bao giờ có bất kỳ quyền truy cập đặc biệt nào vào các hệ thống dữ liệu không có sẵn công khai và thường không cần bất kỳ thông tin bên trong nào. Chúng tôi tận dụng các dịch vụ siêu dữ liệu có sẵn của chính các hệ thống dữ liệu. Thường thì những thứ đó có thể khá phức tạp và khó làm việc. Tôi biết cụ thể là SQL Server, cách họ quản lý nhật ký truy vấn, có một số cấu hình khác nhau và đó là thứ bạn thực sự phải làm việc. Bạn phải hiểu các sắc thái và các nút bấm và quay số để thiết lập nó đúng cách, và đó là điều mà chúng tôi làm việc với khách hàng vì chúng tôi đã làm điều đó nhiều lần trước đây.
Nhưng ở một mức độ nhất định, đó là loại API công khai có sẵn hoặc giao diện công khai có sẵn mà chúng tôi tận dụng. Chúng tôi có quan hệ đối tác với một số công ty này, đó chủ yếu là căn cứ để chứng nhận, để họ cảm thấy thoải mái khi nói rằng chúng tôi làm việc và họ cũng có thể cung cấp cho chúng tôi tài nguyên để thử nghiệm, đôi khi có thể truy cập sớm vào một nền tảng sắp ra mắt để đảm bảo rằng chúng tôi làm việc trên các phiên bản mới.
Để xoay quanh một kết nối mới, tôi sẽ nói lại, cố gắng bảo thủ, giả sử sáu tuần đến hai tháng. Nó phụ thuộc vào mức độ tương tự của nó. Vì vậy, một số tác phẩm của Postgre trông rất giống với Redshift. Redshift và Vertica chia sẻ rất nhiều chi tiết của họ. Vì vậy, chúng ta có thể tận dụng những điều đó. Nhưng vâng, sáu tuần đến hai tháng sẽ công bằng.
Chúng tôi cũng có API, vì vậy - chúng tôi cũng nghĩ Alation là một nền tảng siêu dữ liệu, vì vậy nếu có bất cứ thứ gì không có sẵn để chúng tôi tiếp cận và tự động lấy, có những cách bạn có thể tự viết trình kết nối và đẩy nó vào hệ thống của chúng tôi rằng mọi thứ vẫn được tập trung trong một công cụ tìm kiếm.
Dez Blanchfield: Tuyệt vời. Tôi trân trọng điều đó. Vì vậy, chúng tôi sẽ trao nó cho Robin, bởi vì tôi chắc rằng anh ta cũng có rất nhiều câu hỏi. Robin?
Rebecca Jozwiak: Robin có thể bị câm.
Dez Blanchfield: Bạn đã bị câm.
Robin Bloor: Vâng, đúng rồi. Xin lỗi, tôi tự tắt tiếng. Khi bạn thực hiện điều này, quá trình là gì? Tôi hơi tò mò vì có thể có nhiều dữ liệu ở nhiều nơi. Vậy làm thế nào mà làm việc?
David Crawford: Vâng, chắc chắn. Chúng tôi tham gia, đầu tiên là một quy trình CNTT để đảm bảo máy chủ của chúng tôi được cung cấp, đảm bảo rằng các kết nối mạng có sẵn, các cổng được mở để chúng tôi thực sự có thể truy cập hệ thống. Tất cả họ thường biết hệ thống nào họ muốn bắt đầu. Biết bên trong một hệ thống dữ liệu, mà - và đôi khi chúng ta thực sự sẽ giúp họ. Chúng tôi sẽ giúp họ thực hiện một cái nhìn ban đầu về nhật ký truy vấn của họ để hiểu ai đang sử dụng cái gì và số lượng người dùng họ có trên một hệ thống. Vì vậy, chúng tôi sẽ giúp tìm ra nơi - họ thường, nếu họ có hàng trăm hoặc hàng nghìn người có thể đăng nhập vào cơ sở dữ liệu, họ thực sự không biết họ đang đăng nhập ở đâu, vì vậy chúng tôi có thể tìm hiểu từ truy vấn ghi lại có bao nhiêu tài khoản người dùng duy nhất bạn thực sự đăng nhập và thực hiện truy vấn tại đây trong một tháng hoặc lâu hơn.
Vì vậy, chúng ta có thể tận dụng điều đó, nhưng thường chỉ trên những người quan trọng nhất. Chúng tôi đã thiết lập chúng và sau đó có một quá trình nói, "Hãy ưu tiên." Có một loạt các hoạt động có thể xảy ra song song. Tôi sẽ tập trung vào đào tạo để sử dụng công cụ truy vấn. Khi mọi người bắt đầu sử dụng công cụ truy vấn, trước hết, rất nhiều người yêu thích thực tế rằng đó chỉ là một giao diện duy nhất cho tất cả các hệ thống khác nhau của họ. Họ cũng thích thực tế là nó dựa trên web, không liên quan đến bất kỳ cài đặt nào nếu họ không muốn. Từ quan điểm bảo mật, họ thích có một điểm nhập duy nhất, từ quan điểm mạng, giữa loại mạng IT và trung tâm dữ liệu nơi có nguồn dữ liệu sản xuất. Và vì vậy, họ sẽ thiết lập Alation làm công cụ truy vấn và bắt đầu sử dụng Compose làm điểm truy cập cho tất cả các hệ thống này.
Vì vậy, một khi điều đó xảy ra, điều chúng tôi tập trung vào đào tạo, là hiểu một số khác biệt giữa công cụ truy vấn dựa trên web hoặc máy chủ so với công cụ bạn có trên máy tính để bàn và một số sắc thái của việc sử dụng cái đó. Đồng thời, những gì chúng tôi sẽ cố gắng làm là xác định dữ liệu có giá trị nhất, một lần nữa tận dụng thông tin nhật ký truy vấn và nói, Hey Hey, bạn có thể muốn truy cập và giúp mọi người hiểu những dữ liệu này. Hãy bắt đầu xuất bản các truy vấn đại diện trên các bảng này. Đôi khi đó là cách hiệu quả nhất để nhanh chóng khiến mọi người quay cuồng. Hãy xem lịch sử truy vấn của riêng bạn, xuất bản những thứ này để chúng hiển thị dưới dạng các truy vấn đầu tiên. Khi mọi người nhìn vào một trang bảng, họ có thể thấy tất cả các truy vấn đã chạm vào bảng đó và họ có thể bắt đầu từ đó. Và sau đó, hãy bắt đầu thêm tiêu đề và mô tả cho các đối tượng này để chúng dễ dàng tìm kiếm và tìm kiếm hơn, để bạn biết một số sắc thái của cách sử dụng nó.
Chúng tôi đảm bảo rằng chúng tôi có được cái nhìn toàn diện về nhật ký truy vấn để chúng tôi có thể tạo dòng dõi. Một trong những điều chúng tôi làm là chúng tôi xem qua nhật ký truy vấn vào thời điểm dữ liệu di chuyển từ bảng này sang bảng khác và điều đó cho phép chúng tôi đặt một trong những câu hỏi thường gặp nhất về bảng dữ liệu là, điều này đến từ đâu? Làm thế nào để tôi tin tưởng nó? Và vì vậy, những gì chúng ta có thể chỉ ra không chỉ là những bảng khác đến từ đâu, mà còn là cách nó được biến đổi trên đường đi. Một lần nữa, đây là loại được cung cấp bởi nhật ký truy vấn.
Vì vậy, chúng tôi đảm bảo rằng những thứ đó đã được thiết lập và chúng tôi sẽ có được dòng dõi vào hệ thống và chúng tôi đang nhắm mục tiêu các phần siêu dữ liệu có giá trị cao nhất và có đòn bẩy cao nhất mà chúng tôi có thể thiết lập trên các trang của bảng, để Khi bạn tìm kiếm, bạn tìm thấy một cái gì đó hữu ích.
Robin Bloor: Được rồi. Một câu hỏi khác - có rất nhiều câu hỏi từ khán giả, vì vậy tôi không muốn chiếm quá nhiều thời gian ở đây - câu hỏi khác xuất hiện trong đầu là, chỉ là những điểm đau. Rất nhiều phần mềm được mua bởi vì mọi người, bằng cách này hay cách khác, gặp khó khăn với một cái gì đó. Vì vậy, điểm đau chung dẫn mọi người đến Alation là gì?
David Crawford: Vâng. Tôi nghĩ rằng có một vài, nhưng tôi nghĩ một trong những người mà chúng ta nghe thấy khá thường xuyên là nhà phân tích trên tàu. Tôi sẽ phải thuê 10, 20, 30 người trong thời gian tới, những người sẽ phải tạo ra những hiểu biết mới từ dữ liệu này, làm thế nào để họ có thể tăng tốc? giải quyết. Cũng có thể giúp các nhà phân tích cao cấp dành toàn bộ thời gian để trả lời các câu hỏi từ người khác về dữ liệu. Đó cũng là một điều rất thường xuyên. Và cả hai vấn đề cơ bản là giáo dục.
Và sau đó tôi sẽ nói một nơi khác mà chúng ta thấy mọi người áp dụng Alation là khi họ muốn thiết lập một môi trường dữ liệu hoàn toàn mới cho ai đó làm việc. Họ muốn quảng cáo và tiếp thị nội bộ này để mọi người tận dụng. Sau đó, làm cho Alation trở thành mặt trước cho môi trường phân tích mới đó rất hấp dẫn. Nó có tài liệu, nó có một điểm giới thiệu duy nhất về - một điểm truy cập duy nhất vào các hệ thống, và đó là một nơi khác mà mọi người sẽ đến với chúng tôi.
Robin Bloor: Được rồi, tôi sẽ chuyển bạn đến Rebecca vì khán giả đang cố gắng đến với bạn.
Rebecca Jozwiak: Vâng, chúng tôi có rất nhiều câu hỏi khán giả thực sự tốt ở đây. Và David, cái này được đặt riêng cho bạn. Đó là từ một người dường như có một số kinh nghiệm với những người truy vấn lạm dụng và anh ta nói rằng chúng ta càng trao quyền cho người dùng, càng khó kiểm soát việc sử dụng tài nguyên tính toán có trách nhiệm. Vì vậy, bạn có thể bảo vệ chống lại sự lan truyền của các cụm từ truy vấn sai nhưng phổ biến?
David Crawford: Vâng, tôi thấy câu hỏi này. Đó là một câu hỏi hay - một câu hỏi mà chúng tôi nhận được khá thường xuyên. Tôi đã nhìn thấy nỗi đau tại các công ty trước đây, nơi bạn cần đào tạo người dùng. Ví dụ, Đây là bảng nhật ký, nó có các bản ghi trong nhiều năm. Nếu bạn định viết một truy vấn trên bảng này, bạn thực sự phải giới hạn theo ngày. Ví dụ, đó là một khóa đào tạo tôi đã trải qua tại một công ty trước khi tôi được cấp quyền truy cập vào cơ sở dữ liệu.
Chúng tôi có một vài cách mà chúng tôi cố gắng giải quyết điều này. Tôi sẽ nói rằng tôi nghĩ dữ liệu nhật ký truy vấn thực sự có giá trị duy nhất để giải quyết nó. Nó cung cấp một cái nhìn sâu sắc khác so với những gì cơ sở dữ liệu thực hiện với trình hoạch định truy vấn của nó. Và những gì chúng tôi làm là, một trong những can thiệp đó - chúng tôi có các can thiệp thủ công mà tôi đã trình bày, và điều đó hữu ích, phải không? Vì vậy, trên một tham gia cụ thể, ví dụ, bạn có thể nói, "Hãy từ chối điều này." Nó sẽ có một lá cờ đỏ lớn khi nó xuất hiện trong đề xuất thông minh. Vì vậy, đó là một cách cố gắng để đến với mọi người.
Một điều khác mà chúng tôi làm là, tự động hóa trong các can thiệp thời gian thực hiện. Điều đó thực sự sẽ sử dụng cây phân tích truy vấn trước khi chúng ta chạy nó để xem, liệu nó có bao gồm một bộ lọc nhất định hoặc một vài thứ khác mà chúng ta cũng làm ở đó không. Nhưng một trong những thứ có giá trị nhất và đơn giản nhất để giải thích là, nó có bao gồm một bộ lọc không? Vì vậy, giống như ví dụ mà tôi vừa đưa ra, bảng nhật ký này, nếu bạn muốn truy vấn nó, phải có phạm vi ngày, bạn có thể chỉ định trong trang bảng ở đó bạn bắt buộc áp dụng bộ lọc phạm vi ngày đó. Nếu ai đó cố chạy một truy vấn không bao gồm bộ lọc đó, thì nó thực sự sẽ ngăn họ với một cảnh báo lớn và nó sẽ nói, có lẽ bạn nên thêm một số SQL trông giống như thế này vào truy vấn của bạn. họ muốn. Chúng tôi sẽ không thực sự cấm họ sử dụng nó - đó cũng là một truy vấn, vào cuối ngày, hãy chạy các truy vấn. Nhưng chúng tôi đặt một rào cản khá lớn trước mặt họ và chúng tôi đưa ra cho họ một đề nghị, một đề xuất áp dụng cụ thể để sửa đổi truy vấn để cải thiện hiệu suất của họ.
Chúng tôi thực sự cũng làm điều đó tự động trong một số trường hợp, một lần nữa bằng cách quan sát nhật ký truy vấn. Nếu chúng ta thấy rằng một số phần trăm truy vấn thực sự lớn trên bảng này tận dụng một bộ lọc cụ thể hoặc một điều khoản tham gia cụ thể, thì chúng ta sẽ thực sự bật lên. Chúng tôi sẽ thúc đẩy điều đó để can thiệp. Trên thực tế, nó đã xảy ra với tôi trên một tập dữ liệu nội bộ. Chúng tôi có dữ liệu khách hàng và chúng tôi có ID người dùng, nhưng ID người dùng được đặt, vì đó là loại - chúng tôi có ID người dùng ở mỗi khách hàng. Nó không phải là duy nhất, vì vậy bạn phải ghép nó với ID khách hàng để có được một khóa tham gia duy nhất. Và tôi đang viết một truy vấn và tôi đã cố gắng phân tích một cái gì đó và nó hiện lên và nói, Hey Hey, mọi người khác dường như tham gia các bảng này với cả ID khách hàng và ID người dùng. Bạn có chắc là bạn không muốn làm điều đó không? Và điều đó thực sự ngăn tôi thực hiện một số phân tích không chính xác. Vì vậy, nó hoạt động cho cả độ chính xác của phân tích cũng như hiệu suất. Vì vậy, đó là cách chúng tôi giải quyết vấn đề đó.
Rebecca Jozwiak: Điều đó đối với tôi có vẻ hiệu quả. Bạn nói rằng bạn sẽ không nhất thiết chặn mọi người ăn cắp tài nguyên, nhưng hãy dạy họ rằng những gì họ đang làm có thể không phải là tốt nhất, phải không?
David Crawford: Chúng tôi luôn cho rằng người dùng không độc hại - hãy cung cấp cho họ những ý định tốt nhất - và chúng tôi cố gắng tỏ ra khá cởi mở theo cách đó.
Rebecca Jozwiak: Được rồi. Đây là một câu hỏi khác: Có gì khác biệt giữa người quản lý danh mục, như với giải pháp của bạn và công cụ MDM? Hoặc nó thực sự dựa vào một hiệu trưởng khác bằng cách mở rộng sự lựa chọn của các bảng truy vấn, trong khi MDM sẽ tự động làm điều đó, nhưng với cùng một hiệu trưởng cơ bản của việc thu thập siêu dữ liệu. "
David Crawford: Vâng, tôi nghĩ rằng khi tôi nhìn vào các giải pháp MDM truyền thống, sự khác biệt chính là một triết lý. Đó là tất cả về người dùng là ai. Giống như tôi đã nói khi bắt đầu bài thuyết trình của mình, Alation, tôi nghĩ, khi chúng tôi được thành lập, chúng tôi được thành lập với mục đích cho phép các nhà phân tích tạo ra nhiều hiểu biết hơn, tạo ra chúng nhanh hơn, chính xác hơn trong những hiểu biết mà họ hiểu sản xuất. Tôi không nghĩ rằng đó đã từng là mục tiêu của một giải pháp MDM truyền thống. Những giải pháp đó có xu hướng được nhắm mục tiêu vào những người cần tạo báo cáo về dữ liệu nào đã được ghi lại cho SCC hoặc nội bộ cho một số mục đích kiểm toán khác. Đôi khi nó có thể cho phép các nhà phân tích, nhưng nó thường xuyên hơn, nếu nó sẽ cho phép một học viên trong công việc của họ, nhiều khả năng sẽ cho phép một kiến trúc sư dữ liệu như một DBA.
Khi bạn nghĩ về những điều từ quan điểm của một nhà phân tích, đó là khi bạn bắt đầu xây dựng một công cụ truy vấn mà một công cụ MDM sẽ không bao giờ làm được. Đó là khi bạn bắt đầu suy nghĩ về hiệu suất cũng như độ chính xác, cũng như hiểu được dữ liệu nào liên quan đến nhu cầu kinh doanh của tôi. Tất cả những thứ đó là những thứ xuất hiện trong tâm trí chúng ta khi chúng ta thiết kế công cụ. Nó đi vào các thuật toán tìm kiếm của chúng tôi, nó đi vào bố cục của các trang danh mục và khả năng đóng góp kiến thức từ tất cả các tổ chức. Nó đi vào thực tế là chúng tôi đã xây dựng công cụ truy vấn và chúng tôi đã xây dựng danh mục trực tiếp vào nó, vì vậy tôi nghĩ rằng nó thực sự xuất phát từ đó. Những gì người dùng bạn có đầu tiên trong tâm trí?
Rebecca Jozwiak: Được rồi, tốt. Điều đó thực sự đã giúp giải thích nó. người sắp chết để có được tài liệu lưu trữ vì anh ta phải rời đi, nhưng anh ta thực sự muốn câu hỏi của mình được trả lời. Ông nói rằng nó đã được đề cập ngay từ đầu rằng có nhiều ngôn ngữ, nhưng SQL có phải là ngôn ngữ duy nhất được tận dụng trong thành phần Compose không?
David Crawford: Vâng, đó là sự thật. Và một trong những điều mà tôi nhận thấy, khi tôi chứng kiến sự bùng nổ của các loại cơ sở dữ liệu khác nhau, cơ sở dữ liệu tài liệu, cơ sở dữ liệu đồ thị, của các cửa hàng giá trị chính, là chúng thực sự mạnh mẽ để phát triển ứng dụng. Họ có thể phục vụ các nhu cầu cụ thể ở đó thực sự tốt, theo những cách tốt hơn so với cơ sở dữ liệu quan hệ có thể.
Nhưng khi bạn đưa nó trở lại phân tích dữ liệu, khi bạn đưa nó trở lại - khi bạn muốn cung cấp thông tin đó cho những người sẽ thực hiện báo cáo đột xuất hoặc đào sâu vào dữ liệu, họ sẽ luôn quay lại quan hệ, ít nhất, giao diện cho con người. Một phần của điều đó chỉ vì SQL là ngôn ngữ phân tích dữ liệu, vì vậy điều đó có nghĩa là, đối với con người, nó cũng dành cho các công cụ tích hợp. Tôi nghĩ rằng đây là lý do mà SQL trên Hadoop rất phổ biến và có rất nhiều nỗ lực để giải quyết nó, là bởi vì vào cuối ngày, đó là những gì mọi người biết. Có lẽ có hàng triệu người biết cách viết SQL và tôi sẽ mạo hiểm chứ không phải hàng triệu người biết cách viết truy vấn khung đường ống tổng hợp Mongo. Và đó là ngôn ngữ tiêu chuẩn được sử dụng để tích hợp trên nhiều nền tảng thực sự rộng lớn. Vì vậy, tất cả những gì chúng ta nói, chúng tôi hiếm khi được yêu cầu ra ngoài vì đây là giao diện mà hầu hết các nhà phân tích sử dụng và đó là nơi chúng tôi tập trung, đặc biệt là trong Compose, chúng tôi tập trung vào viết SQL.
Tôi muốn nói rằng khoa học dữ liệu là nơi họ mạo hiểm nhất, và vì vậy chúng tôi thường xuyên nhận được câu hỏi về việc sử dụng Pig hoặc SAS. Đây là những điều mà chúng tôi chắc chắn không xử lý trong Compose và chúng tôi muốn ghi lại trong danh mục. Và tôi cũng thấy R và Python. Chúng tôi có một số cách mà chúng tôi đã tạo giao diện mà bạn có thể sử dụng các truy vấn được viết bằng Alation bên trong các tập lệnh R và Python, vì vậy, thường là khi bạn là nhà khoa học dữ liệu và bạn đang làm việc bằng ngôn ngữ kịch bản, bạn dữ liệu nguồn là trong một cơ sở dữ liệu quan hệ. Bạn bắt đầu với một truy vấn SQL và sau đó bạn xử lý nó thêm và tạo các biểu đồ bên trong R và Python. Và chúng tôi đã tạo các gói mà bạn có thể nhập vào các tập lệnh kéo các truy vấn hoặc kết quả truy vấn từ Alation để bạn có thể có một quy trình làm việc được trộn ở đó.
Rebecca Jozwiak: Được rồi, tuyệt. Tôi biết rằng chúng tôi đã chạy một chút qua đầu giờ, tôi sẽ hỏi thêm một hoặc hai câu hỏi nữa. Tôi biết bạn đã nói về tất cả các hệ thống khác nhau mà bạn có thể kết nối, nhưng theo dữ liệu được lưu trữ bên ngoài và dữ liệu được lưu trữ bên trong, có thể cùng nhau tìm kiếm trong một chế độ xem của bạn, vào một nền tảng của bạn không?
David Crawford: Chắc chắn rồi. Có một vài cách để làm điều đó. Ý tôi là, được lưu trữ bên ngoài, tôi sẽ tưởng tượng, tôi đang cố gắng nghĩ về chính xác điều đó có nghĩa là gì. Nó có thể có nghĩa là một cơ sở dữ liệu mà ai đó đang lưu trữ trong AWS cho bạn. Nó có thể có nghĩa là một nguồn dữ liệu công cộng từ data.gov. Chúng tôi kết nối trực tiếp với cơ sở dữ liệu bằng cách đăng nhập giống như một ứng dụng khác với tài khoản cơ sở dữ liệu và đó là cách chúng tôi trích xuất siêu dữ liệu. Vì vậy, nếu chúng tôi có một tài khoản và chúng tôi mở một cổng mạng, chúng tôi có thể truy cập vào nó. Và sau đó khi chúng ta không có những thứ đó, chúng ta có một thứ gọi là nguồn dữ liệu ảo, cho phép bạn chủ yếu đẩy tài liệu, cho dù là tự động, bằng cách viết trình kết nối của riêng bạn hoặc bằng cách điền vào bằng cách tải lên CSV, để ghi lại dữ liệu cùng với dữ liệu nội bộ của bạn. Điều đó được đặt tất cả vào công cụ tìm kiếm. Nó trở nên có thể tham khảo bên trong các bài báo và các tài liệu và cuộc hội thoại khác trong hệ thống. Vì vậy, đó là cách chúng tôi xử lý khi chúng tôi không thể kết nối trực tiếp với hệ thống.
Rebecca Jozwiak: Được rồi, điều đó có ý nghĩa. Tôi sẽ chỉ bắn ra một câu hỏi nữa cho bạn. Một người tham dự là yêu cầu, làm thế nào nội dung của một danh mục dữ liệu nên được xác nhận, xác minh hoặc duy trì, khi dữ liệu nguồn được cập nhật, khi dữ liệu nguồn được sửa đổi, v.v.
David Crawford: Vâng, đó là một câu hỏi chúng tôi nhận được rất nhiều, và tôi nghĩ một trong những điều mà chúng tôi - một trong những triết lý của chúng tôi, như tôi đã nói, chúng tôi không tin rằng người dùng là độc hại. Chúng tôi cho rằng họ đang cố gắng đóng góp kiến thức tốt nhất. Họ sẽ không đến và cố tình đánh lừa mọi người về dữ liệu. Nếu đó là một vấn đề tại tổ chức của bạn, có thể Alation không phải là công cụ phù hợp với bạn. Nhưng nếu bạn cho rằng người dùng có ý định tốt, thì, chúng tôi nghĩ về nó như một cái gì đó, các bản cập nhật xuất hiện, và thông thường những gì chúng tôi làm là chúng tôi đặt một người quản lý phụ trách từng đối tượng dữ liệu hoặc từng phần của dữ liệu. And we can notify those stewards when changes to the metadata are made and they can handle it in that way. They see updates come in, they validate them. If they're not right, they can go back and modify them and inform, and hopefully even reach out to the user who contributed the information and help them learn.
So that's the primary way we think about doing it. This sort of suggestion by the crowd and management by the stewards, so we have some capabilities around that.
Rebecca Jozwiak: Okay, good. And if you could just let the folks know how they can best get started with Alation, and where can they go specifically to get more info. I know you shared that one bit.ly. Is that the best place?
David Crawford: Alation.com/learnmore I think is a great way to go. To go sign up for a demo the Alation.com site has a lot of great resources, customer white papers, and news about our solution. So I think that's a great place to start. You can also email .
Rebecca Jozwiak: Okay, great. And I know, attendees, sorry if I didn't get to all of the questions today, but if not, they will be forwarded to David or his sales team or somebody at Alation, so they can definitely help answer your questions and help understand what Alation does or what they do best.
And with that, folks, I'll go ahead and sign us off. You can always find the archives at InsideAnalysis.com. You can also find it at Techopedia.com. They tend to update a little bit quicker, so definitely check that out. And thanks so much to David Crawford, Dez Blanchfield and Robin Boor today. It's been a great webcast. And with that, I'll bid you farewell. Thanks, folks. Bye bye.
David Crawford: Thank you.