Trang Chủ Xu hướng Đi sâu vào hadoop - bảng điểm kỹ thuật tập 1

Đi sâu vào hadoop - bảng điểm kỹ thuật tập 1

Anonim

Lưu ý của biên tập viên: Đây là bản ghi của một Webcast trực tiếp. Bạn có thể xem webcast đầy đủ ở đây.


Eric Kavanagh: Thưa quý vị và các bạn, đã đến lúc phải khôn ngoan! Đã đến lúc cho TechWise, một chương trình hoàn toàn mới! Tên tôi là Eric Kavanagh. Tôi sẽ trở thành người điều hành của bạn cho tập TechWise đầu tiên của chúng tôi. Điều đó hoàn toàn chính xác. Đây là sự hợp tác của Techopedia và Bloor Group, tất nhiên, của danh tiếng Inside Phân tích.


Tên tôi là Eric Kavanagh. Tôi sẽ kiểm duyệt sự kiện này thực sự thú vị và có liên quan, folks. Chúng ta sẽ đào sâu vào dệt để hiểu điều gì đang xảy ra với thứ lớn gọi là Hadoop. Con voi trong phòng là gì? Nó được gọi là Hadoop. Chúng tôi sẽ cố gắng tìm hiểu ý nghĩa của nó và những gì đang xảy ra với nó.


Trước hết, xin chân thành cảm ơn các nhà tài trợ của chúng tôi, GridGain, Actian, Zettaset và DataTorrent. Chúng tôi sẽ nhận được một vài từ ngắn gọn từ mỗi người trong số họ gần cuối sự kiện này. Chúng tôi cũng sẽ có một câu hỏi và trả lời, vì vậy đừng ngại - hãy gửi câu hỏi của bạn bất cứ lúc nào.


Chúng tôi sẽ đi sâu vào chi tiết và đưa ra những câu hỏi khó cho các chuyên gia của chúng tôi. Và nói về các chuyên gia, hey, họ đây rồi. Vì vậy, chúng tôi sẽ được nghe từ Tiến sĩ Robin Bloor của chúng tôi, và mọi người, tôi rất vui mừng khi có Ray Wang huyền thoại, nhà phân tích chính và người sáng lập của nghiên cứu Constname. Hôm nay anh ấy trực tuyến để cho chúng tôi suy nghĩ của anh ấy và anh ấy thích Robin rằng anh ấy rất đa dạng và thực sự tập trung vào nhiều lĩnh vực khác nhau và có khả năng tổng hợp chúng và thực sự hiểu những gì đang diễn ra trong toàn bộ lĩnh vực công nghệ thông tin này và quản lý dữ liệu.


Vì vậy, có con voi nhỏ dễ thương. Anh ấy ở đầu đường, như bạn có thể thấy. Bây giờ chỉ mới bắt đầu, nó chỉ là một sự khởi đầu, toàn bộ điều Hadoop này. Tất nhiên, trở lại vào năm 2006 hoặc 2007, tôi cho rằng, khi nó được phát hành cho cộng đồng nguồn mở, nhưng đã có rất nhiều thứ đang diễn ra, thưa các bạn. Đã có những phát triển lớn. Trên thực tế, tôi muốn đưa ra câu chuyện, vì vậy tôi sẽ chia sẻ nhanh trên máy tính để bàn, ít nhất là tôi nghĩ là tôi. Hãy chia sẻ nhanh trên máy tính để bàn.


Tôi đang cho bạn thấy điều này chỉ là những người điên, những câu chuyện điên rồ. Vì vậy, Intel đã đầu tư 740 triệu đô la để mua 18% Cloudera. Tôi nghĩ và tôi thích, "Holy Christmas!" Tôi bắt đầu làm toán và nó giống như, "Đó là một định giá 4, 1 tỷ đô la." Hãy suy nghĩ về điều này trong một giây. Ý tôi là, nếu WhatsApp trị giá 2 tỷ đô la, tôi cho rằng Cloudera cũng có thể trị giá 4, 1 tỷ đô la, phải không? Ý tôi là tại sao không? Một số trong những số này chỉ là ngoài cửa sổ những ngày này, folks. Ý tôi là, thông thường về mặt đầu tư, bạn có EBITDA và tất cả các cơ chế khác nhau, bội số doanh thu, v.v. Chà, sẽ là một trong rất nhiều doanh thu để đạt được 4, 1 tỷ đô la cho Cloudera, một công ty tuyệt vời. Đừng hiểu lầm tôi - có một số người rất, rất thông minh ở đó bao gồm cả người bắt đầu cơn sốt Hadoop, Doug Cutting, anh ta ở đằng kia - rất nhiều người rất thông minh đang thực sự làm rất nhiều Những điều thú vị, nhưng điểm mấu chốt là 4, 1 tỷ đô la, đó là rất nhiều tiền.


Vì vậy, đây là một khoảnh khắc rõ ràng bị giam cầm trong đầu tôi lúc này, đó là một con chip, Intel. Các nhà thiết kế chip của họ đang mang đến để xem một số chip được tối ưu hóa Hadoop - tôi phải nghĩ vậy, thưa các bạn. Đó chỉ là dự đoán của tôi. Đó chỉ là một tin đồn, đến từ tôi, nếu bạn muốn, nhưng nó có ý nghĩa. Và tất cả điều này có nghĩa là gì?


Vì vậy, đây là lý thuyết của tôi. Chuyện gì đang xảy ra vậy? Rất nhiều thứ này không phải là mới. Xử lý song song lớn không phải là quá mới. Xử lý song song chắc chắn không phải là mới. Tôi đã ở trong thế giới siêu máy tính một thời gian. Rất nhiều trong số những điều này đang xảy ra không phải là mới, nhưng có một loại nhận thức chung rằng có một cách mới để tấn công một số vấn đề này. Những gì tôi thấy đang xảy ra, nếu bạn nhìn vào một số nhà cung cấp lớn của Cloudera hoặc Hortonworks và một số những người khác, họ đang làm gì thực sự nếu bạn đưa nó xuống mức chưng cất chi tiết nhất là phát triển ứng dụng. Đó là những gì họ đang làm.


Họ đang thiết kế các ứng dụng mới - một số trong số chúng liên quan đến phân tích kinh doanh; một số trong số họ chỉ liên quan đến hệ thống tăng áp. Một trong những nhà cung cấp của chúng tôi đã nói về điều đó, họ làm những thứ đó cả ngày, trong chương trình hôm nay. Nhưng nếu nó quá mới, một lần nữa câu trả lời là "không thực sự", nhưng có những điều lớn đang xảy ra, và cá nhân tôi nghĩ rằng những gì đang xảy ra với Intel làm cho khoản đầu tư khổng lồ này là một động thái tạo ra thị trường. Họ nhìn vào thế giới ngày nay và thấy rằng đó là một thế giới độc quyền ngày nay. Có Facebook và họ đã đánh bại những kẻ khốn nạn vì MySpace. LinkedIn đã đánh bại những kẻ hợm hĩnh vì tội nghiệp Who's Who. Vì vậy, bạn nhìn xung quanh và đó là một dịch vụ đang thống trị tất cả các không gian khác nhau trong thế giới của chúng ta ngày nay và tôi nghĩ ý tưởng là Intel sẽ ném tất cả chip của họ lên Cloudera và cố gắng nâng nó lên đỉnh của ngăn xếp - đó chỉ là lý thuyết của tôi.


Vì vậy, như tôi đã nói, chúng ta sẽ có một phiên hỏi đáp dài, vì vậy đừng ngại. Gửi câu hỏi của bạn bất cứ lúc nào. Bạn có thể làm như vậy bằng cách sử dụng thành phần Q & A đó trong bảng điều khiển webcast của bạn. Và với điều đó, tôi muốn đến nội dung của chúng tôi vì chúng tôi có rất nhiều thứ để vượt qua.


Vì vậy, Robin Bloor, hãy để tôi đưa chìa khóa cho bạn và sàn nhà là của bạn.


Robin Bloor: OK, Eric, cảm ơn vì điều đó. Hãy mang theo những chú voi đang nhảy múa. Thật ra, điều gây tò mò là voi là loài động vật có vú trên cạn duy nhất không thể nhảy. Tất cả những con voi trong đồ họa đặc biệt này đều có ít nhất một chân trên mặt đất, vì vậy tôi cho rằng nó khả thi, nhưng ở một mức độ nhất định, đây rõ ràng là những con voi Hadoop, rất, rất có khả năng.


Câu hỏi, thực sự, mà tôi nghĩ phải được thảo luận và phải được thảo luận trong tất cả sự trung thực. Nó phải được thảo luận trước khi bạn đi bất cứ nơi nào khác, đó là thực sự bắt đầu nói về những gì Hadoop thực sự là.


Một trong những điều hoàn toàn xuất phát từ cơ sở chơi đàn ông là kho lưu trữ khóa-giá trị. Chúng tôi đã từng có các cửa hàng khóa-giá trị. Chúng tôi đã từng có chúng trên máy tính lớn của IBM. Chúng tôi đã có chúng trên các máy tính mini; VAX DEC có các tệp IMS. Có những khả năng ISAM có trên hầu hết các máy tính mini mà bạn có thể sử dụng. Nhưng đôi khi vào khoảng cuối thập niên 80, Unix đã xuất hiện và Unix thực sự không có bất kỳ kho lưu trữ khóa-giá trị nào trên đó. Khi Unix phát triển nó, họ đã phát triển rất nhanh. Điều thực sự xảy ra là các nhà cung cấp cơ sở dữ liệu, đặc biệt là Oracle, đã đi vào đó và họ đã bán cơ sở dữ liệu của bạn để chăm sóc bất kỳ dữ liệu nào bạn quan tâm để quản lý trên Unix. Windows và Linux hóa ra là như nhau. Vì vậy, ngành công nghiệp đã hoạt động tốt nhất trong 20 năm mà không có cửa hàng khóa-giá trị mục đích chung. Vâng, bây giờ nó đã trở lại. Không chỉ là nó trở lại, nó có thể mở rộng.


Bây giờ, tôi nghĩ thực sự đó là nền tảng của Hadoop thực sự là gì và ở một mức độ nhất định, nó quyết định nơi nó sẽ đi. Chúng tôi thích gì về các cửa hàng khóa-giá trị? Những người bạn lớn tuổi như tôi và thực sự nhớ làm việc với các cửa hàng khóa-giá trị nhận ra rằng bạn có thể sử dụng chúng để thiết lập cơ sở dữ liệu một cách không chính thức, nhưng chỉ không chính thức. Bạn biết siêu dữ liệu nhanh chóng lưu trữ giá trị trong mã chương trình, nhưng thực tế bạn có thể tạo tệp đó bên ngoài và bạn có thể nếu bạn muốn bắt đầu xử lý lưu trữ khóa-giá trị giống như cơ sở dữ liệu. Nhưng tất nhiên nó không có tất cả khả năng phục hồi mà cơ sở dữ liệu có và nó không có nhiều thứ mà cơ sở dữ liệu hiện có, nhưng nó là một tính năng thực sự hữu ích cho các nhà phát triển và đó là một trong những lý do tôi nghĩ rằng Hadoop đã được chứng minh rất phổ biến - đơn giản vì nó đã được lập trình viên, lập trình viên, nhà phát triển nhanh chóng. Họ nhận ra rằng không chỉ là giá trị khóa của cửa hàng mà còn là cửa hàng giá trị khóa mở rộng. Nó quy mô khá nhiều vô thời hạn. Tôi đã gửi những chiếc cân này ra hàng ngàn máy chủ, vì vậy đó là điều thực sự lớn về Hadoop, đó chính là nó.


Nó cũng có trên MapReduce, đây là một thuật toán song song, nhưng theo tôi, điều đó không quan trọng. Vì vậy, bạn biết đấy, Hadoop là một con tắc kè hoa. Nó không chỉ là một hệ thống tập tin. Tôi đã thấy nhiều loại khiếu nại được đưa ra cho Hadoop: đó là một cơ sở dữ liệu bí mật; đó không phải là cơ sở dữ liệu bí mật; đó là một cửa hàng chung; nó là một hộp công cụ phân tích; đó là môi trường ELT; đó là công cụ làm sạch dữ liệu; đó là kho dữ liệu nền tảng phát trực tuyến; đó là một cửa hàng lưu trữ; nó là một phương thuốc chữa ung thư, vân vân Hầu hết những điều này thực sự không đúng với vanilla Hadoop. Hadoop có lẽ là một nguyên mẫu - đó chắc chắn là môi trường tạo mẫu cho cơ sở dữ liệu SQL, nhưng thực sự không có, nếu bạn đặt không gian tuổi với danh mục tuổi trên Hadoop, bạn đã có một cái gì đó trông giống như cơ sở dữ liệu, nhưng nó không thực sự những gì bất cứ ai sẽ gọi một cơ sở dữ liệu về khả năng. Rất nhiều khả năng này, bạn chắc chắn có thể có được chúng trên Hadoop. Chắc chắn có rất nhiều trong số họ. Trên thực tế, bạn có thể có được một số nguồn Hadoop, nhưng bản thân Hadoop không phải là thứ mà tôi gọi là cứng rắn hoạt động, và do đó, thỏa thuận về Hadoop, thực sự tôi sẽ không phải là bất cứ điều gì khác, đó là bạn cần phải có thứ ba sản phẩm -party để tăng cường nó.


Vì vậy, nói về bạn chỉ có thể nói vài dòng khi tôi nói về Hadoop. Trước hết, khả năng truy vấn thời gian thực, bạn biết rằng thời gian thực là loại thời gian kinh doanh, thực sự, hầu như luôn luôn thực hiện quan trọng khác. Ý tôi là, tại sao bạn lại là kỹ sư thời gian thực? Hadoop không thực sự làm điều này. Nó làm một cái gì đó gần thời gian thực nhưng nó không thực sự làm những thứ thời gian thực. Nó phát trực tuyến, nhưng nó không phát trực tuyến theo cách mà tôi sẽ gọi các nền tảng truyền phát ứng dụng loại thực sự quan trọng có thể làm được. Có một sự khác biệt giữa cơ sở dữ liệu và cửa hàng có thể cắt được. Đồng bộ hóa nó qua Hadoop cung cấp cho bạn một kho lưu trữ dữ liệu có thể cắt được. Nó giống như một cơ sở dữ liệu nhưng nó không giống như một cơ sở dữ liệu. Theo tôi, Hadoop ở dạng nguyên bản, không thực sự đủ điều kiện làm cơ sở dữ liệu vì nó thiếu một vài thứ mà cơ sở dữ liệu nên có. Hadoop làm rất nhiều, nhưng nó không làm điều đó đặc biệt tốt. Một lần nữa, khả năng là có nhưng chúng ta cách xa thực sự có khả năng nhanh chóng trong tất cả các lĩnh vực này.


Một điều khác để hiểu về Hadoop là, nó đã đi một chặng đường dài kể từ khi nó được phát triển. Nó được phát triển trong những ngày đầu; nó được phát triển khi chúng tôi có các máy chủ thực sự chỉ có một bộ xử lý cho mỗi máy chủ. Chúng tôi chưa bao giờ có bộ xử lý đa lõi và nó được chế tạo để chạy trên lưới, khởi chạy lưới và sever. Một trong những mục tiêu thiết kế của Hadoop là không bao giờ mất công. Và đó thực sự là về lỗi đĩa, bởi vì nếu bạn có hàng trăm máy chủ, thì khả năng là, nếu bạn có đĩa trên máy chủ, khả năng là bạn sẽ có sẵn thời gian hoạt động của một thứ gì đó như 99.8. Điều đó có nghĩa là trung bình bạn sẽ nhận được một thất bại của một trong những máy chủ đó cứ sau 300 hoặc 350 ngày, một ngày trong một năm. Vì vậy, nếu bạn có hàng trăm trong số này, khả năng sẽ xảy ra vào bất kỳ ngày nào trong năm mà bạn gặp sự cố máy chủ.


Hadoop được xây dựng đặc biệt để giải quyết vấn đề đó - để trong trường hợp có bất kỳ sự cố nào xảy ra, nó sẽ chụp nhanh mọi thứ đang diễn ra, trên mỗi máy chủ cụ thể và nó có thể phục hồi công việc hàng loạt đang chạy. Và đó là tất cả những gì thực sự từng chạy trên Hadoop là những công việc hàng loạt và đó là một khả năng thực sự hữu ích, nó phải được nói. Một số công việc hàng loạt đang được điều hành - đặc biệt là tại Yahoo, nơi tôi nghĩ rằng Hadoop đã được sinh ra - sẽ chạy trong hai hoặc ba ngày và nếu thất bại sau một ngày, bạn thực sự không muốn mất việc điều đó đã được thực hiện Vì vậy, đó là điểm thiết kế đằng sau sự sẵn có trên Hadoop. Bạn sẽ không gọi đó là tính sẵn sàng cao, nhưng bạn có thể gọi đó là tính sẵn sàng cao cho các công việc hàng loạt. Đó có lẽ là cách để nhìn vào nó. Tính sẵn sàng cao luôn được cấu hình theo đặc điểm dòng công việc. Hiện tại, Hadoop chỉ có thể được cấu hình cho các công việc hàng loạt thực sự liên quan đến loại phục hồi đó. Doanh nghiệp sẵn sàng cao có lẽ là suy nghĩ tốt nhất về LLP giao dịch. Tôi tin rằng nếu bạn không xem nó như một thứ thời gian thực, Hadoop vẫn chưa làm điều đó. Có lẽ đó là một chặng đường dài để làm điều đó.


Nhưng đây là điều hay về Hadoop. Đồ họa đó ở phía bên tay phải có một danh sách các nhà cung cấp xung quanh và tất cả các dòng trên đó cho thấy các kết nối giữa các nhà cung cấp đó và các sản phẩm khác trong hệ sinh thái Hadoop. Nếu bạn nhìn vào đó, đó là một hệ sinh thái vô cùng ấn tượng. Nó khá là đáng chú ý. Chúng tôi rõ ràng, chúng tôi nói chuyện với rất nhiều nhà cung cấp về khả năng của họ. Trong số các nhà cung cấp mà tôi đã nói chuyện, có một số khả năng thực sự phi thường khi sử dụng Hadoop và trong bộ nhớ, cách sử dụng Hadoop làm kho lưu trữ nén, sử dụng Hadoop làm môi trường ETL, v.v. Nhưng thực sự, nếu bạn thêm sản phẩm vào chính Hadoop, nó hoạt động cực kỳ tốt trong một không gian cụ thể. Vì vậy, trong khi tôi chỉ trích Hadoop bản địa, tôi không chỉ trích Hadoop khi bạn thực sự thêm sức mạnh cho nó. Theo tôi, loại phổ biến của Hadoop đảm bảo cho tương lai của nó. Ý tôi là, ngay cả khi mọi dòng mã được viết cho đến nay trên Hadoop biến mất, tôi không tin rằng API HDFS sẽ biến mất. Nói cách khác, tôi nghĩ rằng hệ thống tệp, API, sẽ ở đây và có thể là YARN, công cụ lên lịch xem qua nó.


Khi bạn thực sự nhìn vào điều đó, đó là một khả năng rất quan trọng và tôi sẽ loại nó về điều đó trong một phút, nhưng điều khác, đó là, những người thú vị về Hadoop là toàn bộ hình ảnh nguồn mở. Vì vậy, thật đáng để xem qua bức tranh nguồn mở là gì về những gì tôi coi là khả năng thực sự. Trong khi Hadoop và tất cả các thành phần của nó chắc chắn có thể thực hiện những gì chúng ta gọi là độ dài dữ liệu - hoặc như tôi muốn gọi nó là kho chứa dữ liệu - đó chắc chắn là khu vực tổ chức rất tốt để thả dữ liệu vào tổ chức hoặc thu thập dữ liệu trong tổ chức - cực kỳ tốt cho hộp cát và dữ liệu câu cá. Nó rất tốt khi là một nền tảng phát triển tạo mẫu mà bạn có thể triển khai vào cuối ngày, nhưng bạn biết đó là môi trường phát triển gần như mọi thứ bạn muốn đều có. Là một cửa hàng lưu trữ, nó có khá nhiều thứ bạn cần, và tất nhiên nó không đắt. Tôi không nghĩ chúng ta nên ly dị một trong hai điều này với Hadoop mặc dù chúng không chính thức, nếu bạn thích, các thành phần của Hadoop. Cái nêm trực tuyến đã mang một lượng lớn các phân tích vào thế giới nguồn mở và rất nhiều phân tích đó hiện đang được chạy trên Hadoop vì điều đó mang đến cho bạn một môi trường thuận tiện, trong đó bạn thực sự có thể lấy nhiều dữ liệu bên ngoài và bắt đầu chơi tại một hộp cát phân tích.


Và sau đó bạn đã có các khả năng nguồn mở, cả hai đều là máy học. Cả hai đều cực kỳ mạnh mẽ theo nghĩa là chúng thực hiện các thuật toán phân tích mạnh mẽ. Nếu bạn kết hợp những thứ này lại với nhau, bạn đã có hạt nhân của một số khả năng rất, rất quan trọng, theo cách này hay cách khác rất có thể - cho dù nó tự phát triển hay liệu các nhà cung cấp có đến để điền vào những phần còn thiếu - nó rất có thể sẽ tiếp tục trong một thời gian dài và chắc chắn tôi nghĩ rằng việc học máy đã có tác động rất lớn đến thế giới.


Sự phát triển của Hadoop, YARN đã thay đổi mọi thứ. Điều đã xảy ra là MapReduce được hàn gắn khá nhiều vào hệ thống tệp HDFS ban đầu. Khi YARN được giới thiệu, nó đã tạo ra khả năng lập lịch trình trong phiên bản đầu tiên. Bạn không mong đợi việc lên lịch cực kỳ phức tạp từ lần phát hành đầu tiên, nhưng điều đó có nghĩa là bây giờ nó không còn là môi trường vá lỗi nữa. Đó là một môi trường trong đó nhiều công việc có thể được lên lịch. Ngay khi điều đó xảy ra, có cả một loạt các nhà cung cấp đã tránh xa Hadoop - họ chỉ đến và kết nối với nó bởi vì sau đó họ có thể xem nó như môi trường lập lịch trình trên một hệ thống tệp và họ có thể giải quyết vấn đề nó Thậm chí có những nhà cung cấp cơ sở dữ liệu đã triển khai cơ sở dữ liệu của họ trên HDFS, vì họ chỉ lấy công cụ và chỉ đưa nó vào HDFS. Với xếp tầng và với YARN, nó trở thành một môi trường rất thú vị bởi vì bạn có thể tạo ra các quy trình công việc phức tạp trên HDFS và điều này thực sự có nghĩa là bạn có thể bắt đầu nghĩ về nó như một nền tảng có thể điều hành đồng thời nhiều công việc và đang đẩy mình về phía làm công việc quan trọng Nếu bạn định làm điều đó, có lẽ bạn sẽ cần mua một số thành phần của bên thứ ba như bảo mật, v.v., mà Hadoop không thực sự có tài khoản kiểm toán để điền vào các khoảng trống, nhưng bạn đi vào điểm mà ngay cả với nguồn mở bản địa, bạn có thể làm một số điều thú vị.


Về mặt mà tôi nghĩ Hadoop sẽ thực sự đi, cá nhân tôi tin rằng HDFS sẽ trở thành một hệ thống tệp quy mô mặc định và do đó sẽ trở thành HĐH, hệ điều hành, cho lưới cho luồng dữ liệu. Tôi nghĩ rằng nó đã có một tương lai rộng lớn trong đó và tôi không nghĩ rằng nó sẽ dừng lại ở đó. Và tôi nghĩ rằng trên thực tế, hệ sinh thái chỉ giúp ích vì khá nhiều người, tất cả các nhà cung cấp trong không gian, đang thực sự tích hợp Hadoop theo cách này hay cách khác và họ chỉ cho phép nó. Xét về một điểm đáng làm khác, về mặt dư thừa Hadoop, đó không phải là một nền tảng rất tốt cộng với sự song song hóa. Nếu bạn thực sự nhìn vào những gì nó đang làm, thì những gì nó thực sự đang làm là chụp ảnh thường xuyên trên mọi máy chủ khi nó thực hiện các công việc MapReduce của nó. Nếu bạn định thiết kế để song song thực sự nhanh, bạn sẽ không làm điều gì như vậy. Trên thực tế, có lẽ bạn sẽ không tự mình sử dụng MapReduce. MapReduce chỉ là những gì tôi có thể nói một nửa có khả năng song song.


Có hai cách tiếp cận song song: một là bằng các quy trình đường ống và hai là bằng cách phân chia dữ liệu MapReduce và nó phân chia dữ liệu nên có rất nhiều công việc mà MapReduce thực sự không phải là cách nhanh nhất để làm điều đó, nhưng nó sẽ cung cấp cho bạn song song và không có lấy đi từ đó. Khi bạn có nhiều dữ liệu, loại sức mạnh đó thường không hữu dụng. YARN, như tôi đã nói, là một khả năng lập kế hoạch rất trẻ.


Hadoop là, loại vẽ đường trên cát ở đây, Hadoop không phải là kho dữ liệu. Nó là một kho dữ liệu gần như là một gợi ý vô lý để nói rằng nó là. Trong sơ đồ này, những gì tôi đang hiển thị trên cùng là một loại luồng dữ liệu, đi từ một kho dữ liệu Hadoop vào một cơ sở dữ liệu quy mô khổng lồ, đó là những gì chúng ta thực sự sẽ làm, một kho dữ liệu doanh nghiệp. Tôi đang hiển thị cơ sở dữ liệu cũ, cung cấp dữ liệu vào kho dữ liệu và giảm tải hoạt động tạo cơ sở dữ liệu giảm tải từ kho dữ liệu, nhưng đó thực sự là một hình ảnh mà tôi bắt đầu thấy xuất hiện, và tôi sẽ nói rằng đây giống như thế hệ đầu tiên của Điều gì xảy ra với kho dữ liệu với Hadoop. Nhưng nếu bạn nhìn vào kho dữ liệu, bạn sẽ nhận ra rằng bên dưới kho dữ liệu, bạn đã có một trình tối ưu hóa. Bạn đã có nhân viên truy vấn phân tán qua rất nhiều quá trình có lẽ rất nhiều đĩa lớn. Đó là những gì xảy ra trong một kho dữ liệu. Đó thực sự là loại kiến ​​trúc được xây dựng cho một kho dữ liệu và phải mất một thời gian dài để xây dựng một cái gì đó tương tự, và Hadoop hoàn toàn không có bất kỳ thứ gì trong số đó. Vì vậy, Hadoop không phải là một kho dữ liệu và theo tôi, nó sẽ không sớm trở thành một kho dữ liệu.


Nó có kho dữ liệu tương đối này, và nó có vẻ thú vị nếu bạn chỉ nhìn thế giới như một chuỗi các sự kiện chảy vào tổ chức. Đó là những gì tôi đang hiển thị ở phía bên trái của sơ đồ này. Việc nó đi qua khả năng lọc và định tuyến và những thứ cần phát trực tuyến sẽ bị rút khỏi các ứng dụng phát trực tuyến và mọi thứ khác đi thẳng vào kho chứa dữ liệu nơi nó được chuẩn bị và làm sạch, sau đó được ETL chuyển sang một dữ liệu duy nhất kho hoặc một kho dữ liệu logic bao gồm nhiều động cơ. Theo tôi, đây là một dòng phát triển tự nhiên cho Hadoop.


Về mặt ETW, một trong những điều đáng để chỉ ra là kho dữ liệu đã thực sự được di chuyển - đó không phải là nó. Chắc chắn, ngày nay, bạn hy vọng sẽ có một khả năng phân cấp cho mỗi dữ liệu phân cấp về những gì mọi người hoặc một số người gọi các tài liệu trong kho dữ liệu. Đó là JSON. Có thể, các truy vấn mạng đó là cơ sở dữ liệu đồ thị, có thể là phân tích. Vì vậy, những gì chúng ta đang hướng tới là một ETW thực sự có khối lượng công việc phức tạp hơn so với những gì chúng ta đã từng sử dụng. Vì vậy, điều đó thật thú vị bởi vì theo một cách nào đó, điều đó có nghĩa là kho dữ liệu ngày càng tinh vi hơn và vì thế, sẽ còn lâu hơn nữa trước khi Hadoop đến gần nó. Ý nghĩa của kho dữ liệu đang mở rộng, nhưng nó vẫn bao gồm tối ưu hóa. Bạn phải có khả năng tối ưu hóa, không chỉ qua các truy vấn bây giờ mà còn trên tất cả các hoạt động này.


Đó là nó, thực sự. Đó là tất cả những gì tôi muốn nói về Hadoop. Tôi nghĩ rằng tôi có thể giao cho Ray, người không có bất kỳ slide nào, nhưng anh ấy luôn nói tốt.


Eric Kavanagh: Tôi sẽ lấy các slide. Có bạn của chúng tôi, Ray Wang. Vì vậy, Ray, suy nghĩ của bạn về tất cả điều này là gì?


Ray Wang: Bây giờ, tôi nghĩ rằng đó có lẽ là một trong những lịch sử tuyệt vời và ngắn gọn nhất về các cửa hàng giá trị khóa và nơi Hadoop đã có mối quan hệ với doanh nghiệp, vì vậy tôi luôn học hỏi rất nhiều khi nghe Robin.


Trên thực tế, tôi có một slide. Tôi có thể bật lên một slide ở đây.


Eric Kavanagh: Chỉ cần tiếp tục và nhấp vào, nhấp vào bắt đầu và đi để chia sẻ máy tính để bàn của bạn.


Ray Wang: Hiểu rồi, bạn đi đây. Tôi thực sự sẽ chia sẻ. Bạn có thể thấy ứng dụng này. Hãy chờ xem việc này sẽ đi đến đâu.


Tất cả điều này nói về Hadoop và sau đó chúng ta đi sâu vào cuộc trò chuyện về các công nghệ đang có và nơi Hadoop đang hướng tới, và rất nhiều lần tôi chỉ muốn đưa nó trở lại để thực sự thảo luận về kinh doanh. Rất nhiều thứ xảy ra ở phía công nghệ thực sự là phần mà chúng ta đã nói về kho dữ liệu, quản lý thông tin, chất lượng dữ liệu, làm chủ dữ liệu đó và vì vậy chúng ta có xu hướng thấy điều này. Vì vậy, nếu bạn nhìn vào biểu đồ này ở dưới cùng, điều rất thú vị là các loại cá nhân chúng ta gặp phải khi nói về Hadoop. Chúng ta có các nhà công nghệ và các nhà khoa học dữ liệu đang nhìn ra, có rất nhiều hứng thú, và đó thường là về các nguồn dữ liệu, phải không? Làm thế nào để chúng ta làm chủ các nguồn dữ liệu? Làm thế nào để chúng ta có được điều này vào đúng mức chất lượng? Chúng ta làm gì về quản trị? Chúng ta có thể làm gì để phù hợp với các loại nguồn khác nhau? Làm thế nào để chúng ta giữ dòng dõi? Và tất cả các loại thảo luận. Và làm thế nào để chúng ta nhận được nhiều SQL hơn từ Hadoop? Vì vậy, phần đó đang xảy ra ở cấp độ này.


Sau đó, ở phía thông tin và dàn nhạc, đây là nơi nó trở nên thú vị. Chúng ta đang bắt đầu ràng buộc các kết quả đầu ra của cái nhìn sâu sắc mà chúng ta đang nhận được hoặc chúng ta đang kéo nó trở lại quy trình kinh doanh? Làm thế nào để chúng ta buộc nó trở lại với bất kỳ loại mô hình siêu dữ liệu nào? Có phải chúng ta kết nối các dấu chấm giữa các đối tượng? Và vì vậy, các động từ và thảo luận mới về cách chúng ta sử dụng dữ liệu đó, chuyển từ những gì chúng ta theo truyền thống trong thế giới CRUD: tạo, đọc, cập nhật, xóa, đến một thế giới đang thảo luận về cách chúng ta tham gia hoặc chia sẻ hoặc cộng tác hoặc thích hoặc kéo một cái gì đó.


Đó là nơi chúng ta bắt đầu thấy rất nhiều sự phấn khích và đổi mới, đặc biệt là về cách kéo thông tin này và đưa nó đến giá trị. Đó là cuộc thảo luận theo hướng công nghệ dưới đường màu đỏ. Trên đường màu đỏ đó, chúng tôi nhận được những câu hỏi mà chúng tôi luôn muốn hỏi và một trong số chúng tôi luôn đưa ra là, ví dụ, có thể câu hỏi trong bán lẻ cho bạn là, "Tại sao áo len đỏ bán chạy hơn ở Alabama hơn áo len màu xanh ở Michigan? " Bạn có thể nghĩ về nó và nói, "Điều đó thật thú vị." Bạn thấy mô hình đó. Chúng tôi hỏi câu hỏi đó và chúng tôi tự hỏi, "Này, chúng ta đang làm gì vậy?" Có lẽ đó là về các trường công lập - Michigan so với Alabama. OK, tôi hiểu điều này, tôi thấy chúng ta sẽ đi đâu. Và vì vậy, chúng tôi bắt đầu có được khía cạnh kinh doanh của ngôi nhà, người tài chính, người có khả năng BI truyền thống, người tiếp thị và người làm nhân sự nói: "Mô hình của tôi ở đâu?" Làm thế nào để chúng ta có được những mẫu đó? Và vì vậy chúng tôi thấy một cách đổi mới khác về phía Hadoop. Đó thực sự là về cách chúng tôi cập nhật thông tin chi tiết nhanh hơn. Làm thế nào để chúng ta thực hiện các loại kết nối? Tất cả đều hướng đến những người đang làm như thế nào, ad: tech về cơ bản đang cố gắng kết nối quảng cáo và nội dung có liên quan từ bất kỳ thứ gì từ mạng đặt giá thầu thời gian thực đến quảng cáo theo ngữ cảnh và vị trí quảng cáo và thực hiện điều đó một cách nhanh chóng.


Vì vậy, nó thú vị để. Bạn thấy sự tiến bộ của Hadoop từ "Này, đây là giải pháp công nghệ. Đây là những gì chúng ta cần làm để đưa thông tin này đến mọi người." Sau đó, khi nó đi qua dòng phần kinh doanh, đây là nơi nó trở nên thú vị. Đó là cái nhìn sâu sắc. Hiệu suất ở đâu? Khấu trừ ở đâu? Làm thế nào chúng ta dự đoán mọi thứ? Làm thế nào để chúng ta có ảnh hưởng? Và sau đó đưa nó đến cấp độ cuối cùng mà chúng ta thực sự thấy một loạt các đổi mới Hadoop khác đang diễn ra xung quanh các hệ thống quyết định và hành động. Hành động tốt nhất tiếp theo là gì? Vì vậy, bạn biết áo len màu xanh đang bán tốt hơn ở Michigan. Bạn đang ngồi trên một tấn áo len màu xanh ở Alabama. Điều rõ ràng là, "Vâng, chúng ta hãy vận chuyển nó ra khỏi đó." Chúng ta làm điều đó như thế nào? Bước tiếp theo là gì? Làm thế nào để chúng ta buộc lại trong? Có thể là hành động tốt nhất tiếp theo, có thể đó là một đề xuất, có thể đó là điều giúp bạn ngăn chặn sự cố, có thể đó cũng không phải là hành động, mà chính là hành động. Vì vậy, chúng tôi bắt đầu thấy loại mô hình này xuất hiện. Và cái hay của điều này trở lại với những gì bạn đang nói về các cửa hàng giá trị khóa, Robin, là nó đang diễn ra quá nhanh. Nó xảy ra theo cách mà chúng ta đã không nghĩ về nó theo cách này.


Có lẽ tôi muốn nói trong năm năm qua chúng tôi đã chọn. Chúng tôi bắt đầu suy nghĩ về cách chúng ta có thể tận dụng các cửa hàng giá trị khóa một lần nữa, nhưng chỉ trong năm năm qua, mọi người đang nhìn điều này rất khác và nó giống như các chu kỳ công nghệ đang lặp lại theo mô hình 40 năm, vì vậy điều này thật tốt về một điều thú vị khi chúng ta nhìn vào đám mây và tôi giống như chia sẻ thời gian trên máy tính lớn. Chúng tôi đang xem Hadoop và thích kho lưu trữ khóa-giá trị - có thể đó là siêu dữ liệu, ít hơn kho dữ liệu - và vì vậy chúng tôi bắt đầu nhìn thấy các mẫu này một lần nữa. Những gì tôi đang cố gắng làm bây giờ là nghĩ về những gì mọi người đã làm 40 năm trước? Những cách tiếp cận và kỹ thuật và phương pháp nào đang được áp dụng bị giới hạn bởi các công nghệ mà con người có? Đó là loại thúc đẩy quá trình suy nghĩ này. Vì vậy, khi chúng ta đi qua bức tranh lớn hơn về Hadoop như một công cụ, khi chúng ta quay lại và nghĩ về ý nghĩa kinh doanh, đây là loại con đường mà chúng ta thường đưa mọi người đi qua để bạn có thể thấy những phần nào, phần nào trong dữ liệu con đường quyết định. Nó chỉ là thứ mà tôi muốn chia sẻ. Đó là một suy nghĩ mà chúng tôi đã sử dụng nội bộ và hy vọng sẽ thêm vào cuộc thảo luận. Vì vậy, tôi sẽ chuyển nó lại cho bạn, Eric.


Eric Kavanagh: Thật tuyệt vời. Nếu bạn có thể dính xung quanh cho một số câu hỏi và trả lời. Nhưng tôi thích rằng bạn đã đưa nó trở lại cấp độ kinh doanh bởi vì vào cuối ngày, tất cả là về doanh nghiệp. Đó là tất cả về việc hoàn thành công việc và đảm bảo rằng bạn đang tiêu tiền một cách khôn ngoan và đó là một trong những câu hỏi tôi đã thấy, vì vậy người nói có thể muốn nghĩ về TCL của việc đi theo con đường Hadoop là gì. Chẳng hạn, có một điểm ngọt ngào ở giữa, sử dụng các công cụ kệ văn phòng để làm mọi thứ theo cách truyền thống và sử dụng các bộ công cụ mới, bởi vì một lần nữa, hãy nghĩ về nó, rất nhiều thứ này không phải là mới, nó chỉ là một loại Theo tôi, cách kết hợp theo một cách mới là cách tốt nhất để đặt nó.


Vì vậy, hãy tiếp tục và giới thiệu người bạn của chúng tôi, Nikita Ivanov. Ông là người sáng lập và CEO của GridGain. Nikita, tôi sẽ đi trước và trao chìa khóa cho bạn, và tôi tin rằng bạn đang ở ngoài đó. Bạn có nghe thấy tôi Nikita không?


Nikita Ivanov: Vâng, tôi ở đây.


Eric Kavanagh: Tuyệt vời. Vì vậy, sàn là của bạn. Bấm vào slide đó. Sử dụng mũi tên xuống, và mang nó đi. Năm phút.


Nikita Ivanov: Tôi nhấp vào slide nào?


Eric Kavanagh: Chỉ cần nhấp vào bất cứ nơi nào trên slide đó và sau đó bạn sử dụng mũi tên xuống trên bàn phím để di chuyển. Chỉ cần nhấp vào slide và sử dụng mũi tên xuống.


Nikita Ivanov: Được rồi, chỉ cần một vài slide nhanh về GridGain. Chúng ta làm gì trong bối cảnh của cuộc trò chuyện này? GridGain về cơ bản sản xuất một phần mềm điện toán trong bộ nhớ và một phần của nền tảng mà chúng tôi đã phát triển là bộ tăng tốc Hadoop trong bộ nhớ. Về mặt Hadoop, chúng ta có xu hướng nghĩ về bản thân mình như các chuyên gia hiệu suất của Hadoop. Về cơ bản, những gì chúng tôi làm trên nền tảng điện toán trong bộ nhớ cốt lõi của chúng tôi bao gồm các công nghệ như lưới dữ liệu, truyền phát bộ nhớ và lưới tính toán sẽ có thể tăng tốc Hadoop cắm và chạy. Điều đó rất đơn giản. Sẽ thật tuyệt nếu chúng ta có thể phát triển một số loại giải pháp plug-and-play có thể được cài đặt ngay trong bản cài đặt Hadoop. Nếu bạn, nhà phát triển MapReduce, không cần tăng tốc mà không cần phải viết bất kỳ phần mềm mới hoặc thay đổi mã hoặc thay đổi nào, hoặc về cơ bản có tất cả thay đổi cấu hình tối thiểu trong cụm Hadoop. Đó là những gì chúng tôi đã phát triển.


Về cơ bản, máy gia tốc Hadoop trong bộ nhớ dựa trên việc tối ưu hóa hai thành phần trong hệ sinh thái Hadoop. Nếu bạn nghĩ về Hadoop, thì chủ yếu dựa trên HDFS, đó là hệ thống tệp. MapReduce, là khung để chạy các cuộc thi song song trên đầu hệ thống tệp. Để tối ưu hóa Hadoop, chúng tôi tối ưu hóa cả hai hệ thống này. Chúng tôi đã phát triển hệ thống tệp trong bộ nhớ hoàn toàn tương thích, cắm và chạy tương thích 100%, với HDFS. Bạn có thể chạy thay vì HDFS, bạn có thể chạy trên HDFS. Và chúng tôi cũng đã phát triển MapReduce trong bộ nhớ tương thích plug-and-play với Hadoop MapReduce, nhưng có rất nhiều tối ưu hóa về cách thức hoạt động của MapReduce và cách lên lịch trên MapReduce.


Nếu bạn nhìn, ví dụ trên slide này, nơi chúng tôi hiển thị loại trùng lặp. Ở phía bên trái, bạn có hệ điều hành điển hình của mình với GDM và trên sơ đồ này, bạn có trung tâm ứng dụng. Ở giữa bạn có Hadoop. Và Hadoop một lần nữa dựa trên HDFS và MapReduce. Vì vậy, điều này thể hiện trên sơ đồ này, đó là những gì chúng ta đang nhúng vào ngăn xếp Hadoop. Một lần nữa, đó là plug-and-play; bạn không phải thay đổi bất kỳ mã nào. Nó chỉ hoạt động theo cùng một cách. Trên trang trình bày tiếp theo, chúng tôi đã trình bày về cơ bản cách chúng tôi tối ưu hóa quy trình làm việc của MapReduce. Đó có lẽ là phần thú vị nhất vì nó mang lại cho bạn lợi thế nhất khi bạn chạy các công việc MapReduce.


MapReduce điển hình, khi bạn gửi công việc và ở bên trái có sơ đồ, có ứng dụng thông thường. Vì vậy, thông thường bạn đang gửi công việc và công việc đi đến một trình theo dõi công việc. It interacts with the Hadoop name node and the name node is actually the piece of software that manages the interaction with the digital files, and kind of keeps the directory of files and then the job tracker interacts with the task tracker on each individual node and the task tracker interacts with a Hadoop data node to get data from. So that's basically a very kind of high-level overview of how your MapReduce job gets in the computers. As you can see what we do with our in-memory, Hadoop MapReduce will already completely bypass all this complex scheduling that takes a lot of time off your execution and go directly from client to GridGain data node and GridGain data node keeps all that e-memory for a blatantly fast, fast execution.


So all in all basically, we allow it to get anywhere from 5x up all the way to 100x performance increase on certain types of loads, especially for short leaf payloads where you literally measure every second. We can give you a dramatic boost in performance with literally no core change.


Alright, that's all for me.


Eric Kavanagh: Yes, stick around for the Q&A. No doubt about it.


Let me hand it off to John Santaferraro. John, just click on that slide. Use the down arrow to move on.


John Santaferraro: Alright. Thanks a lot, Eric.


My perspective and Actian's perspective really is that Hadoop is really about creating value and so this is an example from digital media. A lot of the data that is pumping into Hadoop right now has to do with digital media, digital marketing, and customer, so there is great opportunity - 226 billion dollars of retail purchases will be made online next year. Big data and Hadoop is about capturing new data to give you insight to get your share of that. How do you drive 14% higher marketing return and profits based on figuring out the right medium X and the right channels and the right digital marketing plan? How do you improve overall return on marketing investment? By the way, in 2017, what we ought to be thinking about when we look at Hadoop is the fact that CMO, chief marketing officer, spending in 2017 will outpace that of IT spending, and so it really is about driving value. Our view is that there are all kinds of noise being made on the left-hand side of this diagram, the data pouring into Hadoop.


Ultimately, our customers are wanting to create customer delight, competitive advantage, world-class risk management, disruptive new business models, and to do all of that to deliver transformational value. They are looking to capture all of this data in Hadoop and be able to do best-in-class kinds of things like discovery on that data without any limitations, no latency at any scale of the data that lives in there - moving from reactive to predictive kinds of analytics and doing everything dynamically instead of looking at data just as static. What pours into Hadoop? How do you analyze it when it arrives? Where do you put it to get the high-performance analytics? And ultimately moving everything down to a segment of one.


So what we've done at Actian in the Actian Analytics Platform, we have built an exoskeleton around Hadoop to give it all of these capabilities that you need so you are able to connect to any data source bringing it into Hadoop, delivering it as a data service wherever you need it. We have libraries of analytics and data blending and data enrichment kinds of operators that you literally drag and drop them so that you can build out these data and analytic workflows, and without ever doing any programming, we will push that workload via YARN right down to the Hadoop nodes so you can do high-performance data science natively on Hadoop. So all of your data prep, all of your data science happening on Hadoop highly parallelized, highly optimized, highly performance and then when you need to, you move it to the right via a high-speed connection over to our high-performance analytic engine, where you can do super-low latency kinds of analytics, and all of that delivering out these real-time kinds of analytics to users, machine-to-machine kinds of communication, and betting those on analytics and business processes, feeding big data apps or applications.


This is an example of telco churn, where at the top of this chart if you're just building telco churn for example, where you have captured one kind of data and poured that into Hadoop, I'd be able to identify about 5% of your potential churn audience. As you move down this chart and add additional kinds of data sources, you do more complex kinds of analytics in the center column there. It allows you to act against that churn in a way that allows you to identify. You move from 5% identification up to 70% identification. So for telecommunications companies, for retail organizations, for any of the fast providers, anybody that has a customer base where there is a fear and a damage that is caused by churn.


This kind of analytics running on top of that exoskeleton-enabled version of Hadoop is what drives real value. What you can see here is that kind of value. This is an example taken from off of the annual report of a telecommunications company that shows their actual total subscribers, 32 million. Their existing churn rate which every telco reports 1.14, 4.3 million subscribers lost every year, costing them 1.14 billion dollars as well as 2.1 billion in revenue. This is a very modest example of how you generate value out of your data that lives in Hadoop, where you can see the potential cost of reacquisition where the potential here is to use Hadoop with the exoskeleton running analytics to basically help this telecommunications company save 160 million dollars as well as avoid 294 million in loss. That's the kind of example that we think is driving Hadoop forward.


Eric Kavangh: Alright, fantastic. And Jim, let me go ahead and give the keys to you. So, Jim Vogt. If you would click on that slide and use the down arrow in your keyboard.


Jim Vogt: I got it. Great picture. OK, thank you very much. I'll tell a little bit about Zettaset. We've been talking about Hadoop all afternoon here. What's interesting about our company is that we basically spend our careers hardening new technology for the enterprise - being able to plug the gaps, if you will, in our new technology to allow it to be widely deployed within our enterprise operational environment. There are a couple of things happening in the market right now. It's kind of like a big open pool party, right? But now the parents have come home. And basically we're trying to bring this thing back to some sense of reality in terms of how you build a real infrastructure piece here that can be scalable, repeatable, non-resource intensive, and secure, most importantly secure. In the marketplace today, most people are still checking the tires on Hadoop. The main reason is, there is a couple of things. One is that within the open source itself, although it does some very useful things in terms of being able to blend data sources, being able to find structure data and very useful data sources, it really lacks for a lot of the hardening and enterprise features around security, higher availability and repeatability that people need to deploy not just a 10- or 20-node cluster, but a 2, 000- and 20, 000-node cluster - there are multiple clusters. What has been monetized in the last two years has been mainly pro-services around setting up these eval clusters. So there is a not a repeatable software process to actually actively deploy this into the marketplace.


So what we built in our software is a couple of things. We're actually transparent into the distributions. At the end of the day, we don't care if it's CVH or HDP, it's all open source. If you look at the raw Apache components that built those distributions, there is really no reason why you have to lock yourself into any one distribution. And so, we work across distributions.


The other thing is that we fill in the gaps transparently in terms of some of the things that are missing within the code itself, the open source. So we talked about HA. HA is great in terms of making no failover, but what happens if any of the active processes that you're putting on these clusters fail? That could take it down or create a security hole, if you will. When we built software components into our solution, they all fall under an HA umbrella where we're actively monitoring all the processes running on the cluster. If code roles goes down, you take the cluster down, so basically, meaning no failover is great, unless you're actively monitoring all the processes running on the cluster, you don't have true HA. And so that's essential of what we developed here at Zettaset. And in a way that we've actually got a patent that has been issued on this and granted last November around this HA approach which is just quite novel and different from the open-source version and is much more hardened for the enterprise.


The second piece is being able to do real RBAC. People are talking about RBAC. They talk about other open-source projects. Why should you have to recreate all those entries and all those users and roles when they already exist in LDAP or in active directory? So we link those transparently and we fold all our processes not only under this RBAC umbrella, but also under the HA umbrella. They start to layer into this infrastructure encryption, encryption at data rest, state of motion, all the hardened security pieces that you really need to secure the information.


What is really driving this is our industries, which I have on the next slide, which profit finance and healthcare and have our compliances. You have to be able to protect this sets of data and you have to be able to do it on a very dynamic fashion because this data can be sitting anywhere across these parallel nodes and clusters and it can be duplicated and so forth, so essentially that's the big umbrella that we built. The last piece that people need is they need to be able to put the pieces together. So having the analytics that John talked to and being able to get value out of data and do that through an open interface tapped into this infrastructure, that's what we built in our software.


So the three cases that I had in here, and you guys are popping me along here were really around finance, healthcare and also cloud, where you're having to deal with multi-tenant environments and essentially have to separate people's sensitive data, so security and performance are key to this type of application whether its cloud or in a sensitive data environment.


The last slide here really talks to this infrastructure that we put together as a company is not just specific to Hadoop. It's something that we can equally apply to other NoSQL technologies and that's where we're taking our company forward. And then we're also going to pull in other open-source components, HBase and so forth, and secure those within that infrastructure in a way that you're not tied to any one distribution. It's like you truly have an open, secure and robust infrastructure for the enterprise. So that's what we're about and that's what we're doing to basically accelerate adoption of Hadoop so people get away from sending twenty-node clusters and actually have the confidence to employ a much larger environment that is more eyes on Hadoop and speeds the market along. Cảm ơn bạn.


Eric Kavanagh: That's fantastic, great. Stick around for the Q&A. Finally, last but not the least, we've got Phu Hoang, CEO of DataTorrent. Let me go ahead and hand the keys to you. The keys are now yours. Click anywhere on that slide, use the down arrow on your keyboard to move them along.


Phu Hoang: Thank you so much.


So yes, I'm here to talk about DataTorrent and I actually think the story of DataTorrent is a great example of what Robin and Ray have been talking about through this session where they say that Hadoop is a great body of work, a great foundation. But it has a lot of goals. But the future is bright because the Hadoop ecosystem where more players are coming in are able to build and add value on top of that foundation to really bring it from storage to insights to action, and really that's the story of DataTorrent.


What I'm going to talk about today is really about real-time big data screening processing. What you see, as I'm interacting with customers, I've never met a single customer that says to me, "Hey, my goal is to take action hours or days after my business events arrive." In fact, they all say they want to take action immediately after the events occur. The problem with the delay is that, that is what Hadoop is today with its MapReduce paradigm. To understand why, it's worth revisiting the history of Hadoop.


I was leading much of Yahoo engineering when we hired Doug Cutting, the creator of Hadoop, and assigned over a hundred engineers to build out Hadoop to power our web search, advertising and data science processing. But Hadoop was built really as a back system to read and write and process these very large files. So while it's great disruptive technology because of its massive scalability and high ability at no cost, it has a hole in that there is a lot of latency to process these large files. Now, it is fair to say that Hadoop is now becoming the plateau operating system that is truly computing and is gaining wide adoption across many enterprises. They are still using that same process of collecting events into large files, running these batch Hadoop jobs to get there inside the next day. What enterprise customers now want is that they want those exact same insights but they want to build to get these insights much earlier, and this will enable them to really act on these events as the event happens, not after maybe hours later after it has been back processed.


Eric Kavanagh: Do you want to be moving your slides forward, just out of curiosity?


Phu Hoang: Yeah it's coming now. Let me illustrate that one example. In this example, using Hadoop in back-slope where you're constantly engaging with files, first an organization might accumulate all the events for the full day, 24 hours' worth of data. And then they batch process it, which may take another eight hours using MapReduce, and so now there is 32 hours of elapsed time before they get any insight. But with real-time stream processing, the events are coming in and are getting processed immediately, there is no accumulation time. Because we do all this processing, all in memory, the in-memory processing is also sub-second. All the time, you are reducing the elapsed time on 30 hours plus to something that is very small. If you're reducing 30 hours to 10 hours, that's valuable but if we can reduce it to a second, something profound happens. You can now act on your event while the event is still happening, and this gives enterprises the ability to understand what their products are doing, what their business is doing, what their users are doing in real time and react to it.


Let's take a look at how this happens. Really, a combination of market forces and technology has enabled a solution like DataTorrent to come together, so from a market perspective, Hadoop is really becoming the de facto big data architecture as we said, right? In an IDC study in 2013, they say that by the end of this year, two-thirds of enterprises would have deployed Hadoop and for DataTorrent, whether that's Apache Hadoop or any of our certified partners like Cloudera or Hortonworks, Hadoop is really clearly the choice for enterprise. From a technology perspective, and I think Robin and Ray alluded to this, Hadoop 2.0 was created to really enable Hadoop to extend to much more general cases than the batch MapReduce paradigm, and my co-founder, Amal, who was at Yahoo leading the development of Hadoop 2.0 really allows this layer of OS to have many more computation paradigms on top of it and real-time streaming is what we chose. By putting this layer of real-time streaming on top of YARN, you can really think of DataTorrent as the real-time equivalent of MapReduce. Whatever you can do in batch with MapReduce, you can now do in streaming with DataTorrent and we can process massive amount of data. We can slice and dice data in multiple dimensions. We have distributed computing and use YARN to give us resources. We have the full ecosystem of the open source Hadoop to enable fast application development.


Let me talk a little bit about the active capabilities of DataTorrent. In five minutes, it is hard for me to kind of give to you much in detail, but let me just discuss and re-differentiate it. First of all, sub-second scalable ingestions, right? This refers to DataTorrent's platform to be able to take that in real-time from hundreds of data sources and begin to process them immediately. This is in direct contact to the back processing of MapReduce that is in Hadoop 1.0 and events can vary in size. They may be as simple as a line in the log file or they may be much more complex like CDR, call data record in the telcom industry. DataTorrent is able to scale the ingestion dynamically up or down depending on the incoming load, and we can deal with tens of millions of incoming events per second. The other major thing here, of course, is the processing itself which is in real-time ETL logic. So once the data is in motion, it is going to go into the ETL logic where you are doing a stack transform and load, and so on. And the logic is really executed by combining a series of what we call operators connected together in a data flow grab. We have open source of over 400 operators today to allow you to build applications very quickly. And they cover everything from input connectors to all kinds of message process to database drivers and connectors where you are to load to all kinds of information to unstream.


The combination of doing all these in memory and building the scale across hundreds of nodes really drive the superior performance. DataTorrent is able to process billions of events per second with sub-second latency.


The last piece that I'd like to highlight is the high-availability architecture. DataTorrent's platform is fully post knowledge; that means that the platform automatically buffers the event and regularly checkpoints the state of the operators on the disk to ensure that there is possibly no problem. The applications can tell you in seconds with no data log and no human intervention. Simply put, data form processes billions of events and allots in data in seconds, it runs 24/7 and it never, ever goes down. The capabilities really set DataTorrent apart from the market and really make it the leading mission-critical, real-time analytics platform for enterprise. With that, we invite you to come visit our website and check us out.


Thanks.


Eric Kavanagh: Yeah, thank you so much. I'll throw a question over to you, really a comment, and let you kind of expound upon it. I really think you're on the ball here with this concept of turning over these operators and letting people use these operators almost like Legos to build big data applications. Can you kind of talk about what goes into the process of taking these operators and stitching them together, how do you actually do that?


Phu Hoang: That's a great question. So first of all, these operators are in your standard application Java Logic. We supply 400 of them. They do all kinds of processing and so to build your application, you really are just connecting operators together into a data flow graph. In our customers, we find that they use a number of operators that we have in our library as well as they take their own job of custom logic and make it an operator so that they can substantiate that into a graph.


Eric Kavanagh: OK, good. I think it's a good segue to bring in John Santaferraro from Actian because you guys have a slightly similar approach, it seems to me, in opening up a sort of management layer to be able to play around with different operators. Can you talk about what you do with respect to what tools we're just talking about, John?


John Santaferraro: Yeah, exactly. We have a library of analytics operators as well as transformational operators, operators for blending and enriching data and it is very similar. You use a drag-and-drop interface to be able to stitch together these data flows or work flows, and even analytic workflows. So it's everything from being able to connect to data, to be able to blend and enrich data, to be able to run data science or machine learning algorithms and then even being able to push that into a high-performance low-latency analytic engine. What we find is that it's all built on the open-source nine project. So we capture a lot of the operators that they are developing and then we take all of that, and via YARN, very similar to what Phu described at DataTorrent, we push that down so that it is parallelized against all of the nodes in a Hadoop cluster. A lot of it is about making the data in Hadoop much more accessible to business users and less-skilled workers, somebody besides a data scientist.


Eric Kavanagh: OK, let me go bring in Nikita once again. I'm going to throw your five up as well. Can you kind of talk about how you approach this solution vis-à-vis what these two gentlemen just talked about? How does someone actually put this stuff together and make use from GridGain?


Nikita Ivanov: Well, I think the biggest difference between us and from practically the rest of them is we don't require you to do any recording - you don't have to do anything, it's a plug-and-play. If you have an application today, it's going to work faster. You don't have to change code; you don't have to do anything; you just have to install GridGain along the side of Hadoop cluster and that's it. So that's the biggest difference and we talked to our customers. There are different myriad of solutions today that ask you to change something: programming, doing your API, using your interfaces and whatnot. Ours is very simple. You don't need to invest a lot of time into the Hadoop ecosystem, and whatever you used to do, the MapReduce or any of the tools continue to use. With GridGain, you don't have to change any single line of code, it's just going to work faster. That's the biggest difference and that's the biggest message for us.


Eric Kavanagh: Let's get Jim back in here too. Jim, your quote is killing me. I had to write it down in between that. I'll put it into some kind of deck, but the Hadoop ecosystem right now is like a pool party and the parents just came home. That is funny stuff man; that is brilliant. Can you kind of talk about how you guys come onto the scene? How do you actually implement this? How long does that take? How does all that work?


Jim Kaskade: Yes. So there are a couple of varieties depending on the target customer, but typically these days, you see evaluations where security is factored in, in some of these hardening requirements that I talked about. What has happened in some other cases, and especially last year where people had big plans to deploy, is that there was kind of a science project, if you will, or somebody was playing with the technology and had a cluster up and working and was working with it but then the security guy shows up, and if it is going to go on a live data center, it has to basically comply with the same requirements that we have for other equipment running in the data center, if it is going to be an infrastructure that we build out. Last year, we had even some banks that told us they were going to deploy 400 to 1, 000 nodes last year and they're still sitting on a 20-node cluster mainly because now a security person has been plugged in. They've got to be worried about financial compliance, about sets of information that is sitting on a cluster, and so forth. It varies by customer, but typically this is kind of what elongates the cycles and this is typical of a new technology where if you really want to deploy this in production environment, it really has to have some of these other pieces including the very valuable open-source pieces, right?


Eric Kavanagh: OK, good. Let's see. I'm going to bring Phu back into the equation here. We've got a good question for you. One of the attendees is asking how is DataTorrent different from Storm or Kafka or the Redis infrastructure. Phu, are you out there? Hey, Phu, can you hear me? Maybe I'm mute.


Let's bring Ray Wang back into this. Ray, you've seen a lot of these technologies and looked at how they worked. I really love this concept of turning over control or giving control to end users of the operators. I like to think of them as like really powerful Legos that they can use to kind of build some of these applications. Can you comment on that? What do you think about all that?


Ray Wang: Coming from my technical background, I'd say I'm scared - I was scared shitless! But honestly, I think it's important, I mean, in order to get scale. There's no way you can only put so many requests. Think about the old way we did data warehousing. In the business I had to file the request for a report so that they could match all the schemes. I mean, it's ridiculous. So we do have to get to a way for the business side of the house and definitely become data jocks. We actually think that in this world, we're going to see more digital artists and people that have the right skills, but also understand how to take that data and translate that into business value. And so these digital artisans, data artisans depending on how you look at this, are going to need both really by first having the curiosity and the right set of questions, but also the knowledge to know when the data set stinks. If I'm getting a false positive or a false negative, why is that happening?


I think a basic level of stats, a basic level of analytics, understanding that there's going to be some training required. But I don't think it's going to be too hard. I think if you get the right folks that should be able to happen. You can't democratize the whole decision-making process. I see that happening. We see that in a lot of companies. Some are financial services clients are doing that. Some of our retail folks are doing that, especially in the razor-thin margins that you are seeing in retail. I was definitely seeing that in high tech just around here in the valley. That's just kind of how people are. It's emerging that way but it's going to take some time because these basic data skills are still lacking. And I think we need to combine that with some of the stuff that some of these guys are doing here on this webinar.


Eric Kavanagh: Well, you bring up a really good point. Like how many controls you want to give to the average end user. You don't want to give an airplane cockpit to someone who's driving a car for the first time. You want to be able to closely control what they have control over. I guess my excitement kind of stems around being able to do things yourself, but the key is you got to put the right person in that cockpit. You got to have someone who really knows what they're doing. No matter what you hear from the vendor community folks, when somebody's more powerful tools are extremely complex, I mean if you are talking about putting together a string of 13, 14, 15 operators to do a particular type of transformation on your data, there are not many people who could do that well. I think we're going to have many, many more people who do that well because the tools are out there now and you can play with the stuff, and there is going to be a drive to be able to perfect that process or at least get good at it.


We did actually lose Phu, but he's back on the line now. So, Phu, the question for you is how is DataTorrent different from, like, Storm or Kafka or Redis or some of these others?


Phu Hoang: I think that's a great question. So, Redis of course is really an in-memory data store and we connect to Redis. We see ourselves as really a processing engine of data, of streaming data. Kafka again is a great bus messaging bus we use. It's actually one of our favorite messaging bus, but someone has to do the big data processing across hundreds of nodes that is fault tolerant, that is scalable, and I repeat that as the job that we play. So, yes, we are similar to Storm, but I think that Storm is really developed a long time ago even before Hadoop, and it doesn't have the enterprise-level thinking about scalability to the hundreds and millions, now even billions of events, nor does it really have the HA capability that I think enterprise requires.


Eric Kavanagh: Great. And you know, speaking of HA, I'll use that as an excuse to bring Robin Bloor back into the conversation. We just talked about this yesterday. What do you mean by high availability? What do you mean by fault tolerance? What do you mean by real time, for example? These are terms that can be bent. We see this all time in the world of enterprise technology. It's a good term that other people kind of glom onto and use and co-opt and move around and then suddenly things don't mean quite what they used to. You know, Robin, one of my pet peeves is this whole universe of VOIP. It's like "Why would we go down in quality? Isn't it important to understand what people say to you and why that matters?" But I'll just ask you to kind of comment on what you think. I'm still laughing about Ray's comment that he's scared shitless about giving these people. What do you think about that?


Ray Wang: Oh, I think it's a Spider-man problem, isn't it? Với sức mạnh lớn đến trách nhiệm lớn. You really, in terms of the capabilities out there, I mean it changed me actually a long time ago. You know, I would give my ITs some of the capabilities that they have gotten now. We used to do it extraordinary amounts of what I would say was grunt work that the machines do right now and do it in parallel. They do things that we could never have imagined. I mean we would have understood mathematically, but we could never imagine doing. But there is some people understand data and Ray is completely right about this. The reason to be scared is that people will actually start getting wrong conclusions, that they will wrangle with the data and they will apply something extremely powerful and it will appear to suggest something and they will believe it without actually even being able to do anything as simple as have somebody doing audit on whether their result is actually a valid result. We used to do this all the time in the insurance company I used to work for. If anybody did any work, somebody always checks. Everything was checked by at least one person against the person who did it. These environments, the software is extremely strong but you got to have the discipline around it to use it properly. Otherwise, there'll be tears before bedtime, won't there?


Eric Kavanagh: I love that quote, that's awesome. Let me see. I'm going to go ahead and throw just for this slide up here from GridGain, can you talk about, Nikita, when you come in to play, how do you actually get these application super charged? I mean, I understand what you are doing, but what does the process look like to actually get you embedded, to get you woven in and to get all that stuff running?


Nikita Ivanov: Well, the process is relatively simple. You essentially just need to install GridGain and make a small configuration change, just to let Hadoop know that there is now the HDFS if you want to use HDFS and you have to set up which way you want to use it. You can get it from BigTop, by the way. It's probably the easiest way to install it if you're using the Hadoop. That's about it. With the new versions coming up, a little in about few weeks from now, by the end of May, we're going to have even more simplified process for this. So the whole point of the in-memory Hadoop accelerator is to, do not code. Do not make any changes to your code. The only that you need to do is install it and have enough RAM in the cluster and off you go, so the process is very simple.


Eric Kavanagh: Let me bring John Santaferraro back in. We'll take a couple more questions here. You know, John, you guys, we've been watching you from various perspectives of course. You were over at PEAR Excel; that got folded into Actian. Of course, Actian used to be called Ingres and you guys made a couple of other acquisitions. How are you stitching all of that stuff together? I realize you might not want to get too technical with this, but you guys have a lot of stuff now. You've got Data Rush. I'm not sure if it's still the same name, but you got a whole bunch of different products that have been kind of woven together to create this platform. Talk about what's going on there and how that's coming along.


John Santaferraro: The good news is, Eric, that separately in the companies that we're acquired Pervasive, PEAR Excel and even when Actian had developed, everybody developed their product with very similar architectures. Number one, they were open with regards to data and interacting with other platforms. Number two, everything was parallelized to run in a distributed environment. Number three, everything was highly optimized. What that allowed us to do is to very quickly make integration points, so that you can be creating these data flows already today. We have established the integration, so you create the data flows. You do your data blending and enriching right on Hadoop, everything parallelized, everything optimized. When you want, you move that over into our high-performance engines. Then, there's already a high-performance connection between Hadoop and our massively parallel analytic engine that does these super-low-latency things like helping a bank recalculate and recast their entire risk portfolio every two minutes and feeding that into our real-time trading system or feeding it into some kind of a desktop for the wealth manager so they can respond to the most valuable customers for the bank.


We have already put those pieces together. There's additional integration to be done. But today, we have the Actian Analytics Platform as our offering because a lot of that integration was ready to go. It has already been accomplished, so we're stitching those pieces together to drive this entire analytic value chain from connecting the data, all of the processing that you do of it, any kind of analytics you want to run, and then using it to feed into these automated business processes so that you're actually improving that activity over time. It's all about this end-to-end platform that already exists today.


Eric Kavanagh: That's pretty good stuff. And I guess, Jim, I'll bring you back in for another couple of comments, and Robin, I want to bring you in for just one big question, I suppose. Folks, we will keep all these questions - we do pass them on to the people who participated in the event today. If you ever feel a question you asked was not answered, feel free to email yours truly. You should have some information on me and how to get ahold from me. Also, just now I put a link to the full deck with slides from non-sponsoring vendors. So we put the word out to all the vendors out there in the whole Hadoop space. We said, "Tell us what your story is; tell us what's going on." It's a huge file. It's about 40-plus megabytes.


But Jim, let me bring you back in and just kind of talk about - again, I love this concept - where you're talking about the pool party that comes to an end. Could you talk about how it is that you manage to stay on top on what's happening in the open-source community? Because it's a very fast-moving environment. But I think you guys have a pretty clever strategy of serving this sort of enterprise-hardening vendor that sits on top or kind of around that. Can you talk about your development cycles and how you stay on top of what's happening?


Jim Vogt: Sure. It is pretty fast moving in terms of if you look at just a snapshot updates, but what we're shipping in functionality today is about a year to a year and a half ahead of what we can get on security capabilities out to the community today. It's not that they're not going to get there; it just takes time. It's a different process, it has contributors and so forth, and it just takes time. When we go to a customer, we need to be very well versed in the open source and very well versed in mainly the security things that we're bringing. The reason that we're actually issuing patents and submitting patents is that there is some real value in IP, intellectual property, around hardening these open-source components. When we support a customer, we have to support all the varying open-source components and all the varying distributions as we do, and we also need to have the expertise around the specific features that we're adding to that open source to create the solution that we create. As a company, although we don't want the customer to be a Hadoop expert, we don't think you need to be a mechanic to drive the car. We need to be a mechanic that understands the car and how it works and understand what's happening between our code and the open source code.


Eric Kavanagh: That's great. Phu, I'll give you one last question. Then Robin, I have one question for you and then we'll wrap up, folks. We will archive this webcast. As I suggested, we'll be up on insideanalysis.com. We'll also go ahead and have some stuff up on Techopedia. A big thank you to those folks for partnering with us to create this cool new series.


But Phu … I remember watching the demo of the stuff and I was just frankly stunned at what you guys have done. Can you explain how it is that you can achieve that level of no failover?


Phu Hoang: Sure, I think it's a great question. Really, the problem for us had three components. Number one is, you can't lose the events that are moving from operator to operator in the Hadoop cluster. So we have to have event buffering. But even more importantly, inside your operators, you may have states that you're calculating. Let's say you're actually counting money. There's a subtotal in there, so if that node goes down and it's in memory, that number is gone, and you can't start from some point. Where would you start from?


So today, you have to actually do a regular checkpoint of your operator state down to this. You put that interval so it does not become a big overhead, but when a node goes down, it can come back up and be able to go back to exactly the right state where you last checkpointed and be able to bring in the events starting from that state. That allows you to therefore continue as if the event actually has never happened. Of course, the last one is to make sure that your application manager is also fault tolerant so that doesn't go down. So all three factors need to be in place for you to say that you're fully fault tolerant.


Eric Kavanagh: Yeah, that's great. Let me go ahead and throw one last question over to Robin Bloor. So one of the attendees is asking, does anyone think that Hortonworks or another will get soaked up/invested in by a major player like Intel? I don't think there's any doubt about that. I'm not surprised, but I'm fascinated, I guess, that Intel jumped in before like an IBM or an Oracle, but I guess maybe the guys at IBM and Oracle think they've already got it covered by just co-opting what comes out of the open-source movement. What do you think about that?


Robin Bloor: It's a very curious move. We should see in light of the fact that Intel already had its own Hadoop distribution and what it has effectively done is just passed that over to Cloudera. There aren't many powers in the industry as large as Intel and it is difficult to know what your business model actually is if you have a Hadoop distribution, because it is difficult to know exactly what it is going to be used for in the future. In other words, we don't know where the revenue streams are necessarily coming from.


With somebody like Intel, they just want a lot of processes to be solved. It is going to support their main business plan the more that Hadoop is used. It's kind of easy to have a simplistic explanation of what Intel are up to. It's not so easy to guess what they might choose to do in terms of putting code on chips. I'm not 100% certain whether they're going to do that. I mean, it's a very difficult thing to call that. Their next move at the hardware level, I think, is the system on a chip. When we go to the system on a chip, you may actually want to put some basic software on the chip, so to speak. So putting HDFS on there; that might make some sense. But I don't think that that was what that money investment was about. I think all that money investment was about was just making sure that Intel had a hand in the game and is actually going forward.


In terms of who else is going to buy, that is also difficult to say. I mean, certainly the SAPs and Oracles of this world have got enough money to buy into this or IBM has got enough money to buy into it. But, you know, this is all open source. IBM never bought a Linux distribution, even though they plowed a lot of money into Linux. It didn't break their hearts that they didn't actually have a Linux distribution. They're very happy to cooperate with Red Hat. I would say maybe Red Hat will buy one of these distributions, because they know how to make that business model work, but it's difficult to say.


Eric Kavanagh: Yeah, great point. So folks, I'm going to go ahead and just share my desktop one last time here and just show you a couple of things. So after the event, check out Techopedia - you can see that on the left-hand side. Here's a story that yours truly wrote, I guess a couple of months ago or a month and a half ago, I suppose. It really kind of spun out of a lot of the experience that we had talking with various vendors and trying to dig in to understanding what exactly is going on with the space because sometimes it can be kind of difficult to navigate the buzz words and the hype and the terminology and so forth.


Also a very big thank you to all of those who have been Tweeting. We had one heck of a Tweet stream here going today. So, thank you, all of you. You see that it just goes on and on and on. A lot of great Tweets on TechWise today.


This is the first of our new series, folks. Thank you so much for tuning in. We will let you know what's going on for the next series sometime soon. I think we're going to focus on analytics probably in June sometime. And folks, with that, I think we're going to go ahead and close up our event. We will email you tomorrow with a link to the slides from today and we're also going to email you the link to that full deck, which is a huge deck. We've got about twenty different vendors with their Hadoop story. We're really trying to give you a sort of compendium of content around a particular topic. So for bedtime reading or whenever you're interested, you can kind of dive in and try to get that strategic view of what's going on here in the industry.


Với điều đó, chúng tôi sẽ chào tạm biệt bạn, folks. Thank you again so much. Go to insideanalysis.com and Techopedia to find more information about all this in the future and we'll catch up to you next time. Tạm biệt.

Đi sâu vào hadoop - bảng điểm kỹ thuật tập 1