Trang Chủ Phần cứng Sắt lớn, đáp ứng dữ liệu lớn: giải phóng dữ liệu máy tính lớn với hadoop và tia lửa

Sắt lớn, đáp ứng dữ liệu lớn: giải phóng dữ liệu máy tính lớn với hadoop và tia lửa

Anonim

Bởi nhân viên Techopedia, ngày 2 tháng 6 năm 2016

Takeaway: Hệ sinh thái Hadoop đang được sử dụng trên các máy tính lớn để xử lý dữ liệu lớn một cách nhanh chóng và hiệu quả.

Bạn hiện chưa đăng nhập. Vui lòng đăng nhập hoặc đăng ký để xem video.

Eric Kavanagh: Được rồi các quý ông và quý bà, bây giờ là bốn giờ Đông vào thứ năm, và những ngày này có nghĩa là đã đến lúc dành cho Hot Technologies. Đúng vậy, tên tôi là Eric Kavanagh. Tôi sẽ là người điều hành của bạn cho hội thảo web ngày hôm nay. Đó là những thứ tốt, mọi người, Sắt Lớn, Gặp gỡ Dữ liệu Lớn - Tôi chỉ thích tiêu đề đó - Dữ liệu Giải phóng Mainframe với Hadoop và Spark. Chúng tôi sẽ nói về những cuộc gặp gỡ mới. Ồ Chúng tôi bao quát mọi thứ chúng tôi đã nói trong 50 năm qua về CNTT doanh nghiệp. Spark gặp máy tính lớn, tôi thích nó.

Có một điểm về bạn thực sự và đủ về tôi. Năm nóng. Chúng tôi nói về các chủ đề nóng trong loạt bài này bởi vì chúng tôi thực sự đang cố gắng giúp mọi người hiểu một số ngành, không gian nhất định. Nó có nghĩa là gì, ví dụ, có một nền tảng phân tích? Việc giải phóng dữ liệu lớn khỏi máy tính lớn có nghĩa là gì? Tất cả những thứ này có nghĩa là gì? Chúng tôi đang cố gắng giúp bạn hiểu các loại công nghệ cụ thể, nơi chúng phù hợp với hỗn hợp và cách bạn có thể sử dụng chúng.

Chúng tôi có hai nhà phân tích ngày hôm nay và sau đó tất nhiên là Tendü Yogurtçu của Syncsort. Cô ấy là một người có tầm nhìn trong không gian của chúng tôi, rất vui mừng được trực tuyến hôm nay, với Dez Blanchfield và Tiến sĩ Robin Bloor của chúng tôi. Tôi sẽ chỉ nói một vài từ nhanh thôi. Một là, thưa các bạn, bạn đóng một vai trò lớn trong quá trình này, vì vậy xin đừng ngại hỏi một số câu hỏi hay. Chúng tôi muốn nhận được chúng trong phần Hỏi & Đáp của webcast, thường là vào cuối chương trình. Và tất cả những gì tôi phải nói là chúng tôi có rất nhiều nội dung hay, vì vậy tôi rất phấn khích khi nghe những chàng trai này nói gì. Và với điều đó, tôi sẽ trao nó cho Dez Blanchfield. Dez, sàn là của bạn, mang nó đi.

Dez Blanchfield: Cảm ơn bạn, Eric, và cảm ơn tất cả mọi người đã tham dự ngày hôm nay. Vì vậy, tôi khá phấn khích khi có cơ hội nói về một trong những điều yêu thích của tôi trên thế giới, máy tính lớn. Họ không nhận được nhiều tình yêu trong những ngày này. Quan điểm của tôi là máy tính lớn là nền tảng dữ liệu lớn ban đầu. Một số người sẽ cho rằng chúng là máy tính duy nhất vào thời điểm đó và đó là một điểm công bằng để thực hiện, nhưng trong hơn 60 năm qua, chúng thực sự là phòng máy của những dữ liệu lớn đã trở nên phổ biến. Và tôi sẽ đưa bạn vào một hành trình nhỏ về lý do tại sao tôi tin đó là trường hợp.

Chúng ta đã thấy một hành trình trong các ngăn xếp phần cứng công nghệ trong bối cảnh các máy tính lớn chuyển từ hình ảnh mà bạn thấy trên màn hình bây giờ. Đây là một máy tính lớn FACOM cũ, một trong những mục yêu thích của tôi. Chúng ta đã tự mình bước vào giai đoạn sắt lớn, những năm cuối thập niên 90 và thời kỳ bùng nổ dot-com. Đây là Sun microsystems E10000. Thứ này là một con quái vật tuyệt đối ở 96 CPU. Ban đầu là 64 nhưng nó có thể được nâng cấp ở 96 CPU. Mỗi CPU có thể chạy 1.024 luồng. Mỗi luồng có thể ở tốc độ ứng dụng cùng một lúc. Nó thật quái dị và nó thực sự mang đến sự bùng nổ dot-com. Đây là tất cả những con kỳ lân lớn như chúng ta gọi chúng, bây giờ chúng ta đang chạy, và không chỉ các doanh nghiệp lớn, một số trang web lớn.

Và sau đó chúng tôi đã kết thúc với mô hình PC hàng hóa phổ biến này. Chúng tôi vừa kết hợp nhiều máy móc giá rẻ lại với nhau và chúng tôi tạo ra một cụm và chúng tôi đã tiếp cận với thách thức lớn về sắt và điều đã trở thành dữ liệu lớn đặc biệt dưới dạng dự án Hadoop phát sinh từ công cụ tìm kiếm nguồn mở, Nutch. Và về cơ bản, chúng tôi đã tái tạo máy tính lớn và rất nhiều CPU nhỏ được dán lại với nhau và có thể hoạt động như đường dẫn L và dưới dạng chạy các công việc riêng biệt hoặc các phần của công việc và chúng khá hiệu quả theo nhiều cách. Rẻ hơn nếu bạn bắt đầu nhỏ hơn, nhưng vô số các cụm lớn này đã đắt hơn một máy tính lớn.

Quan điểm của tôi về những điều này là trong sự vội vã từ sự bùng nổ của dot-com cho đến khi trở thành Web 2.0 và bây giờ đang theo đuổi kỳ lân, chúng tôi đã quên rằng nền tảng này vẫn cung cấp năng lượng cho nhiều hệ thống quan trọng nhất của chúng tôi ngoài kia. Khi chúng tôi nghĩ về những gì đang chạy trên nền tảng máy tính lớn ngoài kia. Nó là rất nhiều dữ liệu lớn, đặc biệt là dữ liệu phù hợp, nhưng chắc chắn là dữ liệu lớn. Các hệ thống doanh nghiệp và chính phủ truyền thống như ngân hàng và quản lý tài sản và bảo hiểm nói riêng, tất cả chúng ta đều sử dụng hàng ngày.

Đặt vé máy bay và hệ thống quản lý chuyến bay, đặc biệt là quản lý chuyến bay trong đó thời gian thực là rất quan trọng. Hầu như mọi tiểu bang và chính phủ liên bang tại một số thời điểm đã có một máy tính lớn và luôn luôn có nhiều người vẫn có chúng. Bán lẻ và sản xuất. Một số phần mềm cũ chỉ mới xuất hiện và chưa bao giờ biến mất. Chỉ cần tiếp tục với môi trường sản xuất điện và chắc chắn bán lẻ ở quy mô. Hệ thống y tế. Hệ thống phòng thủ, chắc chắn là hệ thống phòng thủ.

Trong vài tuần qua tôi đã đọc nhiều bài viết về thực tế là một số hệ thống điều khiển tên lửa vẫn đang chạy trên các máy tính lớn cũ mà họ đang vật lộn để tìm các bộ phận. Họ đang tìm cách nâng cấp lên máy tính lớn mới. Hệ thống giao thông vận tải và hậu cần. Chúng có thể không giống như các chủ đề gợi cảm nhưng đây là những chủ đề mà chúng ta giải quyết hàng ngày trên các dòng. Và một số môi trường viễn thông rất lớn vẫn đang chạy trên nền tảng máy tính lớn.

Khi bạn nghĩ về các loại dữ liệu trong đó, tất cả chúng đều là nhiệm vụ quan trọng. Chúng là những nền tảng và nền tảng thực sự quan trọng mà chúng ta được cấp mỗi ngày và bằng nhiều cách làm cho cuộc sống trở nên khả thi. Vậy ai vẫn đang sử dụng máy tính lớn và tất cả những người này đang nắm giữ những nền tảng lớn này và nắm giữ tất cả dữ liệu này? Vâng, như tôi đã nói ở đây, tôi tin rằng thật dễ bị lừa bởi sự thay đổi của phương tiện truyền thông từ bàn ủi lớn sang giá đỡ của các cụm phổ biến hoặc máy tính giá rẻ hoặc máy x86, nghĩ rằng máy tính lớn đã chết và biến mất. Nhưng dữ liệu nói rằng máy tính lớn không bao giờ biến mất và thực tế nó vẫn ở đây.

Nghiên cứu mà tôi đã kết hợp ở đây trong vài tuần qua đã chỉ ra rằng 70 phần trăm doanh nghiệp, đặc biệt là doanh nghiệp lớn, dữ liệu vẫn thực sự nằm trên một máy tính lớn dưới một hình thức nào đó. Bảy mươi mốt phần trăm của Fortune 500 vẫn chạy các hệ thống kinh doanh cốt lõi trên các máy tính lớn ở đâu đó. Trên thực tế, tại Úc, chúng tôi có một số tổ chức có một trung tâm dữ liệu ở giữa một thành phố. Đó là một máy tính ngầm thực sự hiệu quả và số lượng máy tính lớn đang chạy ở đó, tích tắc và vui vẻ thực hiện công việc của họ. Và rất ít người biết rằng đi bộ trên đường phố, ngay dưới chân họ ở một phần đặc biệt của thành phố có trung tâm dữ liệu khổng lồ này chứa đầy các máy tính lớn. Chín mươi hai trong số 100 ngân hàng trên toàn thế giới, 100 ngân hàng hàng đầu, vẫn đang điều hành các hệ thống ngân hàng trên các máy tính lớn. Hai mươi ba trong số 25 chuỗi bán lẻ hàng đầu trên thế giới sử dụng máy tính lớn để vẫn chạy hệ thống quản lý bán lẻ của họ trong các nền tảng EIP và BI.

Thật thú vị, 10 trong số 10 công ty bảo hiểm hàng đầu vẫn chạy nền tảng của họ trên máy tính lớn và họ thực sự cung cấp năng lượng cho các dịch vụ đám mây của họ trên máy tính lớn. Nếu bạn đang sử dụng giao diện web hoặc ứng dụng dành cho thiết bị di động ở đâu đó có giao diện trung gian, thì thực sự nói về một thứ gì đó thực sự nặng và to ở phía sau.

Tôi vẫn tìm thấy hơn 225 cơ quan chính quyền tiểu bang và địa phương trên toàn thế giới đang chạy trên nền tảng máy tính lớn. Tôi chắc chắn có rất nhiều lý do cho điều đó. Có thể họ không có ngân sách để xem xét sắt mới nhưng đó là một dấu vết lớn của môi trường rất lớn chạy trên máy tính lớn với một số dữ liệu rất quan trọng. Và như tôi đã đề cập trước đó, hầu hết các quốc gia vẫn điều hành các hệ thống phòng thủ quan trọng của họ trên máy tính lớn. Tôi chắc chắn bằng nhiều cách họ đang cố gắng thoát khỏi đó nhưng bạn sẽ đến đó.

Vào năm 2015 IDC đã thực hiện một cuộc khảo sát và 350 CIO được khảo sát cho biết họ vẫn sở hữu và quản lý sắt lớn dưới dạng máy tính lớn. Và tôi nhận ra rằng có khả năng nó còn nhiều hơn số cụm Hadoop quy mô lớn hiện đang hoạt động trên toàn thế giới trong sản xuất - một chỉ số nhỏ thú vị ở đó. Tôi sẽ tiếp tục và xác nhận điều đó, nhưng đó là một con số lớn. Ba trăm năm mươi CIO báo cáo rằng họ có một hoặc nhiều máy tính lớn vẫn đang được sản xuất.

Năm ngoái, 2015, IBM đã cho chúng tôi chiếc Z13 hùng mạnh, lần lặp thứ 13 của nền tảng máy tính lớn của họ. Các phương tiện truyền thông đã phát cuồng về điều này bởi vì họ đã rất ngạc nhiên rằng IBM vẫn đang tạo ra các máy tính lớn. Khi họ nâng mui xe lên và xem xét những gì bên dưới sự việc, họ nhận ra rằng nó thực sự ngang tầm với hầu hết mọi nền tảng hiện đại mà chúng tôi đã hào hứng ở dạng dữ liệu lớn, Hadoop và chắc chắn là các cụm. Điều này chạy Spark và bây giờ Hadoop hữu. Bạn có thể chạy hàng ngàn và hàng ngàn máy Linux trên nó và nó trông giống như bất kỳ cụm nào khác. Đó là một cỗ máy đáng kinh ngạc.

Một số tổ chức đã thực hiện những điều này và trên thực tế tôi đã thực hiện một số dữ liệu về số lượng các máy này đang chiếm. Bây giờ tôi đã có quan điểm rằng thiết bị đầu cuối văn bản 3270 đã được thay thế bởi các trình duyệt web và ứng dụng di động trong một thời gian và có rất nhiều dữ liệu hỗ trợ điều đó. Tôi nghĩ bây giờ chúng ta đang bước vào kỷ nguyên mà chúng ta đã nhận ra rằng những máy tính lớn này sẽ không biến mất và có một lượng dữ liệu đáng kể về chúng. Và vì vậy, những gì chúng ta đang làm bây giờ chỉ đơn giản là thêm những gì tôi gọi là các công cụ phân tích có sẵn. Đây không phải là các ứng dụng được xây dựng tùy chỉnh. Đây là những điều được đặt ra một lần. Đây là những thứ mà bạn hoàn toàn có thể mua theo hộp theo nghĩa đen và cắm vào máy tính lớn của bạn và thực hiện một số phân tích.

Như tôi đã nói trước đây, trên thực tế, máy tính lớn đã tồn tại hơn 60 năm. Khi chúng ta nghĩ về điều đó là bao lâu, điều đó dài hơn hầu hết sự nghiệp của các chuyên gia CNTT còn sống thực sự kéo dài. Và trên thực tế có lẽ một số cuộc sống của họ, thậm chí. Năm 2002, IBM đã bán được 2.300 máy tính lớn. Trong năm 2013 đã tăng lên 2.700 máy tính lớn. Đó là 2.700 doanh số của máy tính lớn trong một năm vào năm 2013. Tôi không thể có được dữ liệu chính xác vào năm 2015 nhưng tôi tưởng tượng nó sẽ nhanh chóng đạt được gần 3.000 đơn vị được bán trong một năm 2015, 2013. Và tôi mong muốn có thể xác nhận điều đó.

Với việc phát hành Z13, lần lặp thứ 13 của nền tảng máy tính lớn, mà tôi nghĩ rằng họ đã tiêu tốn khoảng 1, 2 hoặc 1, 3 tỷ đô la để phát triển từ đầu, IBM, đây là một cỗ máy trông giống như bất kỳ cụm nào khác chúng ta có ngày hôm nay, và điều hành Hadoop và Spark. Và chắc chắn có thể được kết nối từ các công cụ phân tích và dữ liệu lớn khác hoặc luôn được kết nối với một trong các cụm Hadoop hiện tại hoặc mới của bạn. Tôi có quan điểm rằng bao gồm nền tảng máy tính lớn trong chiến lược dữ liệu lớn của bạn là điều bắt buộc. Rõ ràng, nếu bạn có một dữ liệu, bạn đã có rất nhiều dữ liệu và bạn muốn tìm ra cách lấy nó ra khỏi đó. Và họ bị bỏ lại để thu thập bụi theo nhiều cách, cả về tinh thần và cảm xúc cho đến tận thế giới kinh doanh, nhưng họ vẫn ở đây.

Kết nối và giao diện cho tất cả các công cụ phân tích của bạn với dữ liệu được lưu trữ trên máy tính lớn phải là một phần quan trọng trong doanh nghiệp của bạn và đặc biệt là các gói dữ liệu lớn của chính phủ. Và lúc nào cũng có phần mềm đang chú ý đến chúng, nhìn thật kỹ vào chúng và nhận ra những gì bên trong những thứ này và những tâm trí kết nối bắt đầu hiểu biết và cảm nhận một chút về những gì thực sự nằm dưới mui xe. Và với điều đó tôi sẽ trao lại cho đồng nghiệp thân yêu của mình, Tiến sĩ Robin Bloor và anh ta sẽ thêm vào hành trình nhỏ đó. Robin, mang nó đi.

Robin Bloor: Vâng, cảm ơn bạn. Được rồi, vì Dez đã hát bài hát của máy tính lớn, tôi sẽ đi sâu vào những gì tôi nghĩ đang xảy ra trong điều kiện của thế giới máy tính cũ và thế giới Hadoop mới. Tôi đoán câu hỏi lớn ở đây là, làm thế nào để bạn quản lý tất cả dữ liệu đó? Theo ý kiến ​​của tôi, máy tính lớn đang bị thách thức về khả năng dữ liệu lớn của nó - khả năng dữ liệu lớn của nó là vô cùng, như Dez đã chỉ ra, nó cực kỳ có khả năng. Trong thực tế, bạn có thể đặt các cụm Hadoop trên đó. Trường hợp nó đang bị thách thức là về hệ sinh thái của nó và tôi sẽ giải thích về điều đó.

Đây là một số định vị máy tính lớn. Nó có chi phí đầu vào cao và những gì thực sự đã xảy ra trong quá khứ, kể từ giữa những năm 90 khi mức độ phổ biến của các máy tính lớn bắt đầu giảm, nó có xu hướng mất đi mức thấp, những người đã mua máy tính lớn giá rẻ và nó đã không 't thực sự đặc biệt kinh tế cho những người đó. Nhưng cao hơn thực sự trong phân khúc tầm trung và cao của máy tính lớn mà nó vẫn thực sự là, và thực sự đáng kinh ngạc là, máy tính cực kỳ rẻ tiền.

Phải nói rằng, đã được Linux giải cứu vì Linux được triển khai trên máy tính lớn khiến tất nhiên có thể chạy tất cả các ứng dụng Linux. Rất nhiều ứng dụng Linux đã đến đó trước khi dữ liệu lớn thậm chí là một từ, hoặc hai từ tôi cho là. Đây thực sự là một nền tảng khá tuyệt vời cho đám mây riêng. Do đó, nó có thể tham gia vào việc triển khai đám mây lai. Một trong những vấn đề là kỹ năng máy tính lớn đang bị thiếu hụt. Các kỹ năng máy tính lớn tồn tại thực sự đang già đi theo nghĩa là mọi người rời khỏi ngành này để nghỉ hưu hàng năm và họ chỉ bị thay thế về số lượng người. Vì vậy, đó là một vấn đề. Nhưng nó vẫn là máy tính rẻ tiền.

Khu vực nơi nó bị thách thức tất nhiên là toàn bộ điều Hadoop này. Đó là hình ảnh của Doug Cutting với con voi Hadoop gốc. Hệ sinh thái Hadoop là - và nó sẽ vẫn còn - hệ sinh thái dữ liệu lớn thống trị. Nó cung cấp quy mô tốt hơn so với máy tính lớn thực sự có thể đạt được và chi phí thấp hơn như một kho lưu trữ dữ liệu theo một cách lâu dài. Hệ sinh thái Hadoop đang phát triển. Cách tốt nhất để suy nghĩ về điều này là một khi một nền tảng phần cứng cụ thể và môi trường hoạt động với nó trở nên chiếm ưu thế, thì hệ sinh thái sẽ trở nên sống động. Và điều đó đã xảy ra với máy tính lớn của IBM. Chà, sau đó đã xảy ra với Digital VAX, xảy ra với các máy chủ của Sun, xảy ra với Windows, xảy ra với Linux.

Và điều đã xảy ra là Hadoop, thứ mà tôi luôn nghĩ đến hoặc muốn nghĩ về, như một loại môi trường phân tán cho dữ liệu, hệ sinh thái đang phát triển với tốc độ đáng kinh ngạc. Ý tôi là nếu bạn chỉ đề cập đến những đóng góp ấn tượng khác nhau là nguồn mở, Spark, Flink, Kafka, Presto, và sau đó bạn thêm vào đó một số cơ sở dữ liệu, các khả năng của NoQuery và SQL hiện đang có trên Hadoop. Hadoop là hệ sinh thái tích cực nhất thực sự tồn tại ngoài kia, chắc chắn là trong điện toán doanh nghiệp. Nhưng nếu bạn muốn coi nó như một cơ sở dữ liệu, thì hiện tại nó không chịu bất kỳ sự so sánh nào với những gì tôi có xu hướng nghĩ là cơ sở dữ liệu thực, đặc biệt là trong không gian kho dữ liệu. Và điều đó giải thích ở một mức độ nhất định sự thành công của một số cơ sở dữ liệu NoQuery lớn không chạy trên Hadoop như CouchDB, v.v.

Là một hồ dữ liệu, nó có một hệ sinh thái phong phú hơn nhiều so với bất kỳ nền tảng nào khác và nó sẽ không bị thay thế từ đó. Hệ sinh thái của nó không chỉ là hệ sinh thái nguồn mở. Hiện tại có một số lượng lớn các thành viên phần mềm có các sản phẩm được xây dựng cơ bản cho Hadoop hoặc đã được nhập khẩu vào Hadoop. Và họ vừa tạo ra một hệ sinh thái không có bất cứ thứ gì có thể cạnh tranh với nó về độ rộng của nó. Và điều đó có nghĩa là nó thực sự trở thành nền tảng cho sự đổi mới dữ liệu lớn. Nhưng theo tôi nó vẫn chưa trưởng thành và chúng ta có thể có những cuộc thảo luận dài về những gì và không, giả sử, trưởng thành về mặt hoạt động với Hadoop nhưng tôi nghĩ rằng hầu hết mọi người đang nhìn vào khu vực đặc biệt này đều biết rằng Hadoop chậm hơn hàng thập kỷ về khả năng hoạt động.

Các hồ dữ liệu phát triển. Hồ dữ liệu là một nền tảng theo bất kỳ định nghĩa nào và nếu bạn nghĩ rằng có một lớp dữ liệu trong máy tính doanh nghiệp bây giờ thì rất dễ nghĩ về cơ sở dữ liệu cố định cộng với hồ dữ liệu tạo thành lớp dữ liệu. Ứng dụng hồ dữ liệu rất nhiều và đa dạng. Tôi đã có một sơ đồ ở đây chỉ cần xem qua các dữ liệu khác nhau cần phải thực hiện nếu bạn sử dụng Hadoop làm khu vực tổ chức hoặc Hadoop và Spark làm khu vực tổ chức. Và bạn đã có toàn bộ - dòng dữ liệu, làm sạch dữ liệu, quản lý siêu dữ liệu, khám phá siêu dữ liệu - nó có thể được sử dụng cho chính ETL nhưng thường yêu cầu ETL đưa dữ liệu vào. Quản lý dữ liệu, định nghĩa kinh doanh về quản lý dữ liệu, quản lý dịch vụ những gì đang xảy ra trong Hadoop, quản lý dữ liệu vòng đời và ETL ra khỏi Hadoop và bạn cũng có các ứng dụng phân tích trực tiếp mà bạn có thể chạy trên Hadoop.

Và đó là lý do tại sao nó trở nên rất mạnh mẽ và là nơi nó được triển khai và triển khai thành công, thông thường, nó có ít nhất một bộ sưu tập các loại ứng dụng này chạy trên nó. Và hầu hết các ứng dụng đó, đặc biệt là những ứng dụng mà tôi đã được giới thiệu, chúng hiện không có sẵn trên máy tính lớn. Nhưng bạn có thể chạy chúng trên máy tính lớn, trên cụm Hadoop đang chạy trong một phân vùng của máy tính lớn.

Theo tôi, hồ dữ liệu đang trở thành khu vực tổ chức tự nhiên để phân tích cơ sở dữ liệu nhanh và cho BI. Nó trở thành nơi bạn lấy dữ liệu, cho dù đó là dữ liệu công ty hay dữ liệu ngoài, gây rối cho đến khi nó, giả sử, đủ sạch để sử dụng và có cấu trúc tốt để sử dụng và sau đó bạn truyền lại. Và tất cả những điều này vẫn còn trong giai đoạn trứng nước.

Theo ý kiến ​​của tôi, về sự cùng tồn tại của máy tính lớn / Hadoop, điều đầu tiên là các công ty lớn không có khả năng từ bỏ máy tính lớn. Trên thực tế, các dấu hiệu mà tôi thấy gần đây ngụ ý rằng có sự đầu tư tăng lên trong máy tính lớn. Nhưng họ cũng sẽ không bỏ qua hệ sinh thái Hadoop. Tôi đang nhìn thấy con số 60% các công ty lớn sử dụng Hadoop ngay cả khi rất nhiều trong số họ thực sự chỉ là thử nghiệm và thử nghiệm.

Câu hỏi hóc búa là, Làm thế nào để bạn làm cho hai thứ này cùng tồn tại? Hãy vì chúng sẽ cần chia sẻ dữ liệu. Dữ liệu được đưa vào hồ dữ liệu họ cần chuyển vào máy tính lớn. Dữ liệu trên máy tính lớn có thể cần phải đi đến hồ dữ liệu hoặc qua hồ dữ liệu để được nối với dữ liệu khác. Và điều đó sẽ xảy ra. Và điều đó có nghĩa là nó đòi hỏi khả năng truyền dữ liệu / khả năng ETL nhanh. Không chắc rằng khối lượng công việc sẽ được chia sẻ linh hoạt trong, giả sử, một môi trường máy tính lớn hoặc với một cái gì đó trong môi trường Hadoop. Đó sẽ là dữ liệu được chia sẻ. Và phần lớn dữ liệu chắc chắn sẽ nằm trên Hadoop đơn giản vì đây là nền tảng chi phí thấp nhất cho nó. Và quá trình phân tích từ đầu đến cuối có lẽ cũng sẽ nằm ở đó.

Tóm lại, cuối cùng chúng ta cần suy nghĩ về một lớp dữ liệu của công ty, mà đối với nhiều công ty sẽ bao gồm máy tính lớn. Và lớp dữ liệu đó cần được quản lý một cách chủ động. Nếu không thì cả hai sẽ không cùng tồn tại. Tôi có thể chuyền bóng lại cho bạn Eric.

Eric Kavanagh: Một lần nữa, Tendü Tôi vừa làm bạn người dẫn chương trình, vì vậy hãy mang nó đi.

Tendü Yogurtçu: Cảm ơn bạn, Eric. Cảm ơn bạn đã mời tôi. Chào mọi người. Tôi sẽ nói về trải nghiệm Syncsort với khách hàng liên quan đến cách chúng tôi xem dữ liệu như một tài sản trong tổ chức được phân cấp từ máy tính lớn đến dữ liệu lớn trên nền tảng phân tích. Và tôi hy vọng rằng chúng tôi cũng sẽ có thời gian vào cuối phiên để có câu hỏi từ khán giả vì đó thực sự là phần có giá trị nhất trong những webcast này.

Chỉ dành cho những người không biết Syncsort làm gì, Syncsort là một công ty phần mềm. Chúng tôi đã thực sự khoảng hơn 40 năm. Bắt đầu ở phía máy tính lớn và các sản phẩm của chúng tôi trải rộng từ máy tính lớn đến Unix đến các nền tảng dữ liệu lớn, bao gồm Hadoop, Spark, Splunk, cả trên tiền đề và trên đám mây. Chúng tôi luôn tập trung vào các sản phẩm dữ liệu, xử lý dữ liệu và các sản phẩm tích hợp dữ liệu.

Chiến lược của chúng tôi liên quan đến dữ liệu lớn và Hadoop đã thực sự trở thành một phần của hệ sinh thái ngay từ ngày đầu. Là chủ sở hữu của các nhà cung cấp đã thực sự tập trung vào xử lý dữ liệu với các công cụ rất nhẹ, chúng tôi nghĩ rằng có một cơ hội lớn để tham gia vào Hadoop trở thành một nền tảng xử lý dữ liệu và là một phần của kiến ​​trúc kho dữ liệu thế hệ tiếp theo cho tổ chức này. Chúng tôi đã là người đóng góp cho các dự án Apache nguồn mở từ năm 2011, bắt đầu với MapReduce. Đã nằm trong top 10 cho Hadoop Phiên bản 2 và thực sự tham gia vào nhiều dự án bao gồm các gói Spark, một số trình kết nối của chúng tôi được xuất bản trong các gói Spark.

Chúng tôi tận dụng công cụ xử lý dữ liệu rất nhẹ của chúng tôi, đó là siêu dữ liệu hoàn toàn dựa trên tệp phẳng và rất phù hợp với các hệ thống tệp phân tán như Hệ thống tệp phân tán Hadoop. Và chúng tôi tận dụng di sản của mình trên máy tính lớn, chuyên môn của chúng tôi với các thuật toán khi chúng tôi đưa ra các sản phẩm dữ liệu lớn của mình. Và chúng tôi hợp tác rất chặt chẽ với các nhà cung cấp lớn, những người chơi lớn ở đây bao gồm Hortonworks, Cloudera, MapR, Splunk. Hortonworks gần đây đã thông báo rằng họ sẽ bán lại sản phẩm của chúng tôi cho ETL trên tàu với Hadoop. Với Dell và Cloudera, chúng tôi có quan hệ đối tác rất chặt chẽ cũng đang bán lại sản phẩm ETL của chúng tôi như một phần của thiết bị dữ liệu lớn của họ. Và với Splunk thực sự, chúng tôi xuất bản một dữ liệu từ xa và bảo mật máy tính lớn trong bảng điều khiển Splunk. Chúng tôi có một quan hệ đối tác chặt chẽ.

Điều gì trong suy nghĩ của mỗi giám đốc điều hành cấp C? Thật sự là, Làm thế nào để tôi chạm vào tài sản dữ liệu của mình? Mọi người đang nói về dữ liệu lớn. Mọi người đang nói về Hadoop, Spark, nền tảng máy tính tiếp theo có thể giúp tôi tạo ra sự linh hoạt trong kinh doanh và mở ra các ứng dụng biến đổi mới. Cơ hội đi đến thị trường mới. Mỗi người điều hành đều nghĩ, chiến lược dữ liệu của tôi là gì, sáng kiến ​​dữ liệu của tôi là gì và làm thế nào để tôi chắc chắn rằng mình không ở lại cạnh tranh và tôi vẫn còn ở thị trường này trong ba năm tới? hãy xem điều này khi chúng tôi nói chuyện với khách hàng của mình, khi chúng tôi nói chuyện với cơ sở khách hàng toàn cầu của chúng tôi, khá lớn, như bạn có thể tưởng tượng, vì chúng tôi đã có mặt được một thời gian.

Khi chúng tôi nói chuyện với tất cả các tổ chức này, chúng tôi cũng thấy điều này trong kho công nghệ trong sự gián đoạn xảy ra với Hadoop. Đó thực sự là để đáp ứng nhu cầu này về dữ liệu như một tài sản. Tận dụng tất cả các tài sản dữ liệu mà một tổ chức có. Và chúng ta đã thấy kiến ​​trúc kho dữ liệu doanh nghiệp phát triển sao cho Hadoop bây giờ là trung tâm mới của kiến ​​trúc dữ liệu hiện đại. Và hầu hết khách hàng của chúng tôi, cho dù đó là dịch vụ tài chính, cho dù đó là bảo hiểm, telco của bán lẻ, các sáng kiến ​​thường là chúng tôi thấy rằng Hadoop là một dịch vụ hoặc dữ liệu như một dịch vụ. Bởi vì mọi người đang cố gắng làm cho các tài sản dữ liệu có sẵn cho cả máy khách bên ngoài hoặc máy khách bên trong của họ. Và trong một số tổ chức, chúng tôi thấy các sáng kiến ​​gần như là một thị trường dữ liệu cho khách hàng của họ.

Và một trong những bước đầu tiên đạt được đó là tất cả từ việc tạo ra một trung tâm dữ liệu doanh nghiệp. Đôi khi mọi người sẽ gọi nó là một hồ dữ liệu. Tạo trung tâm dữ liệu doanh nghiệp này thực sự không dễ dàng như âm thanh bởi vì nó thực sự đòi hỏi phải truy cập và thu thập hầu như bất kỳ dữ liệu nào trong doanh nghiệp. Và dữ liệu đó bây giờ là từ tất cả các nguồn mới như cảm biến di động cũng như cơ sở dữ liệu cũ và nó ở chế độ hàng loạt và ở chế độ phát trực tuyến. Tích hợp dữ liệu luôn là một thách thức, tuy nhiên, với số lượng và nguồn dữ liệu đa dạng và các kiểu phân phối khác nhau, cho dù đó là hàng loạt hay phát trực tuyến theo thời gian thực, nó thậm chí còn khó khăn hơn so với năm năm trước, mười năm trước. Thỉnh thoảng chúng tôi gọi nó là, đó không phải là ETL của cha bạn nữa.

Vì vậy, chúng tôi nói về các tài sản dữ liệu khác nhau. Khi các doanh nghiệp đang cố gắng tìm hiểu dữ liệu mới, dữ liệu họ thu thập từ thiết bị di động, cho dù là cảm biến trong nhà sản xuất ô tô hay dữ liệu người dùng cho một công ty trò chơi di động, họ thường cần tham khảo các tài sản dữ liệu quan trọng nhất trong doanh nghiệp, đó là thông tin khách hàng, ví dụ. Những tài sản dữ liệu quan trọng nhất này thường sống trên máy tính lớn. Tương quan dữ liệu máy tính lớn với các nguồn mới đang nổi này, được thu thập trên đám mây, được thu thập qua điện thoại di động, được thu thập trên dây chuyền sản xuất của một công ty ô tô Nhật Bản hoặc internet của các ứng dụng, phải hiểu ý nghĩa của dữ liệu mới này bằng cách tham khảo các bộ dữ liệu kế thừa của họ. Và những bộ dữ liệu kế thừa đó thường có trên máy tính lớn.

Và nếu các công ty này không thể làm điều đó, không thể truy cập vào dữ liệu máy tính lớn thì sẽ có cơ hội bị bỏ lỡ. Sau đó, dữ liệu dưới dạng dịch vụ hoặc tận dụng tất cả dữ liệu doanh nghiệp không thực sự khai thác vào các tài sản quan trọng nhất trong tổ chức. Ngoài ra còn có phần dữ liệu từ xa và bảo mật vì gần như tất cả dữ liệu giao dịch đều có trên máy tính lớn.

Hãy tưởng tượng bạn đến ATM, tôi nghĩ một trong những người tham dự đã gửi tin nhắn cho những người tham gia ở đây để bảo vệ hệ thống ngân hàng, khi bạn quẹt thẻ rằng dữ liệu giao dịch có khá nhiều trên toàn cầu trên máy tính lớn. Và việc bảo mật và thu thập dữ liệu bảo mật và dữ liệu từ xa từ các máy tính lớn và làm cho chúng có sẵn thông qua bảng điều khiển Splunk hoặc các bảng khác, Spark, SQL, trở nên quan trọng hơn bao giờ hết, vì khối lượng dữ liệu và sự đa dạng của dữ liệu.

Bộ kỹ năng là một trong những thách thức lớn nhất. Bởi vì một mặt bạn có một ngăn xếp dữ liệu lớn thay đổi nhanh chóng, bạn không biết dự án nào sẽ tồn tại, dự án nào sẽ không tồn tại, tôi nên thuê các nhà phát triển Hive hay Pig? Tôi nên đầu tư vào MapReduce hay Spark? Hoặc điều tiếp theo, Flink, ai đó nói. Tôi có nên đầu tư vào một trong những nền tảng máy tính này không? Một mặt, theo kịp hệ sinh thái thay đổi nhanh chóng là một thách thức và mặt khác bạn có những nguồn dữ liệu kế thừa này. Các bộ kỹ năng mới không thực sự phù hợp và bạn có thể gặp sự cố vì những tài nguyên đó có thể đang thực sự nghỉ hưu. Có một khoảng cách lớn về bộ kỹ năng của những người hiểu những ngăn xếp dữ liệu cũ và những người hiểu về công nghệ mới nổi.

Thách thức thứ hai là quản trị. Khi bạn thực sự truy cập tất cả dữ liệu doanh nghiệp trên các nền tảng, chúng tôi có những khách hàng đặt ra mối lo ngại rằng, tôi không muốn dữ liệu của mình hạ cánh. Tôi không muốn dữ liệu của mình bị sao chép ở nhiều nơi vì tôi muốn tránh nhiều bản sao nhất có thể. Tôi muốn có quyền truy cập từ đầu đến cuối mà không cần đặt nó ở giữa đó. Điều chỉnh dữ liệu này trở thành một thách thức. Và một điều nữa là nếu bạn đang truy cập dữ liệu bị nghẽn cổ chai, nếu bạn đang thu thập hầu hết dữ liệu của mình trên đám mây và truy cập và tham chiếu dữ liệu cũ, băng thông mạng sẽ trở thành một vấn đề, một nền tảng cụm. Có nhiều thách thức về việc có sáng kiến ​​dữ liệu lớn này và các nền tảng phân tích nâng cao và tận dụng tất cả dữ liệu doanh nghiệp.

Những gì Syncsort cung cấp là, chúng tôi được gọi là đơn giản là người giỏi nhất không phải vì chúng tôi đơn giản là người giỏi nhất mà là khách hàng của chúng tôi thực sự coi chúng tôi là người giỏi nhất trong việc truy cập và tích hợp dữ liệu máy tính lớn. Chúng tôi hỗ trợ tất cả các định dạng dữ liệu từ máy tính lớn và cung cấp cho các phân tích dữ liệu lớn. Cho dù đó là trên Hadoop hay Spark hay nền tảng máy tính tiếp theo. Bởi vì các sản phẩm của chúng tôi thực sự cách nhiệt sự phức tạp của nền tảng máy tính. Bạn, với tư cách là nhà phát triển, có khả năng phát triển trên máy tính xách tay, tập trung vào đường truyền dữ liệu và chuẩn bị dữ liệu là gì, các bước để tạo dữ liệu này được tạo cho phân tích, giai đoạn tiếp theo và sử dụng cùng ứng dụng đó trong MapReduce hoặc thực hiện điều đó ứng dụng tương tự xung quanh trong Spark.

Chúng tôi đã giúp khách hàng của mình thực hiện điều đó khi YARN có sẵn và họ phải chuyển các ứng dụng của họ từ MapReduce phiên bản 1 sang YARN. Chúng tôi đang giúp họ làm điều tương tự với Apache Spark. Sản phẩm của chúng tôi, phiên bản 9 mới cũng đang chạy với Spark và cung cấp một tối ưu hóa động sẽ bảo vệ các ứng dụng này cho các khung máy tính trong tương lai.

Vì vậy, chúng tôi đã truy cập dữ liệu máy tính lớn, cho dù đó là các tệp VSAM, cho dù đó là DB2 hay dữ liệu từ xa, như các bản ghi SMF hoặc Log4j hoặc syslog, cần được hiển thị thông qua bảng điều khiển Splunk. Và trong khi làm điều đó, bởi vì tổ chức có thể tận dụng bộ kỹ năng dữ liệu hoặc bộ kỹ năng ETL hiện có của họ, thời gian phát triển giảm đáng kể. Trong thực tế với Dell và Cloudera, đã có một điểm chuẩn độc lập được tài trợ và điểm chuẩn đó tập trung vào thời gian phát triển nếu bạn đang thực hiện mã hóa tay hoặc sử dụng các công cụ khác như Syncsort và giảm khoảng 60, 70% trong thời gian phát triển . Thu hẹp khoảng cách đặt các khoảng cách giữa các nhóm, trên các máy chủ tệp dữ liệu đó và cả các máy chủ tệp dữ liệu đó về mặt con người.

Thông thường, nhóm dữ liệu lớn hoặc nhóm nhập dữ liệu hoặc nhóm được giao nhiệm vụ phát triển dữ liệu này dưới dạng kiến ​​trúc dịch vụ, không nhất thiết phải nói chuyện với nhóm máy tính lớn. Họ muốn giảm thiểu sự tương tác đó gần như trong nhiều tổ chức. Bằng cách thu hẹp khoảng cách đó, chúng tôi đã tiến lên. Và phần quan trọng nhất là thực sự đảm bảo toàn bộ quá trình. Bởi vì trong doanh nghiệp khi bạn đang xử lý loại dữ liệu nhạy cảm này có nhiều yêu cầu.

Trong các ngành được kiểm soát chặt chẽ như bảo hiểm và ngân hàng, khách hàng của chúng tôi yêu cầu, họ nói, Bạn cung cấp quyền truy cập dữ liệu máy tính lớn này và điều đó thật tuyệt. Bạn cũng có thể đề nghị tôi tạo định dạng bản ghi được mã hóa EBCDIC này ở định dạng ban đầu để tôi có thể đáp ứng các yêu cầu kiểm toán của mình không? Vì vậy, chúng tôi làm cho Hadoop và Apache Spark hiểu dữ liệu máy tính lớn. Bạn có thể giữ dữ liệu ở định dạng bản ghi gốc, xử lý và cấp nền tảng máy tính của nhà phân phối và nếu bạn cần đặt lại, bạn có thể hiển thị bản ghi không bị thay đổi và định dạng bản ghi không bị thay đổi, bạn có thể tuân thủ các yêu cầu quy định .

Và hầu hết các tổ chức, khi họ đang tạo trung tâm dữ liệu hoặc hồ dữ liệu, họ cũng đang cố gắng thực hiện việc này chỉ bằng một cú nhấp chuột để có thể ánh xạ siêu dữ liệu từ hàng trăm lược đồ trong cơ sở dữ liệu Oracle sang các bảng Hive hoặc các tệp ORC hoặc Parquet trở nên cần thiết Chúng tôi cung cấp các công cụ và chúng tôi cung cấp các công cụ để thực hiện việc này truy cập dữ liệu một bước, tự động tạo công việc hoặc di chuyển dữ liệu và tự động tạo công việc để tạo ánh xạ dữ liệu.

Chúng tôi đã nói về phần kết nối, sự tuân thủ, quản trị và xử lý dữ liệu. Và các sản phẩm của chúng tôi có sẵn cả trên cơ sở và trên đám mây, điều này thực sự rất đơn giản bởi vì các công ty không cần phải suy nghĩ về những gì sẽ xảy ra trong một hoặc hai năm tới nếu tôi quyết định đi hoàn toàn trong đám mây công cộng so với lai môi trường, vì một số cụm có thể đang chạy trên tiền đề hoặc trong đám mây. Và các sản phẩm của chúng tôi có sẵn trên cả Amazon Marketplace, trên EC2, Elastic MapReduce và cả cho Docker container.

Chỉ để kết thúc, vì vậy chúng tôi có đủ thời gian cho hỏi đáp, đó thực sự là về việc truy cập, tích hợp và tuân thủ quản trị dữ liệu, nhưng làm cho tất cả điều này trở nên đơn giản hơn. Và trong khi làm cho điều này trở nên đơn giản hơn, thiết kế một lần và triển khai bất cứ nơi nào theo đúng nghĩa vì những đóng góp nguồn mở của chúng tôi, sản phẩm của chúng tôi chạy tự nhiên trong luồng dữ liệu Hadoop và tự nhiên với Spark, cách ly các tổ chức khỏi hệ sinh thái thay đổi nhanh chóng. Và cung cấp một đường truyền dữ liệu duy nhất, một giao diện duy nhất, cho cả lô và phát trực tuyến.

Và điều này cũng giúp các tổ chức đôi khi đánh giá các khung này, bởi vì bạn có thể thực sự muốn tạo các ứng dụng và chỉ chạy trên MapReduce so với Spark và tự mình xem, vâng, Spark có lời hứa này và cung cấp tất cả các tiến bộ về thuật toán lặp để hoạt động tốt nhất cho máy học và các ứng dụng phân tích dự đoán hoạt động với Spark, tôi cũng có thể thực hiện khối lượng công việc phát trực tuyến và hàng loạt trên khung máy tính này không? Bạn có thể kiểm tra các nền tảng máy tính khác nhau bằng cách sử dụng các sản phẩm của chúng tôi. Và tối ưu hóa động cho dù bạn đang chạy trên một máy chủ độc lập, trên máy tính xách tay của bạn, trong Google Cloud so với Apache Spark, thực sự là một đề xuất có giá trị lớn cho khách hàng của chúng tôi. Và nó thực sự được thúc đẩy bởi những thách thức mà họ có.

Tôi sẽ chỉ bao gồm một trong những nghiên cứu trường hợp. Đây là Công ty Bảo hiểm Nhân thọ. Và sáng kiến ​​của Guardian thực sự là tập trung tài sản dữ liệu của họ và cung cấp cho khách hàng của họ, giảm thời gian chuẩn bị dữ liệu và họ nói rằng mọi người nói về việc chuẩn bị dữ liệu chiếm 80% đường ống xử lý dữ liệu tổng thể và họ nói rằng thực tế họ đang thực hiện 75 đến 80 phần trăm cho họ và họ muốn giảm việc chuẩn bị dữ liệu, thời gian chuyển đổi, thời gian tiếp thị cho các dự án phân tích. Tạo sự nhanh nhẹn đó khi họ thêm các nguồn dữ liệu mới. Và làm cho truy cập dữ liệu tập trung có sẵn cho tất cả các khách hàng của họ.

Giải pháp của họ, bao gồm các sản phẩm Syncsort, hiện tại họ có một thị trường dữ liệu giống như Amazon Marketplace được hỗ trợ bởi một hồ dữ liệu, về cơ bản là Hadoop và cơ sở dữ liệu NoQuery. Và họ sử dụng các sản phẩm của chúng tôi để đưa tất cả các tài sản dữ liệu vào hồ dữ liệu, bao gồm cả DB2 trên máy tính lớn, bao gồm các tệp VSAM trên máy tính lớn và các nguồn dữ liệu kế thừa cơ sở dữ liệu cũng như các nguồn dữ liệu mới. Và do đó, họ đã tập trung các tài sản dữ liệu có thể sử dụng lại có thể tìm kiếm, có thể truy cập và có sẵn cho khách hàng của họ. Và họ thực sự có thể thêm các nguồn dữ liệu mới và phục vụ khách hàng của họ nhanh hơn và hiệu quả hơn trước. Và các sáng kiến ​​phân tích thậm chí còn tiến triển nhiều hơn về phía dự đoán. Vì vậy, tôi sẽ tạm dừng và tôi hy vọng điều này hữu ích và nếu bạn có bất kỳ câu hỏi nào cho tôi về bất kỳ chủ đề liên quan nào, xin vui lòng.

Eric Kavanagh: Chắc chắn, và Tendü, tôi sẽ chỉ ném một cái. Tôi nhận được một nhận xét từ một thành viên khán giả chỉ nói rằng, tôi thích thiết kế này một lần, triển khai ở bất cứ đâu. "Bạn có thể tìm hiểu xem điều đó có đúng không? Ý tôi là, bạn đã làm gì để kích hoạt sự nhanh nhẹn đó và có thuế không? Giống như khi chúng ta nói về ảo hóa, chẳng hạn, luôn có một chút thuế đối với hiệu suất. Một số người nói hai phần trăm, năm phần trăm 10 phần trăm. Những gì bạn đã làm để kích hoạt thiết kế một lần, triển khai ở bất cứ đâu - làm thế nào để bạn thực hiện nó và có bất kỳ khoản thuế nào liên quan đến nó về mặt hiệu suất?

Tendü Yogurtçu: Chắc chắn, cảm ơn bạn. Không, bởi vì không giống như một số nhà cung cấp khác, chúng tôi không thực sự tạo ra Hive hoặc Pig hoặc một số mã khác không có nguồn gốc từ các công cụ của chúng tôi. Đây là nơi đóng góp nguồn mở của chúng tôi đóng một vai trò rất lớn, bởi vì chúng tôi đã làm việc với các nhà cung cấp Hadoop, Cloudera, Hortonworks và MapR rất chặt chẽ và do đóng góp nguồn mở của chúng tôi, thực tế công cụ của chúng tôi đang hoạt động như một phần của dòng chảy, như một phần của dòng chảy Hadoop, như một phần của Spark.

Điều gì cũng dịch, chúng tôi có tối ưu hóa năng động này. Đây là một cái gì đó xuất phát từ việc khách hàng của chúng tôi bị thách thức với các khung máy tính. Khi họ đang đi vào sản xuất với một số ứng dụng, họ đã quay lại, họ nói, tôi đang ổn định cụm Hadoop của mình, ổn định trên MapReduce YARN Phiên bản 2, MapReduce Phiên bản 2 và mọi người đang nói rằng MapReduce đã chết, Spark là Điều tiếp theo, và một số người đang nói Flink sẽ là điều tiếp theo, làm thế nào để tôi đối phó với điều này?

Và những thách thức đó thực sự đã trở nên quá rõ ràng đối với chúng tôi, chúng tôi đã đầu tư để có sự tối ưu hóa năng động này mà chúng tôi gọi là thực thi thông minh. Vào thời gian chạy, khi công việc, khi đường ống dữ liệu này được gửi, dựa trên cụm, cho dù đó là Spark, cho dù đó là MapReduce hay máy chủ độc lập Linux, chúng tôi quyết định cách chạy công việc này, thực chất là trong công cụ của chúng tôi, như một phần của điều đó Luồng dữ liệu Hadoop hoặc Spark. Không có chi phí hoạt động vì mọi thứ được thực hiện thông qua tối ưu hóa động này mà chúng tôi có và mọi thứ cũng được thực hiện do công cụ của chúng tôi được tích hợp rất hữu ích vì những đóng góp của nguồn mở. Câu trả lời đó có đáp ứng được câu hỏi của bạn không?

Eric Kavanagh: Vâng, điều đó thật tốt. Và tôi muốn đưa ra thêm một câu hỏi nữa, rồi Dez, có lẽ chúng ta cũng sẽ kéo bạn và Robin vào. Tôi vừa nhận được một bình luận vui nhộn từ một trong những người tham dự của chúng tôi. Tôi sẽ đọc nó bởi vì nó thực sự là khá súc tích. Ông viết, có vẻ như trong lịch sử của những thứ NÓNG "- hiểu không? Giống như IoT -" là bạn càng cố gắng 'đơn giản hóa' một thứ gì đó thực sự phức tạp, thường xuyên hơn là không đơn giản để làm mọi thứ, dây treo được cung cấp nhiều hơn. Hãy suy nghĩ truy vấn cơ sở dữ liệu, vụ nổ, đa luồng, v.v. Bạn có thể nhận xét về nghịch lý này mà anh ấy đang tham khảo không? Đơn giản so với phức tạp, và về cơ bản những gì thực sự diễn ra bên dưới vỏ bọc?

Tendü Yogurtçu: Chắc chắn. Tôi nghĩ đó là một điểm rất hợp lệ. Khi bạn đang đơn giản hóa mọi thứ và thực hiện những tối ưu hóa này, theo một cách nào đó, ai đó cần phải có sự phức tạp của những gì cần phải xảy ra, phải không? Nếu bạn đang làm tê liệt một cái gì đó hoặc nếu bạn đang quyết định làm thế nào để chạy một công việc cụ thể liên quan đến khung máy tính, rõ ràng có một số công việc đang được thúc đẩy cho dù đó là ở cuối người dùng, mã hóa menu, hoặc đó là tối ưu hóa động cơ. Có một phần trong đó, bằng cách đơn giản hóa trải nghiệm người dùng, có một lợi ích rất lớn về khả năng tận dụng các bộ kỹ năng tồn tại trong doanh nghiệp.

Và bạn có thể giảm thiểu nghịch lý đó, giảm thiểu thách thức đó, của Yeah Yeah, nhưng tôi không kiểm soát được mọi thứ đang diễn ra dưới vỏ bọc, dưới mui xe trong động cơ đó, bằng cách phơi bày mọi thứ cho người dùng cao cấp hơn nếu họ muốn có loại kiểm soát đó. Bằng cách đầu tư vào một số loại dịch vụ. Có thể cung cấp siêu dữ liệu hoạt động nhiều hơn, dữ liệu vận hành nhiều hơn, như trong ví dụ mà người tham dự này đưa ra, cho một truy vấn SQL cũng như với công cụ đang chạy. Tôi hy vọng rằng câu trả lời.

Eric Kavanagh: Vâng, điều đó nghe có vẻ tốt. Dez, mang nó đi.

Dez Blanchfield: Tôi thực sự muốn hiểu thêm một chút về dấu chân của bạn trong các đóng góp nguồn mở và hành trình mà bạn đã thực hiện từ trải nghiệm truyền thống, lâu dài của mình trong máy tính lớn và thế giới độc quyền và sau đó chuyển sang đóng góp cho nguồn mở và làm thế nào điều đó diễn ra. Và một điều khác tôi muốn hiểu là quan điểm bạn đang thấy rằng các doanh nghiệp, không chỉ các bộ phận CNTT, mà các doanh nghiệp hiện đang quan tâm đến các trung tâm dữ liệu hoặc hồ dữ liệu như mọi người đang nói và liệu họ có thấy xu hướng này không chỉ một hồ dữ liệu duy nhất, hợp nhất hoặc liệu chúng ta có thấy các hồ dữ liệu phân tán và mọi người đang sử dụng các công cụ để đặt chúng lại với nhau không?

Tendü Yogurtçu: Chắc chắn. Đối với người đầu tiên, đó là một hành trình rất thú vị, với tư cách là một công ty phần mềm sở hữu, một trong những công ty đầu tiên sau IBM. Tuy nhiên, một lần nữa, mọi thứ bắt đầu với những khách hàng truyền giáo của chúng tôi nhìn vào Hadoop. Chúng tôi có các công ty dữ liệu như ComScore, họ là một trong những công ty đầu tiên chấp nhận Hadoop vì họ đang thu thập dữ liệu kỹ thuật số trên toàn cầu và không thể giữ 90 ngày dữ liệu trừ khi họ đầu tư một hộp kho dữ liệu mười triệu đô la vào Môi trường. Họ bắt đầu nhìn vào Hadoop. Với điều đó, chúng tôi cũng bắt đầu nhìn vào Hadoop.

Và khi chúng tôi đưa ra quyết định và thừa nhận rằng Hadoop thực sự sẽ là nền tảng dữ liệu của tương lai, chúng tôi cũng hiểu rằng chúng tôi sẽ không thể chơi trong trò chơi này, một trò chơi thành công trong điều này, trừ khi chúng tôi là một phần của hệ sinh thái. Và chúng tôi đã làm việc rất chặt chẽ với các nhà cung cấp Hadoop, với Cloudera, Hortonworks, MapR, v.v. Chúng tôi bắt đầu thực sự nói chuyện với họ vì sự hợp tác trở nên rất quan trọng để xác thực giá trị mà nhà cung cấp có thể mang lại và cũng đảm bảo rằng chúng tôi có thể cùng nhau đến doanh nghiệp và cung cấp một cái gì đó có ý nghĩa hơn. Nó đòi hỏi rất nhiều việc xây dựng mối quan hệ bởi vì chúng tôi không biết đến các dự án nguồn mở Apache, tuy nhiên chúng tôi phải có sự hỗ trợ rất lớn từ các nhà cung cấp Hadoop này, tôi phải nói.

Chúng tôi bắt đầu làm việc cùng nhau và xem xét trung tâm, làm thế nào chúng tôi có thể mang lại giá trị mà không cần đến phần mềm chủ sở hữu của chúng tôi trong không gian. Đó là điều quan trọng. Không chỉ là đưa một số API mà sản phẩm của bạn có thể chạy, mà có thể nói rằng tôi sẽ đầu tư vào đây vì tôi tin rằng Hadoop sẽ là một nền tảng của tương lai, vì vậy bằng cách đầu tư vào các nguồn mà chúng tôi muốn tạo ra chắc chắn rằng nó đáo hạn và trở thành doanh nghiệp sẵn sàng. Chúng tôi thực sự có thể kích hoạt một số trường hợp sử dụng không có sẵn trước những đóng góp của chúng tôi. Điều đó sẽ có lợi cho toàn bộ hệ sinh thái và chúng ta có thể phát triển những mối quan hệ đối tác đó rất chặt chẽ.

Phải mất khá nhiều thời gian. Chúng tôi đã bắt đầu đóng góp vào năm 2011 và 2013, ngày 21 tháng 1 - Tôi nhớ ngày đó vì ngày đó đóng góp lớn nhất của chúng tôi đã được cam kết, điều đó có nghĩa là bây giờ chúng tôi có thể có các sản phẩm của chúng tôi có sẵn từ thời điểm đó - phải mất khá nhiều thời gian để phát triển các mối quan hệ đó, cho thấy giá trị, các đối tác trở thành đối tác thiết kế với các nhà cung cấp và với các ủy viên trong cộng đồng nguồn mở. Nhưng đó là rất nhiều niềm vui. Thật là bổ ích khi chúng tôi là một phần của hệ sinh thái đó và phát triển mối quan hệ đối tác tuyệt vời.

Câu hỏi thứ hai về trung tâm dữ liệu / hồ dữ liệu, tôi nghĩ khi chúng ta xem dữ liệu này là một triển khai dịch vụ trong hầu hết các trường hợp, vâng, nó có thể là cụm, đơn hoặc nhiều cụm, nhưng nó mang tính khái niệm hơn là trở thành một nơi duy nhất cho tất cả các dữ liệu. Bởi vì trong một số tổ chức, chúng tôi thấy các triển khai cụm lớn trên tiền đề, tuy nhiên, họ cũng có các cụm, ví dụ, trong đám mây công cộng vì một số dữ liệu được thu thập từ các phần trực tuyến thực sự được lưu giữ trên đám mây. Nó có thể có một đường truyền dữ liệu duy nhất mà bạn thực sự có thể tận dụng cả hai điều này và sử dụng chúng như một trung tâm dữ liệu duy nhất, một hồ dữ liệu duy nhất, trở nên quan trọng. Không nhất thiết chỉ là vị trí vật lý, nhưng việc có trung tâm dữ liệu và hồ dữ liệu đó trên các cụm, trên các khu vực địa lý và có thể trên tiền đề và đám mây sẽ rất quan trọng, tôi nghĩ vậy. Đặc biệt là tiến về phía trước. Năm nay chúng tôi bắt đầu thấy ngày càng nhiều triển khai đám mây. Ngạc nhiên. Nửa đầu năm nay cho đến nay chúng ta đã thấy rất nhiều triển khai đám mây.

Eric Kavanagh: Được rồi, tuyệt. Và Robin, bạn có câu hỏi nào không? Tôi biết chúng ta chỉ còn vài phút nữa.

Robin Bloor: Được rồi, tôi có thể hỏi cô ấy một câu hỏi. Điều đầu tiên xảy ra với tôi là đã có rất nhiều hứng thú về Kafka và tôi quan tâm đến ý kiến ​​của bạn về Kafka và cách bạn hòa nhập với cách mọi người đang sử dụng Kafka?

Tendü Yogurtçu: Chắc chắn. Vâng, Kafka đang trở nên khá phổ biến. Trong số các khách hàng của chúng tôi, chúng tôi thấy rằng là loại lớp vận chuyển dữ liệu và xem rằng dữ liệu là một chiếc xe buýt, khá nhiều. Ví dụ: một trong những khách hàng của chúng tôi thực sự đang sử dụng loại dữ liệu tiêu thụ được đưa vào Kafka này trong số nhiều người, giống như hàng ngàn người dùng trực tuyến và có thể phân loại dữ liệu đó và đẩy qua.

Một lần nữa, Kafka là một xe buýt dữ liệu cho những người tiêu dùng khác nhau của dữ liệu này. Phân loại một số người dùng nâng cao so với người dùng không quá cao cấp và làm điều gì đó khác đi về phía trước trong đường ống dữ liệu đó. Về cơ bản, chúng tôi tích hợp với Kafka như thế nào, sản phẩm DMX-h của chúng tôi trở thành người tiêu dùng đáng tin cậy, người tiêu dùng đáng tin cậy, hiệu quả cao cho Kafka. Nó có thể đọc dữ liệu và điều này không khác gì đọc dữ liệu từ bất kỳ nguồn dữ liệu nào khác cho chúng tôi. Chúng tôi cung cấp cho người dùng khả năng kiểm soát cửa sổ theo yêu cầu về thời gian mà họ có hoặc số lượng tin nhắn mà họ có thể đang tiêu thụ từ xe buýt Kafka. Và sau đó chúng tôi cũng có thể làm phong phú dữ liệu đó khi nó đi qua sản phẩm của chúng tôi và đẩy trở lại vào Kafka. Chúng tôi đã thử nghiệm điều này. Chúng tôi đã điểm chuẩn nó tại trang web của khách hàng. Cũng được chứng nhận bởi Confluent. Chúng tôi làm việc chặt chẽ với các anh chàng Confluent và nó rất hiệu quả và dễ sử dụng. Một lần nữa, các API thay đổi nhưng bạn không phải lo lắng vì sản phẩm thực sự coi đó chỉ là một nguồn dữ liệu khác, một nguồn dữ liệu truyền phát. Thật thú vị khi làm việc với sản phẩm của chúng tôi và Kafka, thực sự.

Robin Bloor: Được rồi tôi có một câu hỏi khác chỉ là một câu hỏi kinh doanh chung nhưng tôi đã biết Syncsort từ lâu và bạn luôn có tiếng tăm và cung cấp phần mềm cực kỳ nhanh cho ETL và thế giới máy tính lớn. Đây có phải là trường hợp mà hầu hết các doanh nghiệp của bạn hiện đang được chuyển sang Hadoop? Có phải là bằng cách này hay cách khác, bạn đã lan truyền công việc kinh doanh của mình ra khỏi thế giới máy tính lớn?

Tendü Yogurtçu: Các sản phẩm máy tính lớn của chúng tôi vẫn đang chạy 50 phần trăm các máy tính lớn trên toàn cầu. Vì vậy, chúng tôi có một dòng sản phẩm máy tính lớn rất mạnh ngoài những gì chúng tôi đang làm trên dữ liệu lớn và kết thúc Hadoop. Và chúng tôi vẫn tham gia vào hầu hết các dự án đơn giản hóa hoặc tối ưu hóa CNTT vì có một kết thúc mà bạn muốn có thể truy cập vào dữ liệu máy tính lớn của mình trong nền tảng Multex dữ liệu lớn và tận dụng tất cả dữ liệu doanh nghiệp, tuy nhiên cũng có khối lượng công việc giao dịch rất quan trọng vẫn tiếp tục chạy trên máy tính lớn và chúng tôi cung cấp cho những khách hàng đó những cách để thực sự làm cho các ứng dụng đó hiệu quả hơn, chạy trong công cụ zIIP để chúng không tiêu thụ nhiều chu kỳ xử lý và MIPS, giúp chúng tiết kiệm chi phí.

Chúng tôi tiếp tục đầu tư vào các sản phẩm máy tính lớn và thực sự chơi trong không gian này nơi mọi người đi từ máy tính lớn đến dữ liệu lớn và trải rộng dòng sản phẩm cũng trên các nền tảng đó. Vì vậy, chúng tôi không nhất thiết phải chuyển toàn bộ doanh nghiệp sang một bên, chúng tôi tiếp tục có doanh nghiệp rất thành công ở cả hai bên. Và việc mua lại là một trọng tâm lớn đối với chúng tôi là tốt. Khi không gian quản lý dữ liệu và xử lý dữ liệu này cho các nền tảng dữ liệu lớn phát triển, chúng tôi cũng cam kết thực hiện khá nhiều giao dịch mua lại miễn phí.

Robin Bloor: Chà tôi đoán tôi không thể hỏi bạn họ là ai vì bạn sẽ không được phép nói với tôi. Tôi quan tâm đến việc bạn đã thấy nhiều triển khai Hadoop hay Spark thực sự trên máy tính lớn hay đó là một điều rất hiếm.

Tendü Yogurtçu: Chúng tôi chưa thấy bất kỳ. Có nhiều câu hỏi về điều đó. Tôi nghĩ rằng Hadoop trên máy tính lớn không có nhiều ý nghĩa vì loại cấu trúc cốt lõi. Tuy nhiên Spark trên máy tính lớn khá có ý nghĩa và Spark thực sự rất tốt với máy học và phân tích dự đoán và có thể có một số ứng dụng với dữ liệu máy tính lớn thực sự, tôi nghĩ, khá có ý nghĩa. Chúng tôi chưa thấy ai làm điều đó, tuy nhiên đó thực sự là trường hợp sử dụng điều khiển những thứ này. Nếu trường hợp sử dụng của bạn với tư cách là một công ty mang nhiều dữ liệu máy tính lớn hơn và tích hợp với phần còn lại của bộ dữ liệu trong nền tảng dữ liệu lớn, thì đó là một câu chuyện. Nó yêu cầu truy cập dữ liệu máy tính lớn từ nền tảng Multex dữ liệu lớn vì bạn không thể mang các bộ dữ liệu của mình từ các hệ thống mở và được gọi trở lại máy tính lớn. Tuy nhiên, nếu bạn có một số dữ liệu máy tính lớn mà bạn muốn khám phá và thực hiện một chút khám phá khám phá dữ liệu, hãy áp dụng một số phân tích nâng cao về AI và nâng cao, thì Spark có thể là một cách tốt để chạy và chạy trên máy tính lớn như vậy.

Eric Kavanagh: Và đây là một câu hỏi nữa từ khán giả, thực sự là hai câu hỏi nữa. Tôi sẽ cung cấp cho bạn một câu hỏi nhóm thẻ, sau đó chúng tôi sẽ kết thúc. Một người tham dự đang hỏi, IBM có tích hợp các đóng góp nguồn mở của bạn trên hệ sinh thái đám mây công cộng của mình không, nói cách khác, Bluemix?. Và một người tham dự khác đã đưa ra một quan điểm thực sự tốt, lưu ý rằng Syncsort rất tuyệt vời để giữ cho sắt sống tốt cho những người đã có nó, nhưng nếu các công ty từ bỏ các máy tính lớn mới ủng hộ cái mà anh ta gọi là CE, thì đám mây sẽ có khả năng giảm, nhưng lưu ý rằng các bạn thực sự giỏi trong việc di chuyển dữ liệu bằng cách bỏ qua hệ điều hành lên đến một gigabyte mỗi giây. Bạn có thể nói về sức mạnh cốt lõi của mình, như anh ấy đã đề cập, và liệu IBM có tích hợp công cụ của bạn vào Bluemix hay không?

Tendü Yogurtçu: Với IBM, chúng tôi đã là đối tác với IBM và chúng tôi đã thảo luận về các dịch vụ đám mây dữ liệu của họ cung cấp sản phẩm. Đóng góp nguồn mở của chúng tôi dành cho tất cả những ai muốn tận dụng chúng. Một số kết nối máy tính lớn cũng có sẵn trong các gói Spark, vì vậy không chỉ IBM. Bất cứ ai cũng có thể tận dụng những người. Trong Bluemix, chúng tôi chưa làm gì cụ thể về điều đó. Và bạn có nhớ lặp lại câu hỏi thứ hai không?

Eric Kavanagh: Vâng, câu hỏi thứ hai là về lĩnh vực chức năng cốt lõi của bạn trong nhiều năm qua, đó thực sự là xử lý các tắc nghẽn của ETL và rõ ràng đó là điều mà các bạn vẫn sẽ làm như các máy tính lớn, về mặt lý thuyết, tránh xa, mặc dù Dez điểm vẫn là loại rocking và lăn ra đó. Nhưng người tham dự chỉ lưu ý rằng Syncsort rất giỏi trong việc di chuyển dữ liệu bằng cách bỏ qua các hệ điều hành và lên đến một gigabyte một giây. Bạn có thể chỉ nhận xét về điều đó?

Tendü Yogurtçu: Vâng, hiệu quả tài nguyên tổng thể thực sự là sức mạnh của chúng tôi và khả năng mở rộng và hiệu suất là sức mạnh của chúng tôi. Chúng tôi không thỏa hiệp, đơn giản hóa có nhiều ý nghĩa, chúng tôi không thỏa hiệp từ những điều đó. Khi mọi người bắt đầu nói về Hadoop vào năm 2014, chẳng hạn, nhiều tổ chức không thực sự nhìn vào hiệu suất ban đầu. Họ đang nói, thưa Oh, nếu có chuyện gì xảy ra tôi có thể thêm một vài nút nữa và tôi sẽ ổn, hiệu suất không phải là yêu cầu của tôi.

Mặc dù chúng tôi đã nói về việc có hiệu suất tốt nhất vì chúng tôi đã chạy một cách tự nhiên, chúng tôi thậm chí không có một số trục trặc ban đầu mà Hive có với nhiều công việc MapReduce và chi phí cao khi bắt đầu chúng. Mọi người đang nói với chúng tôi, thì ồ, đó không phải là lo lắng của tôi, đừng lo lắng về điều đó vào lúc này.

Khi chúng tôi đến năm 2015, cảnh quan đã thay đổi vì một số khách hàng của chúng tôi đã vượt quá dung lượng lưu trữ trong cụm sản xuất của họ. Họ trở nên rất quan trọng đối với họ để xem những gì Syncsort có thể cung cấp. Nếu bạn đang lấy một số dữ liệu từ cơ sở dữ liệu hoặc máy tính lớn và viết thành định dạng Parquet trong cụm, cho dù bạn hạ cánh và thực hiện một chuyển đổi khác hay chỉ thực hiện chuyển đổi trên máy bay và định dạng tệp đích, hãy tạo sự khác biệt vì bạn đang tiết kiệm từ lưu trữ, bạn đang tiết kiệm từ băng thông mạng, bạn đang tiết kiệm từ khối lượng công việc trên cụm vì bạn không chạy thêm công việc. Những điểm mạnh mà chúng tôi chơi ở khía cạnh rất ý thức, chúng tôi cảm thấy hiệu quả tài nguyên dưới da của chúng tôi, dường như.

Đó là cách chúng tôi mô tả nó. Nó là rất quan trọng đối với chúng tôi. Chúng tôi không coi đó là điều hiển nhiên. Chúng tôi chưa bao giờ coi đó là điều hiển nhiên vì vậy chúng tôi sẽ tiếp tục mạnh mẽ với đòn bẩy đó trong Apache Spark hoặc khung máy tính tiếp theo. Đó sẽ tiếp tục là trọng tâm của chúng tôi. Và về phần chuyển động dữ liệu và phần truy cập dữ liệu, chắc chắn đó là một trong những thế mạnh của chúng tôi và chúng tôi đang truy cập dữ liệu DB2 hoặc VSAM trên các máy tính lớn trong bối cảnh của Hadoop hoặc Spark.

Eric Kavanagh: Chà, đó là một cách tuyệt vời để kết thúc webcast, folks. Cảm ơn bạn rất nhiều vì thời gian và sự chú ý của bạn. Cảm ơn bạn, Tendü và Syncsort, vì đã vào phòng họp và bước vào vòng, như họ nói. Rất nhiều câu hỏi lớn từ khán giả. Đó là một môi trường luôn chuyển động ngoài kia, thưa các bạn. Chúng tôi sẽ lưu trữ Hot Tech này như chúng tôi làm với tất cả những người khác. Bạn có thể tìm thấy chúng tôi tại insideanalysis.com và tại techopedia.com. Thông thường nó đi lên trong khoảng một ngày. Và với điều đó, chúng tôi sẽ chào tạm biệt bạn, thưa các bạn. Cảm ơn bạn rất nhiều. Chúng tôi sẽ sớm nói chuyện với bạn. Bảo trọng. Tạm biệt.

Sắt lớn, đáp ứng dữ liệu lớn: giải phóng dữ liệu máy tính lớn với hadoop và tia lửa