Trang Chủ Âm thanh Tại sao hadoop là một kết hợp hoàn hảo cho trình tự bộ gen

Tại sao hadoop là một kết hợp hoàn hảo cho trình tự bộ gen

Mục lục:

Anonim

Genomics lâm sàng là một chủ đề hấp dẫn, nơi mọi người đang làm việc trên các công nghệ tiên tiến để xử lý kết quả nhanh chóng và chính xác. Có rất nhiều trình tự bộ gen có sẵn trên thị trường và họ đang tạo ra hàng petabyte dữ liệu trình tự và sự tăng trưởng trong trình tự sẽ tạo ra exabyte dữ liệu trong tương lai gần. Ở đây, Hadoop là nền tảng hoàn hảo để xử lý luồng công việc genomics phức tạp. Hadoop có thể lưu trữ và sắp xếp lượng thông tin khổng lồ và cũng có thể đưa ra phân tích có ý nghĩa. (Để có ý tưởng về việc dữ liệu này thực sự đòi hỏi bao nhiêu, hãy đọc Hiểu về Bits, Byte và bội số của chúng.)

Hiện tại và tương lai của bộ gen

Ngày nay, bản đồ bộ gen đã đạt đến đỉnh cao của sự phát triển. Nhiều người liên quan đến ngành công nghiệp genom đang bùng nổ sự tò mò và khi các cơ hội mới đang xuất hiện, công nghệ tốt hơn là nhu cầu của giờ. Giải trình tự bộ gen là một nhiệm vụ rất lặp đi lặp lại và tốn nhiều tài nguyên. Chỉ riêng trong năm 2013, khoảng 15 petabyte dữ liệu đã được tạo ra và chỉ có 2.000 phần tiếp theo. Số lượng hàm này bao gồm 300 KB dữ liệu bộ gen người được giải trình tự. Với tốc độ sản xuất dữ liệu này, có thể ước tính rằng vào năm 2018, khoảng một exabyte dữ liệu sẽ được sản xuất. Điều này sẽ là do sự tăng trưởng của các phần tiếp theo, sẽ tạo ra ngày càng nhiều dữ liệu trên mỗi lần chạy. Một lý do khác là sự ra đời của các máy giải trình tự bộ gen cực kỳ mạnh mẽ và chi phí thấp. Kể từ năm 2008, giá của các máy này đã giảm dần. Điều này là do các máy thế hệ tiếp theo mạnh mẽ đã thâm nhập vào thị trường.

Nhu cầu của ngành lập bản đồ gen

Các thuật toán phức tạp được sử dụng để xử lý dữ liệu được thu thập từ bộ gen của con người. Sau đó, thông tin này cần được lưu trữ. Nó có thể được xem xét trong tương lai để so sánh với dữ liệu gốc. Nhiệm vụ xử lý và lưu trữ 100 GB dữ liệu không quá khó, đặc biệt là khi bạn đang thực hiện với các máy mạnh mẽ được sử dụng tại các trung tâm giải trình tự. Các nghiên cứu cho thấy lượng dữ liệu này có thể được xử lý chỉ trong khoảng 1.000 giờ CPU, vì vậy rất dễ dàng. Với tốc độ tiến bộ kỹ thuật này, rõ ràng ngành công nghiệp bộ gen sẽ sớm xử lý hàng ngàn gigabyte chỉ sau vài giây.

Tại sao hadoop là một kết hợp hoàn hảo cho trình tự bộ gen