Điều hướng tầng dữ liệu (Phần 2)

Thử nghiệm và lỗi

Không chỉ những nhà vật lý hạt là những người duy nhất phải xử lý lượng dữ liệu khổng lồ. Nhóm nghiên cứu Pascal Poncelet cùng hợp tác với các nhà nghiên cứu đến từ Trung tâm Y tế Inserm của Pháp, đã phát triển một thuật toán có khả năng phát hiện các gen liên quan đến các loại khối u trong ung thư vú, dựa trên dữ liệu của bệnh nhân (thông tin di truyền, tuổi tác, trọng lượng và kích thước của các khối u, phương pháp điều trị, và những kết quả thu được). "Điều này sẽ cung cấp cho bác sĩ thông tin về khả năng phát triển của khối u", nhà nghiên cứu giải thích.

Trong một lĩnh vực khác, nhóm nghiên cứu Amedeo Napoli đã làm việc với nhà thiên văn học để phát triển phần mềm khai thác dữ liệu áp dụng cho các thông tin thu thập được trong vật lý thiên văn. Các nhà nghiên cứu hy vọng phần mềm này sẽ phát hiện các tính chất hoặc liên kết đặc biệt mà con người có thể bỏ sót.

Liệu khai thác dữ liệu có thể tạo ra điều kỳ diệu? Cũng không hẳn như thế. Đây là một lĩnh vực tương đối mới, bắt đầu phát triển vào cuối những năm 1980, và hiện đang được bổ sung hàng năm. Theo Beaudouin-Lafon, "hầu hết các phương pháp được sử dụng ngày nay là theo kinh nghiệm. Các thông số được điều chỉnh bằng tay và khi đạt được việc gì đó ta cũng không thực sự rõ lý do tại sao. Trong nhiều trường hợp, không có tiêu chuẩn định lượng để đánh giá chất lượng của những thông tin được rút ra từ một cơ sở dữ liệu. Đây là những vấn đề dành cho chuyên gia trong lĩnh vực này". Napoli cho biết thêm, "để xử lý số lượng rất lớn dữ liệu có rất nhiều việc vẫn cần phải làm. Hiện nay, chúng ta có thể quản lý một nghìn đối tượng với hàng trăm thuộc tính. Ngoài ra, các giới hạn vật lý của phần cứng cũng trở nên rõ ràng".

Để vượt qua trở ngại này, hai phương pháp bổ sung hiện đang được sử dụng. Thứ nhất, khi một máy tính đơn lẻ không có đủ khả năng tính toán cho một công việc cụ thể, có thể để các máy tính khác chạy song song. Đây là nguyên tắc của tính toán mạng lưới (xem bảng bên dưới), nhờ nó mà máy gia tốc hạt khổng lồ LHC đã được đẩy đến giới hạn: nó dựa trên 50.000 máy tính đặt tại các trung tâm nghiên cứu khác nhau trên toàn thế giới dùng để phân tích 15 triệu Gb dữ liệu khoa học mà các nhà nghiên cứu thu thập mỗi năm (tương đương với độ dài 20 km đĩa CD xếp lại). Cách tiếp cận thứ hai là dựa trên các siêu máy tính vẫn được sử dụng ở Viện IDRIS* thuộc CNRS từ năm 2008 - một con quái vật có khả năng thực hiện 207 nghìn tỷ FLOPS (đơn vị tính công suất của máy tính, một máy tính bỏ túi thực hiện 10 FLOPS một giây). “Trong một số trường hợp, chẳng hạn như mô phỏng thời tiết, sẽ tương đối khó khăn nếu chia nhỏ các dữ liệu để đưa vào một mạng lưới các máy tính cá nhân, thì siêu máy tính vẫn là giải pháp tốt nhất”, nhà nghiên cứu Beaudouin-Lafon giải thích.

Yếu tố con người

Tuy nhiên sự phát triển nhanh và máy tính hiệu năng cao là chưa đủ. Ngay cả khi những dữ liệu đã được phân loại, người sử dụng vẫn cần phải hiểu những dữ liệu ấy. Lấy thí dụ google: máy tìm kiếm có thể đưa ra hàng nghìn kết quả cho một câu hỏi, nhưng nó chỉ có thể hiển thị vài chục kết quả trên một trang. Beaudoin-Lafon cho biết thêm: “thật đáng xấu hổ khi có những thuật toán phục hồi dữ liệu tinh vi mà vẫn không thể hiển thị được kết quả một cách toàn diện”. Điều này đặt ra câu hỏi làm cách nào để kết quả tìm kiếm tốt nhất có thể được hiển thị.

dulieu2

Công cụ Wild cho phép người dùng có thể đồng thời so sánh hình ảnh 3D của bề mặt chất xám ở bộ não của 64 bệnh nhân

Để trả lời câu hỏi này, Viện LRI đã phát triển một loại nền tảng mới được gọi là Wild: một bức tường gồm 32 màn hình máy tính với tổng số hơn 130 triệu pixels, cho phép người dùng nắm bắt được một lượng thông tin khổng lồ trong nháy mắt. “Đây là một dự án mà chúng tôi phải phối hợp với tám phòng thí nghiệm khác từ CNRS và Campus Saclay”, Beaudouin-Lafon cho biết. Đối với các chuyên gia thần kinh học, Wild có thể hiển thị 64 hình ảnh chụp cộng hưởng từ não, “điều này tạo ra một lợi thế không cần phải bàn cãi trong việc xác định một bệnh lý, xem xét những thay đổi quan trọng đang xảy ra ngay cả trong bộ não khỏe mạnh”, Beaudouin-Lafon cho biết thêm. Tương tự, trong vật lý thiên văn, một số đài quan sát hiện nay cho hiển thị hình ảnh quá lớn trên màn hình máy vi tính đơn lẻ. Để xem toàn bộ hình ảnh ở độ phân giải cao nhất của nó, công cụ Wild-like tạo ra sự khác biệt hoàn toàn. "Tôi tin rằng phương pháp này sẽ phát triển trong tương lai không chỉ dành cho việc nghiên cứu mà còn cho cả nền công nghiệp", Beaudoin-Lafon kết luận. "Quả thật, với khối lượng dữ liệu tăng lên không ngừng, và những câu hỏi ngày trở nên phức tạp, thì mọi vấn đề phải được nghiên cứu giải quyết để đề phòng xã hội thông tin khỏi bị ngập trong lượng dữ liệu đồ sộ”.

Tính toán lưới

Mạng lưới máy tính là cơ sở hạ tầng ảo bao gồm một tập hợp (hoặc cụm) máy tính, kể cả máy tính gia đình, phân tán về mặt địa lý, nhưng hoạt động như một mạng lưới. Các hệ thống này đang nổi lên một vài năm trước đây để đáp ứng nhu cầu của thí nghiệm vật lý hạt, nó cho phép các nhà khoa học nghiên cứu và nhà sản xuất có thể truy cập tài nguyên máy tính to lớn với chi phí thấp hơn, trong các lĩnh vực khác nhau, từ kỹ thuật đến y tế hoặc vật lý thiên văn.

Viện tính toán lưới CNRS (Institut des Grilles) do Vincent Breton quản lý, là trung tâm dẫn đầu trong nghiên cứu lĩnh vực này tại Pháp trong ba năm qua. Cùng với Grid 5000, một công cụ dành riêng cho mạng lưới nghiên cứu, nó cung cấp cho các nhà khoa học và công nghiệp một lưới máy tính bao gồm khoảng 20.000 bộ vi xử lý đặt ở 20 trung tâm tại CNRS, CEA*, và các trường đại học. Tháng Chín năm ngoái, hệ thống này đã vươn đến tầm cao mới với việc tạo ra mạng lưới trên toàn nước Pháp “France grilles” , gồm một số tổ chức nghiên cứu và trường đại học. Mục đích để phối hợp việc triển khai cơ sở hạ tầng lưới toàn quốc, mà cuối cùng sẽ được tích hợp vào một mạng lưới châu Âu. Đối với Breton, người đứng đầu chương trình, mục tiêu rõ ràng là: "sẽ tăng gấp đôi nguồn tài nguyên và người sử dụng vào năm 2015."

*: Ủy ban năng lượng nguyên tử Pháp và năng lượng thay thế.

 

(Theo CNRS)
Hải Vân

* Viện phát triển nguồn tài nguyên khoa học máy tính. Institut du développement et des ressources en informatique scientifique