Điều hướng tầng dữ liệu (Phần 1)

Nếu bạn là khách du lịch đang tìm kiếm vé máy bay rẻ nhất, hoặc là nhà vật lý đang phân tích dữ liệu từ một máy gia tốc hạt, hoặc là nhân viên tại một cơ quan đang xem xét các đơn xin việc thì tất cả đều có một điểm chung", Amedeo Napoli thuộc phòng thí nghiệm LORIA1, chuyên ngành CNTT ở Nancy, cho biết. "Bạn đang cố gắng tìm kiếm thông tin từ một lượng dữ liệu khổng lồ". Về cơ bản, giải quyết vấn đề này không hề đơn giản: trước hết phải chuẩn bị dữ liệu ban đầu, sau đó đưa chúng vào một thuật toán khai thác dữ liệu, rồi chờ cho hệ thống cung cấp các kết quả theo định dạng yêu cầu. Nhưng trong một thế giới mà lượng dữ liệu đang tăng lên không ngừng, việc tìm ra thông tin thích hợp dường như trở thành một nhiệm vụ khó khăn.

Một ví dụ điển hình như tìm kiếm vé máy bay, khách sạn và thuê xe với mức giá thấp nhất có thể là một việc không dễ. Michel Beaudouin-Lafon, thuộc LRI2 ở Orsay, cho biết: “về mặt toán học, với lượng dữ liệu đầu vào khổng lồ thì sự phức tạp của các thuật toán khiến việc tìm ra kết quả hợp lý trong thời gian cho phép là điều không thể”. Vì vậy, trong thực tiễn, các nhà lập trình phải tìm những cách thông minh để có được kết quả chính xác nhất trong thời gian thích hợp. Thực tế, lĩnh vực tìm kiếm dữ liệu đang phát triển mạnh mẽ và tập hợp các chuyên gia từ nhiều lĩnh vực khác nhau như khoa học máy tính, cấu trúc máy, ngôn ngữ học, và toán học. Các chuyên gia này sử dụng trí tuệ nhân tạo, cơ sở dữ liệu, kỹ thuật và các phương pháp thống kê.

Bản đồ phân bố 2 cơ sở hạ tầng gird lớn nhất thế giới: hệ thống Egee ở Châu Âu (màu vàng), hệ thống OSG ở Mỹ (màu đỏ)

Tối ưu hóa việc chọn lọc dữ liệu

Một điều chắc chắn là trong mọi lĩnh vực đều cần phát triển những phương pháp tối ưu để tránh bị ngập lụt bởi các dữ liệu không sử dụng. Lấy dự án Midas French3 của Pháp làm ví dụ, dự án có sự tham gia của phòng thí nghiệm CNRS cùng với các công ty chuyên giải quyết các vấn đề về sự phức tạp của bộ dữ liệu như công ty Viễn thông Orange hoặc nhà cung cấp năng lượng Pháp EDF. Mục tiêu của dự án là phát triển thuật toán có khả năng nén một lượng dữ liệu lớn trong thời gian thực sao cho lượng dữ liệu đó có thể lưu trữ trong một bộ nhớ trung tâm có dung lượng hạn chế để phục vụ cho việc sử dụng sau này. "Đây là những vấn đề điển hình mà công ty France Télécom, EDF, hoặc công ty Đường sắt quốc gia SNCF của Pháp phải đối mặt mỗi ngày”, ông Pascal Poncelet thuộc phòng nghiên cứu LIRMM4, của trường Đại học Montpellier-II, cho biết. "Ví dụ, một tàu cao tốc TGV cứ mỗi năm phút ghi lại 250 điểm dữ liệu để phục vụ cho hoạt động bảo trì. Nhưng với một lượng lớn dữ liệu như thế là rất khó có thể lưu trữ. Do các dữ kiện phải được sắp xếp theo thứ tự thời gian”.

Các thí nghiệm về va chạm phân tử (ảnh trái) và trình tự sắp xếp gen (ảnh phải) tạo ra một lượng lớn dữ liệu cần được xử lý.

Các nhà khoa học cũng chính là người sử dụng nhiều các kỹ thuật khai thác dữ liệu. Máy gia tốc hạt khổng lồ LHC của Trung tâm Nghiên cứu hạt nhân Châu Âu (CERN) tại Geneva, là một ví dụ. Khi máy hoạt động hết công suất thì sẽ có 40.000.000 va chạm proton xảy ra mỗi giây. Tuy nhiên, theo ước tính của các nhà vật lý thì chỉ có khoảng 100 va chạm cần được quan tâm và ghi lại. Các sự kiện như vậy sẽ được chọn lựa trong thời gian thực bằng cách sử dụng các thuật toán chuyên ngành. "Những thuật toán điển hình này sẽ giúp cho máy tính xử lý dữ liệu nhanh hơn, chẳng hạn như dữ liệu mới sẽ được máy tính xử lý: hoặc lưu giữ hoặc loại bỏ", nhà nghiên cứu Beaudouin-Lafon, thuộc phòng thí nghiệm LAL5, chuyên nghiên cứu phân tích lượng dữ liệu lớn được cung cấp bởi máy gia tốc hạt, giải thích.

(Theo CNRS)

Hải Vân

1: Phòng nghiên cứu và ứng dụng tin học (CNRS/ Đại học henri-Poincaré/ Đại học Nancy-II / Inria) - Laboratoire lorrain de recherche en informatique et ses applications (CNRS / université henri-Poincaré./ Université Nancy-II / Inria).

2: Phòng nghiên cứu tin học (CNRS/ Đại học Paris-Sud-XI) - Laboratoire de recherche en informatique (CNRS / université Paris-Sud-XI).

3: Bộ vi xử lý dữ liệu máy tính cấp độ Peta (Microwave Data Analysis for petascale computers)

4: Phòng nghiên cứu tin học, robot và vi điện tử ( CNRS/ Đại học université Montpellier-II) - Laboratoire d’informatique, de robotique et de microélectronique (CNRS / université Montpellier-II).

5: Phòng thí nghiệm gia tốc tuyến tính (CNRS/ Đại học Paris-Sud-XI) -Laboratoire de l’accélérateur linéaire (CNRS / université Paris-Sud-XI).