Dữ liệu lớn và các ứng dụng
Trong kỷ nguyên Internet của vạn vật (IoT), Internet kết nối nhiều loại thiết bị điện tử phục vụ cho đời sống, góp phần vào việc tạo lập và chuyển tải dữ liệu, dẫn đến sự bùng nổ của dữ liệu có thể thu thập được. Mỗi ngày, con người tạo ra khoảng 2,5 x 1018 byte dữ liệu và 90% dữ liệu trên thế giới ngày nay được tạo ra chỉ trong 2 năm vừa qua. Sự tăng tốc trong việc sản sinh ra thông tin đã tạo ra nhu cầu cần có các công nghệ mới để phân tích các tập dữ liệu. Thuật ngữ Dữ liệu lớn chỉ những tập hợp dữ liệu phát triển nhanh chóng và rộng khắp dưới nhiều hình thức khác nhau, làm cho chúng vượt quá khả năng xử lý của những hệ thống cơ sở dữ liệu truyền thống. Năm 2014, Gartner đã đưa ra mô hình “5Vs” mô tả 05 đặc tính quan trọng của Dữ liệu lớn, bao gồm:
Dung lượng của dữ liệu (Volume): dữ liệu lớn là tập hợp dữ liệu có dung lượng lưu trữ vượt quá khả năng xử lý của những ứng dụng và công cụ truyền thống.
Tốc độ xử lý dữ liệu (Velocity): Sự gia tăng dung lượng của dữ liệu kéo theo tốc độ xử lý dữ liệu. Dữ liệu lớn cho phép xử lý dữ liệu tức thì (real-time) trước khi chúng được lưu trữ vào cơ sở dữ liệu.
Tính đa dạng của dữ liệu (Variety): Ngày nay, hơn 80% dữ liệu trên thế giới được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, voice). Dữ liệu lớn cho phép liên kết và phân tích các chủng loại dữ liệu đa dạng.
Tính chính xác của dữ liệu (Veracity): Một trong những tính chất phức tạp nhất của Dữ liệu lớn là độ chính xác của dữ liệu. Dữ liệu lớn thực hiện phân tích loại bỏ dữ liệu thiếu chính xác và dữ liệu “nhiễu”, trích xuất thông tin mang tính chính xác cao.
Giá trị của dữ liệu (Value): Giá trị thông tin là tính chất quan trọng nhất của xu hướng công nghệ Dữ liệu lớn, do vậy, phải xác định được giá trị mà thông tin mang lại để áp dụng cho bài toán hoặc mô hình hoạt động kinh doanh.
Các lợi ích mà Dữ liệu lớn có thể mang lại đó là cắt giảm chi phí và thời gian, phát triển tối ưu hóa sản phẩm, hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn. Dữ liệu lớn được ứng dụng vào các lĩnh vực như: tài chính, thương mại, viễn thông, y tế và chăm sóc sức khoẻ, giao thông vận tải, ATTT,....
Một ứng dụng điển hình là quảng cáo trực tuyến. Dữ liệu lớn có nhiệm vụ sàng lọc, phân tích các dữ liệu về thói quen hoạt động của người dùng từ khối lượng dữ liệu khổng lồ thu thập được qua Internet và chuyển đổi thành thông tin đánh giá về khách hàng lưu trữ trong hệ thống của doanh nghiệp. Những hiểu biết này giúp cho các doanh nghiệp quảng cáo trực tuyến đưa ra hình thức, mô hình, chiến lược quảng cáo phù hợp với từng nhóm khách hàng cụ thể; giúp cho quảng cáo trực tuyến có được một lợi thế lớn so với các hình thức quảng cáo truyền thống, đó là “quảng cáo hướng đối tượng”.
Ví dụ, khi tìm kiếm một chiếc điện thoại trên các trang thương mại điện tử như eBay, Amazon… thì những trang web này sẽ gợi ý những sản phẩm tiếp theo cho người dùng như những điện thoại cùng giá tiền, chức năng.... Google và Facebook là 2 công ty có hoạt động quảng cáo trực tuyến lớn và hiệu quả nhất thế giới đã sử dụng công nghệ này.
Bên cạnh đó, sự xuất hiện của công nghệ Dữ liệu lớn đã giúp mở rộng quy mô của các hệ thống dữ liệu để sử dụng một tập hợp các nguồn tài nguyên phân tán với các bộ vi xử lý nhanh hơn và lưu trữ nhiều dữ liệu hơn, giúp tận dụng được tất cả các nguồn dữ liệu sẵn có, để cung cấp các phân tích tốt hơn và nhanh hơn đối với việc phát hiện tấn công và phản ứng các sự cố.
Công nghệ sử dụng trong Dữ liệu lớn
Các công nghệ sử dụng trong Dữ liệu lớn có thể được chia thành hai nhóm: xử lý hàng loạt (Patch processing) và xử lý dòng (Stream processing).
Xử lý theo loạt dùng để xử lý những dữ liệu có khối lượng lớn. Dữ liệu sẽ được thu thập, lưu trữ và được xử lý hàng loạt. Hadoop là một trong những công nghệ phổ biến nhất cho xử lý hàng loạt. Nền tảng Hadoop cung cấp cho các nhà phát triển thành phần chính là Hệ thống tệp phân tán Hadoop (Hadoop Distributed File System - HDFS) và mô hình lập trình MapReduce, cho phép xử lý dữ liệu phân tán và song song, giúp giải quyết các vấn đề thường xuyên xảy ra trong việc xử lý dữ liệu quy mô lớn.
Xử lý dòng chú trọng đến tốc độ xử lý của dữ liệu, dữ liệu được phát sinh và truyền tải liên tục, được xử lý trong khoảng thời gian nhỏ đáp ứng tính thời gian thực của dữ liệu. Xử lý dòng chưa có một công nghệ chủ đạo nào, nhưng là một lĩnh vực đang được nghiên cứu và phát triển. Một trong các mô hình xử lý dòng là Complex Event Processing, trong đó coi các dòng thông tin như là thông báo của các sự kiện (kiểu mẫu) cần được tổng hợp và kết hợp để tạo ra những sự kiện cấp cao.
Ứng dụng phân tích dữ liệu lớn trong ATTT
Việc phân tích các bản ghi dữ liệu sinh ra từ các thiết bị mạng, ứng dụng, gói tin mạng và các sự kiện hệ thống được phục vụ cho mục đích điều tra và phát hiện xâm nhập trong ATTT. Tuy nhiên, các công nghệ truyền thống rất khó khăn trong việc cung cấp các công cụ phân tích dài hạn, quy mô lớn, vì việc lưu trữ số lượng lớn dữ liệu là không khả thi về mặt kinh tế. Kết quả là, hầu hết các bản ghi nhật ký sự kiện trên các hệ thống, thiết bị thường được xóa sau một thời gian duy trì cố định.
Sự ra đời của Dữ liệu lớn sẽ chuyển đổi phân tích an toàn bằng cách thu thập dữ liệu ở một quy mô lớn từ nhiều nguồn, từ các bản ghi nhật ký hệ thống đến các cơ sở dữ liệu về lỗ hổng bảo mật, dữ liệu về tấn công mạng, dữ liệu mã độc… Sau đó sẽ phân tích sâu hơn trên dữ liệu đã có, cung cấp một cái nhìn hợp nhất các thông tin liên quan đến an toàn và đảm bảo được việc phân tích thực hiện theo thời gian thực của luồng dữ liệu. Chính vì thế, Dữ liệu lớn được sử dụng với các ứng dụng chính sau:
Theo dõi và phát hiện Botnet
Botnet hiện đang là một trong những mối đe dọa lớn và là một thách thức đối với những chuyên gia ATTT. Việc phát hiện Botnet đòi hỏi phải thu thập một lượng lớn dữ liệu mạng để phân tích. Với việc ứng dụng Dữ liệu lớn, dự án nghiên cứu Botcloud do nhóm của Jer’ome Fraçois và đồng nghiệp tại đại học Luxembourg thực hiện đã sử dụng mô hình MapReduce để phân tích một số lượng lớn các dữ liệu Netflow để xác định các máy tính bị lây nhiễm đang tham gia trong một mạng Botnet. Dự án này đã mở ra nhiều hướng mới trong việc xây dựng các hệ thống thông minh để phát hiện Botnet. MapReduce được sử dụng cho dự án này, vì một lượng lớn các dữ liệu Netflow được thu thập cần phải phân tích. 720 triệu bản ghi Netflow (77GB) được thu thập chỉ trong 23 giờ đồng hồ.
BotCloud được xây dựng dựa trên kiến trúc BotTrack. Kiến trúc này được thiết kế để theo dõi và phát hiện Botnet bằng việc sử dụng Netflow và thuật toán PageRan, thực hiện việc theo dõi các kênh C&C (command-and-control) trong Botnet. Từ các kết quả thu được, nghiên cứu cho thấy việc Botcloud sử dụng cụm Hadoop nhỏ cho phép xử lý nhanh hơn, chính xác hơn về các cuộc tấn công Botnet, giảm đáng kể thời gian phân tích hoàn toàn tập dữ liệu.
Phát hiện tấn công APT
Tấn công APT thường do những đối tượng có trình độ chuyên môn cao thực hiện, được hậu thuẫn bởi những tổ chức có tiềm lực. Một thách thức trong việc dò tìm các cuộc tấn công APT là việc lọc toàn bộ số lượng dữ liệu nhằm phát hiện những bất thường đang xảy ra. Vì thế phân tích Dữ liệu lớn là một tiếp cận phù hợp trong việc dò tìm các cuộc tấn công APT.
Tại RSA Labs một hệ thống dò tìm tấn công APT được nghiên cứu có tên là Beehive. Các kết quả nghiên cứu ban đầu cho thấy Beehive cung cấp khả năng để xử lý khoảng 1 tỷ các thông điệp bản ghi sự kiện trong một giờ và nhận diện các hành động vi phạm chính sách, cũng như sự lây nhiễm phần mềm độc hại.
Phát hiện tấn công Zero-day
Tại Symantec, bằng việc ứng dụng Dữ liệu lớn, các kỹ sư an toàn mạng đã đưa ra một nền tảng WINE (Worldwide Intelligence Network Enviornment) cho việc tiến hành phân tích dữ liệu, trên phạm vi rộng, sử dụng các dữ liệu thu thập được. Nền tảng WINE đã từng được sử dụng để đo thời gian của 18 cuộc tấn công zero-day bằng cách kết hợp các hệ nhị phân tin cậy và tập dữ liệu về các dấu hiệu ngăn chặn mã độc từ xa, tiến hành phân tích các trường dữ liệu được thu thập trên 11 triệu máy chủ (host) trên khắp thế giới, các tấn công này kéo dài từ 19 ngày đến 30 tháng. Hơn nữa, 60% các lỗ hổng bảo mật được xác định trong nghiên cứu này đã bị khai thác trong các tấn công zero-day mà trước đó chưa tìm ra.
Điều tra tội phạm công nghệ cao
Công việc điều tra phải đối mặt với những thách thức mới khi lượng dữ liệu lớn cần thu thập, phân tích và xử lý nhanh trong khoảng thời gian nhất định, đáp ứng việc truy vết cũng như phát hiện những dấu hiệu tấn công. Chương trình PRISM của cơ quan tình báo Mỹ NSA đã ứng dụng công nghệ Dữ liệu lớn để xây dựng nhằm thu thập lượng thông tin khổng lồ trên khắp thế giới (dữ liệu điện thoại, email, hình ảnh, video, trạng thái trên các trang mạng xã hội…). Từ đó phân tích và đưa ra các cảnh báo về các dấu hiệu khủng bố có thể xảy ra. Với sự trợ giúp của những gã khổng lồ CNTT như Microsoft, Yahoo, Google, Facebook, PalTalk, AOL, Skype, YouTube, và Apple, cùng với việc hợp tác với FBI để thu thập dữ liệu điện thoại (cuộc gọi, tin nhắn, danh bạ...) thì NSA đang giám sát dữ liệu thông qua PRISM.
Kết luận
Yêu cầu mới đang được đặt ra, trong khi những phương pháp phân tích truyền thống không thể đáp ứng được, thì việc phân tích Dữ liệu lớn đang mở ra nhiều hướng nghiên cứu mới trong lĩnh vực ATTT. Có thể xem đây là một bước tiến quan trọng trong việc xây dựng các chương trình giám sát an toàn mạng, đáp ứng được việc phân tích sâu hơn trên lượng lớn dữ liệu thu thập được, từ đó tăng khả năng phát hiện và ngăn chặn các nguy cơ, mối đe dọa, các cuộc tấn công tinh vi trên không gian mạng.
Tài liệu tham khảo
1. Cloud Security Alliance: Big Data Analytics for Security Intelligence, September 2013.
2. United States National Security Agency, PRISM Collection Manager, S35333: PRISM/US-984XN Overview, April 20133. Jérôme François, Shaonan Wang, Walter Bronzi, Radu State, Thomas Engel: BotCloud: Detecting Botnets Using MapReduce, 10 Jan 2012 |