Nói một cách đơn giản nhất, học máy được định nghĩa là "khả năng học (của máy tính) mà không cần lập trình cụ thể". Với khả năng sử dụng các kỹ thuật toán học để xử lý các bộ dữ liệu khổng lồ, các thuật toán học máy xây dựng lên các mô hình hành vi và dùng các mô hình đó như cơ sở để đưa ra các dự đoán tương lai dựa trên dữ liệu đầu vào mới. Học máy được Netflix sử dụng để đề xuất các series truyền hình mới dựa trên lịch sử xem trước đó của người dùng, hay xe tự lái có thể học điều kiện của môi trường di chuyển từ những sự cố có thể va chạm với người đi bộ.
Những ứng dụng của kỹ thuật học máy trong an toàn thông tin là gì? Về nguyên tắc, học máy có thể giúp doanh nghiệp phân tích mối đe dọa và ứng phó với tấn công hay sự cố an toàn thông tin một cách tốt hơn. Học máy cũng giúp tự động hóa những nhiệm vụ đơn giản được thực hiện bởi đội ngũ an toàn thông tin quá bận rộn hay đôi khi là thiếu kỹ thuật.
Xu hướng sử dụng học máy trong an toàn thông tin đang phát triển nhanh chóng. Các nhà phân tích tại hãng nghiên cứu thị trường ABI Research (Mỹ) ước tính rằng, học máy trong an ninh mạng sẽ thúc đẩy chi tiêu vào dữ liệu lớn (big data), trí tuệ nhân tạo (AI) và phân tích dữ liệu lên tới 96 triệu USD vào năm 2021, trong khi một vài công ty công nghệ khổng lồ trên thế giới đã sẵn sàng những bước đi của mình trong lĩnh vực này để bảo vệ khách hàng của mình tốt hơn.
Google đang sử dụng học máy để phân tích những mối đe dọa đối với các điểm cuối là thiết bị di động sử dụng hệ điều hành Android, cũng như nhận diện và loại bỏ mã độc khỏi lây nhiễm tới các thiết bị cầm tay. Trong khi đó, công ty khổng lồ về dịch vụ đám mây Amazon đã mua lại công ty bảo mật mạng harvest.AI và ra mắt Macie - một dịch vụ sử dụng học máy để khám phá, sắp xếp và phân loại dữ liệu được lưu trữ trên dịch vụ lưu trữ đám mây S3.
Đồng thời, các nhà cung cấp sản phẩm an toàn thông tin cho doanh nghiệp đã nỗ lực để kết hợp học máy vào các sản phẩm mới và cũ, chủ yếu để cải thiện khả năng phát hiện mã độc. "Phần lớn các công ty bảo mật lớn đã chuyển từ hệ thống thuần túy sử dụng hệ thống dựa trên dấu hiệu (signature-based) để phát hiện mã độc sang hệ thống học máy. Hệ thống này cố gắng diễn giải các hành động, sự kiện và học từ nhiều nguồn khác nhau về những gì là an toàn hoặc không an toàn", theo Jack Gold, Chủ tịch và nhà phân tích của hãng phân tích công nghệ J. Gold Associates (Mỹ). "Tuy vẫn là một lĩnh vực mới mẻ, nhưng rõ ràng đây là con đường để đi đến tương lai. Trí tuệ nhân tạo và học máy sẽ thay đổi đáng kể cách thức xây dựng hệ thống an toàn thông tin".
Mặc dù sự chuyển đổi này không thể hoàn thành ngay lập tức, nhưng học máy đã bắt đầu nổi lên trong một số lĩnh vực nhất định. "AI - một định nghĩa rộng bao gồm học máy và học sâu - đang ở trong giai đoạn đầu trong việc nâng cao sức mạnh cho an ninh mạng. Trong đó, chúng ta chủ yếu thấy các ứng dụng rõ ràng trong việc phát hiện mô hình các hoạt động độc hại, cho dù ở điểm cuối, trong hệ thống mạng, các gian lận lừa đảo hay tại đám mây SIEM. Nhưng tôi tin rằng chúng ta sẽ nhìn thấy nhiều hơn nữa các ứng dụng của AI trong lĩnh vực phòng chống gián đoạn dịch vụ, sửa đổi quyền hạn và hành vi người dùng", Dudu Mimran, Giám đốc công nghệ (CTO) của Phòng thí nghiệm đổi mới Deutsche Telekom (đồng thời của Trung tâm Nghiên cứu an ninh mạng, Đại học Ben-Gurion tại Israel).
Dưới đây sẽ làm rõ những ứng dụng phổ biến nhất của học máy trong lĩnh vực an toàn thông tin.
1. Sử dụng học máy để phát hiện hành vi độc hại và ngăn chặn tấn công
Thuật toán học máy sẽ giúp doanh nghiệp phát hiện các hành vi độc hại nhanh hơn và ngăn chặn tấn công trước khi bắt đầu. David Palmer, Giám đốc công nghệ của công ty khởi nghiệp Darktrace (Anh) - công ty có nhiều thành công về giải pháp miễn nhiễm cho doanh nghiệp dựa trên học máy kể từ khi thành lập năm 2013 đã nhìn thấy sự ảnh hưởng của các công nghệ này.
Palmer phát biểu rằng, mới đây Darktrace đã giúp một casino ở Bắc Mỹ phát hiện sự cố đánh cắp dữ liệu sử dụng “bể cá thông minh” là lối xâm nhập mạng. Công ty cũng tuyên bố đã ngăn chặn những cuộc tấn công tương tự trong cuộc khủng hoảng tấn công mã độc tống tiền WannaCry vào mùa hè năm 2016.
"Những thuật toán của chúng tôi đã phát hiện ra cuộc tấn công tới mạng của một cơ quan Dịch vụ chăm sóc sức khỏe quốc gia trong vòng vài giây và mối đe dọa này đã được giảm thiểu mà không gây bất kỳ thiệt hại nào tới tổ chức", Palmer phát biểu về mã độc tống tiền WannaCry đã gây thiệt hại tới hơn 200.000 nạn nhân trên 150 quốc gia.
2. Sử dụng học máy để phân tích điểm cuối di động
Học máy đã trở thành xu hướng phổ biến trên các thiết bị di động, nhưng cho đến nay, hầu hết các hoạt động này là để phát triển các trải nghiệm dựa trên giọng nói như của Google Now, Siri của Apple và Alexa của Amazon, đồng thời, cũng có ứng dụng trong an toàn thông tin. Như đã đề cập ở trên, Google đang sử dụng học máy để phân tích các mối đe dọa đối với những điểm cuối di động, trong khi đó các doanh nghiệp nhìn thấy khả năng bảo vệ số lượng các thiết bị di động tự mang (bring-your-own-device) và tự chọn (choose-your-own-device) ngày một tăng lên.
Tháng 10/2017, hai công ty MobileIron và Zimperium có trụ sở tại Mỹ đã công bố sự hợp tác nhằm hỗ trợ doanh nghiệp áp dụng các giải pháp phòng chống mã độc di động kết hợp học máy. MobileIron cho biết, đây là sự kết hợp giữa tính năng phát hiện đe dọa dựa trên học máy của Zimperium với công cụ bảo mật và chuẩn hóa của MobileIron để cung cấp cho thị trường một giải pháp kết hợp. Từ đó, giải quyết các thách thức như phát hiện các mối đe dọa đối với thiết bị, trên mạng, trong ứng dụng và lập tức đưa ra những hành động tự động để bảo vệ dữ liệu của doanh nghiệp.
Các nhà cung cấp khác cũng đang tìm kiếm các biện pháp tăng cường cho di động. Cùng với các hãng bảo mật Zimperium, thì LookOut, Skycure (đã được Symantec mua lại) và Wandera đang được xem là những hãng đi đầu trong thị trường phòng chống và phát hiện mối đe dọa di động. Mỗi hãng đều sở hữu một thuật toán học máy riêng để phát hiện các mối đe dọa tiềm tàng. Wandera gần đây đã công bố rộng rãi công nghệ phát hiện đe dọa MI: RIAM, được báo cáo đã phát hiện hơn 400 biến thể của mã độc tống tiền Slocker đã đóng gói, nhằm vào các thiết bị di động của doanh nghiệp.
3. Sử dụng học máy để tăng cường khả năng phân tích của con người
Đối với ứng dụng học máy trong an toàn thông tin, nó có thể giúp con người phân tích đối với mọi khía cạnh công việc, bao gồm phát hiện các cuộc tấn công độc hại, phân tích mạng, bảo vệ điểm cuối, đánh giá lỗ hổng. Mặc dù, lĩnh vực được coi là có tiềm năng nhất là thông tin tình báo mối đe dọa.
Ví dụ, năm 2016, Phòng thí nghiệm khoa học máy tính và trí tuệ nhân tạo của MIT (CSAIL) đã phát triển một hệ thống gọi là AI2, một nền tảng bảo mật sử dụng học máy thích nghi để giúp cho các nhà phân tích tìm ra "kim đáy bể". Với việc theo dõi hàng triệu lượt đăng nhập mỗi ngày, hệ thống có khả năng lọc dữ liệu và chuyển đến nhà phân tích, giảm cảnh báo xuống còn 100 lượt mỗi ngày. Một thí nghiệm được thực hiện bởi CSAIL và công ty khởi nghiệp PatternEx - cho thấy rằng tỷ lệ phát hiện các cuộc tấn công tăng lên 85% và tỷ lệ phát hiện sai giảm gấp 5 lần.
4. Sử dụng học máy để tự động hóa các nhiệm vụ bảo mật lặp lại
Lợi ích thực sự của học máy là có thể tự động hóa các nhiệm vụ lặp lại, cho phép nhân viên có thể tập trung vào những công việc quan trọng. Palmer cho rằng, xét cho cùng thì học máy nên nhằm mục đích loại bỏ sự cần thiết của những hoạt động lặp lại, hoạt động quyết định có giá trị thấp đối với con người, như xử lý thông tin tình báo mối đe dọa. Để máy móc đảm nhận những công việc lặp lại và ứng phó với tấn công như làm gián đoạn mã độc tống tiền, từ đó giải phóng con người khỏi những nhiệm vụ này để giải quyết những vấn đề chiến lược.
Nhà quản lý người Mỹ Booz Allen Hamilton đã đi theo con đường này. Ông được biết đến sử dụng các công cụ AI để phân bổ nguồn lực an ninh con người hiệu quả hơn, xử lý các mối đe dọa. Từ đó, nhân viên có thể tập trung vào các cuộc tấn công nghiêm trọng.
5. Sử dụng học máy để vá lỗ hổng zero-day
Nhiều người cho rằng học máy có thể giúp vá lỗ hổng, cụ thể là các mối đe dọa zero-day và các mối đe dọa khác mà mục tiêu chủ yếu là những thiết bị IoT không bảo mật. Theo Tạp chí doanh nghiệp Forbes (Mỹ), một nhóm tại Trường đại học Bang Arizona đã sử dụng học máy để giám sát các luồng truy cập dark web để xác định dữ liệu có liên quan đến các khai thác lỗ hổng zero-day. Khi được trang bị giải pháp này, các tổ chức sẽ có khả năng vá các lỗ hổng và ngăn chặn các khai thác trước khi dẫn đến rò rỉ dữ liệu.
Tuy nhiên, học máy không phải là một “viên đạn bạc”, giải pháp tổng thể cho mọi vấn đề, ít nhất là với một ngành công nghiệp vẫn còn đang thử nghiệm các công nghệ trong chứng minh khái niệm, nên tồn tại nhiều khó khăn. Các hệ thống học máy vẫn có thể báo cáo phát hiện sai (từ hệ thống học không giám sát mà các thuật toán phân loại dựa trên dữ liệu). Trong khi đó, một vài nhà phân tích đã phát biểu thẳng thắn rằng học máy trong an toàn thông tin được ví như một giải pháp "hộp đen", trong đó các giám đốc bảo mật (CISO) không hoàn toàn chắc chắn về cách thức thực hiện bên trong nó. Do đó, họ buộc phải đặt niềm tin và trách nhiệm của mình lên vai của nhà cung cấp và máy móc.
Dù sao, ý tưởng về sự tin cậy này là không lý tưởng trong thế giới mà các biện pháp bảo mật có thể không cần đến học máy. Theo Palmer, "Hầu hết các phát minh về học máy được quảng cáo không thực sự học được những gì cần phải học trong môi trường của khách hàng. Thay vào đó là những mô hình được huấn luyện dựa trên các mẫu mã độc trên đám mây của nhà cung cấp và được các doanh nghiệp tải xuống như một chương trình chống virus dựa trên dấu hiệu. Đây không thực sự là một tiến bộ trong an toàn thông tin đối với khách hàng và về cơ bản vẫn lạc hậu".
Ngoài ra, tồn tại một vấn đề trong dữ liệu mẫu huấn luyện cần thiết để thuật toán huấn luyện mô hình trước khi áp dụng vào thực tế là việc sử dụng và triển khai dữ liệu ít hoặc kém sẽ dẫn đến kết quả còn tệ hơn. Học máy chỉ tốt nếu thông tin đầu vào được cung cấp là tốt. Do vậy, nếu thuật toán học máy không được thiết kế tốt, kết quả sẽ không thực sự hữu dụng. Có những thuật toán xử lý được dữ liệu huấn luyện là một mặt, nhưng một trong những thách thức lớn nhất về an toàn mạng sử dụng học máy là cần thiết kế hoạt động ở quy mô mạng phức tạp và thực tế.