Liệu trí tuệ nhân tạo có giải quyết được sự thiếu hụt kỹ năng an ninh mạng?

Trong thời gian gần đây, trí tuệ nhân tạo được cho là có thể trở thành công cụ mũi nhọn, giải quyết các vấn đề về an ninh mạng. Tuy nhiên, công nghệ này vẫn tồn tại một số vấn đề đáng lưu ý.

Theo tập đoàn công nghệ và dịch vụ tư vấn Capgemini (Pháp), 80% tổ chức/doanh nghiệp đang dựa vào trí tuệ nhân tạo (Artificial Intelligence - AI) để hỗ trợ nhận diện các mối đe dọa và ngăn chặn tấn công. Đây là một yêu cầu lớn để thực hiện, vì trong thực tế có ít chuyên gia thực sự hiểu về giá trị của AI trong an ninh mạng, hoặc biết được liệu công nghệ này có thể giải quyết hiệu quả vấn đề an ninh mạng trong các trường hợp khác nhau hay không.

Thuật ngữ trí tuệ nhân tạo gây cảm giác như một công nghệ có trí thông minh bẩm sinh giải quyết được mọi vấn đề. Trong thực tế, phần lớn các trường hợp sử dụng thuật toán học máy (Machine Learning - ML) được tinh chỉnh (tune) cho một số nhiệm vụ cụ thể.

Những thuật toán được nhúng trong một số công cụ bảo mật có thể được gọi là một trí tuệ nhân tạo phạm vi hẹp. Những thuật toán này xử lý hiệu quả những vấn đề cụ thể trong bài toán đơn (hẹp), được huấn luyện trên một tập dữ liệu lớn và cụ thể trong một lĩnh vực. Hệ thống này vẫn có một khoảng cách xa với hệ thống trí tuệ nhân tạo (mạnh mẽ) thông thường, là hệ thống có thể thực hiện nhiều nhiệm vụ tổng quát và trả lời câu hỏi trên nhiều lĩnh vực.

Nếu có một công nghệ chỉ thực hiện duy nhất một nhiệm vụ, thì chưa thể thay thế cho một thành viên thông thường trong đội ngũ an ninh mạng. Vì thế, ý kiến cho rằng AI có thể giải quyết khủng hoảng thiếu kỹ năng an ninh mạng chưa được coi là đúng đắn. Trên thực tế, những giải pháp AI thường đòi hỏi nhiều thời gian hơn đối với đội ngũ an ninh mạng mà thực tế thường bị bỏ qua.

Ví dụ, t0rong nhiệm vụ phát hiện sự bất thường, việc tìm các "dấu hiệu xấu" trong hệ thống mạng là thực sự có giá trị đối với trung tâm hoạt động đảm bảo an ninh mạng và học máy hoàn toàn phù hợp đối với nhiệm vụ này. Tuy nhiên, việc một thuật toán có thể tìm nhiều "dấu hiệu xấu" hơn tất cả các kỹ thuật trước có thể không thực sự hiệu quả như người ta tưởng. Tất cả các thuật toán học máy đều có tỷ lệ dương tính giả (false positive) – nhận diện sự kiện là “xấu” trong khi chúng vô hại. Giá trị này là một phần của việc cân nhắc giữa những hành vi mong muốn khác nhau. Do vậy, dường như vẫn cần con người để phân loại các kết quả và thuật toán càng tìm được nhiều “dấu hiệu xấu”, thì càng có nhiều sự kiện mà đội ngũ an ninh mạng phải xử lý.

Vấn đề không phải đây là kết quả đáng ngạc nhiên với những ai đã quen thuộc với học máy, mà kết quả này thường không phải là kiến thức phổ thông đối với những đội ngũ muốn sử dụng học máy, dẫn đến những kỳ vọng bị thổi phồng về lượng thời gian mà học máy có thể giúp cho họ.

Trong ví dụ trên chỉ ra rằng những thuật toán học máy có thể được chỉ định thực hiện một số nhiệm vụ an ninh mạng một cách trực tiếp, cũng có những thuật toán hỗ trợ đội ngũ an ninh mạng một cách gián tiếp bằng cách giúp người dùng tránh những lỗi vi phạm có thể gây rủi ro. Cách tiếp cận này có tiềm năng hơn vì nó tập trung vào việc giảm số lượng sự kiện cần phải xử lý, hơn là cố gắng nhận diện và giảm thiểu chúng sau khi đã trở thành một sự kiện. Học máy không chỉ giải quyết vấn đề rõ ràng nhất mà còn mang lại kết quả theo mong muốn trong dài hạn.

Một vấn đề khác trong việc sử dụng học máy là dữ liệu. Bất kỳ thuật toán học máy nào cũng chỉ có thể hoạt động được nếu có đủ dữ liệu để học. Tuy nhiên, thuật toán cần tốn thời gian để học. Lấy ví dụ về số lượng bức ảnh con mèo cần có để mô hình có thể nhận ra một con mèo trong những hoàn cảnh khác nhau. Câu hỏi đặt ra là: Cần bao nhiêu thời gian để thuật toán học trước khi có thể đưa vào sử dụng? Tiến trình học có thể dài hơn dự kiến rất nhiều, do vậy đội ngũ an ninh mạng cần nhận thức được vấn đề này.

Ngoài ra, lượng dữ liệu trong an ninh mạng được gán nhãn cần thiết cho nhiều thuật toán đang bị thiếu hụt. Đây là một lĩnh vực khác mà cần có mặt con người để gán nhãn nhằm phân loại sự kiện an ninh mạng, hỗ trợ việc huấn luyện mô hình.

Tuy nhiên, có nhiều hứa hẹn cho học máy về việc tăng cường những nhiệm vụ mà đội ngũ an ninh mạng phải thực hiện, miễn là sự cần thiết về dữ liệu và chuyên gia an ninh mạng được nhận thức. Và thay vì nói "AI giải quyết sự thiếu hụt kỹ năng an ninh mạng", thì nên nhận thức về AI như một biện pháp nhằm tăng cường hoặc hỗ trợ các hoạt động mà con người thực hiện.

Vậy làm thế nào để những giám đốc an toàn thông tin (CISO) có thể tận dụng những kỹ thuật học máy hiện đại nhất, trong xu hướng gia tăng sử dụng chúng trong an ninh mạng mà không bị nhầm lẫn bởi những đồn thổi về chúng? Điểm mấu chốt là cần hiểu học máy một cách khách quan, cẩn trọng. Xem xét kỹ lưỡng những loại kết quả mong muốn nào khi sử dụng học máy và tiến hành tại nơi nào trong tiến trình an ninh mạng tổng thể: phát hiện nhiều “dấu hiệu xấu” hơn, hay phòng chống lỗi người dùng, hay một trong rất nhiều ứng dụng của học máy khác?

Sự lựa chọn này sẽ hướng đến những giải pháp khác nhau và cần hiểu rõ những đánh đổi khi sử dụng thuật toán học máy, mặc dù có thể không cần nắm chi tiết những công thức toán học bên trong. Cuối cùng, nên cân nhắc về lợi ích cũng như khó khăn khi sử dụng học máy trong hoàn cảnh hiện tại của đội ngũ bảo mật.

Bất kể loại vấn đề nào, thì tính sẵn có của dữ liệu chất lượng cao và thường xuyên được cập nhật là rất quan trọng đối với sự thành công trong việc sử dụng những khả năng của học máy. Tổ chức/doanh nghiệp có thể đặt nền móng cho công nghệ này bằng cách đầu tư vào khả năng thu thập và phân tích dữ liệu an ninh thông tin, cũng như kỹ năng xử lý dữ liệu của đội ngũ an ninh mạng. Cần thiết phải có những tổ chức/doanh nghiệp giải thích đầu ra của học máy (dù chỉ là một phần của giải pháp sử dụng con người, hay phân tích kết quả sau khi xử lý), thì đây sẽ tiếp tục là nền tảng ứng dụng trong tương lai gần.