Dữ liệu trực tuyến tích hợp AI đảm bảo an ninh quốc gia

Hiện nay, trí tuệ nhân tạo (AI) đang là công nghệ được ưu tiên hàng đầu của các chính phủ và Bộ Quốc phòng các nước trên thế giới. Thậm chí, một số quốc gia lớn như Trung Quốc và Nga đã coi đây là một cuộc chạy đua vũ trang toàn cầu mới. Công nghệ AI có khả năng hỗ trợ một số sáng kiến về an ninh quốc gia và quốc tế, từ an ninh mạng đến hậu cần và chống khủng bố.

Số lượng lớn dữ liệu trực tuyến có sẵn và công khai là rất quan trọng để hỗ trợ sử dụng trong một số trường hợp. Các nguồn này bao gồm dữ liệu truyền thông xã hội phi cấu trúc từ cả nền tảng phụ đến nền tảng chính, bao gồm cả các dữ liệu trên web đen.

Người dùng cung cấp phiên bản cập nhật của phần mềm độc hại govRAT trên diễn đàn web đen (do Echosec Systems phát hiện)

Mặc dù có giá trị nhưng không phải lúc nào người dùng cũng có thể dễ dàng truy cập những nguồn này thông qua các nền tảng tình báo về mối đe dọa thương mại. Ngoài ra, các giải pháp dữ liệu thương mại, chẳng hạn như API, thường cung cấp dữ liệu thô ở các định dạng không phù hợp để phát triển AI trong cộng đồng trí tuệ.

Dữ liệu trực tuyến công khai hỗ trợ AI và an ninh quốc gia như thế nào và làm cách nào để các nguồn cấp dữ liệu này có thể đáp ứng hiệu quả hơn các yêu cầu quốc phòng đối với sự phát triển của AI?

AI và an ninh quốc gia: Giá trị của dữ liệu trực tuyến

Các ứng dụng AI trong quốc phòng dựa vào dữ liệu từ nhiều đầu vào khác nhau. Chúng có thể bao gồm nguồn cấp dữ liệu kỹ thuật về an ninh mạng, chụp ảnh từ trên không hoặc dữ liệu từ các cảm biến vật lý tại hiện trường.

Từ những cơ sở dữ liệu có sẵn này, các nhà nghiên cứu dữ liệu có thể phát triển các mô hình học máy tự động phát hiện các cuộc tấn công mạng, theo dõi hoạt động của kẻ thù trên mặt đất, chỉ đạo các phương tiện tự hành và vạch ra nhiều chiến lược an ninh quốc gia khác.

Dữ liệu trực tuyến có sẵn công khai, đặc biệt là từ các nguồn web xã hội, web chìm và web đen ngày càng có giá trị để hỗ trợ cho các ứng dụng AI trong quốc phòng. Ví dụ:

- Các kênh liên lạc trên web chìm và web đen thường cảnh báo các mối đe dọa an ninh mạng được nhắm mục tiêu, như dữ liệu đã phân loại bị rò rỉ hoặc các cuộc tấn công có phối hợp phần mềm độc hại. Việc kết hợp các nguồn này với các nguồn cung cấp dữ liệu kỹ thuật như dữ liệu lưu lượng mạng sẽ tạo ra một chiến lược an ninh quốc gia và trí tuệ nhân tạo mạnh mẽ hơn để giải quyết các rủi ro mạng.

- Nhiều không gian trực tuyến, từ các mạng xã hội chính thống đến các trang mạng khác như 4chan hay 8kun đã được các nhóm cực đoan trên toàn thế giới sử dụng để truyền tải nhữnh thông tin sai lệch, tuyển dụng và lên kế hoạch cho các cuộc tấn công bạo lực. Các mô hình học máy hiện được yêu cầu để giám sát chủ nghĩa cực đoan trực tuyến, vì sự phát triển nhanh chóng với các kỹ thuật cao siêu của nó đã vượt qua các thuật toán phát hiện và phân tích của con người trong hiện tại. AI có thể giúp xác định vị trí của các cuộc trò chuyện cố ý làm xáo trộn và đưa ra các cảnh báo mối đe dọa sắp xảy ra hay dự báo các cuộc tấn công có kế hoạch trong tương lai.

- AI được nhiều quốc gia sử dụng để tiến hành các cuộc chiến tranh thông tin trong nước và nước ngoài. Ngược lại, công nghệ quân sự sử dụng AI giúp giám sát các mối đe dọa về thông tin sai lệch được nhắm mục tiêu cho các ứng dụng tình báo.

- Đối với một số hoạt động quân sự, AI hỗ trợ các hệ thống chỉ huy kiểm soát mạnh mẽ hơn, giúp phân tích nguồn cấp dữ liệu từ nhiều vùng trên một màn hình tập trung. Việc tham chiếu chéo đến các điểm dữ liệu từ các nguồn xã hội trực tuyến, web chìm và web đen cho phép các nhà phân tích quốc phòng nhận được nhiều giá trị hơn từ các nguồn cấp dữ liệu khác, mở rộng chức năng AI và môi trường liên tục được giám sát một cách hiệu quả hơn.

Rò rỉ dữ liệu nhắm mục tiêu đến một nhà cung cấp vũ khí trên Pastebin (do Echosec Systems phát hiện)

Tạo dữ liệu trực tuyến “sẵn sàng cho AI”

Mặc dù các nguồn dữ liệu trực tuyến có giá trị để phát triển AI trong lĩnh vực quốc phòng, nhưng việc tổng hợp dữ liệu một cách có hiệu quả mới chỉ là một nửa của trận chiến. Các nhà nghiên cứu dữ liệu trong lĩnh vực quốc phòng cũng phải có khả năng thu thập, tổ chức và lưu trữ dữ liệu một cách tối ưu cho các ứng dụng AI - một quá trình đực các chuyên gia mô tả là chuẩn bị “sẵn sàng cho AI”.

"... quá trình chuyển đổi sang các hệ thống sẵn sàng cho AI sẽ yêu cầu thực hiện các quy trình có cách thức và có tính cân nhắc cao để thu thập và quản lý dữ liệu." - The JAIC, tháng 6/2020.

Như Dịch vụ nghiên cứu Quốc hội Hoa Kỳ đã chia sẻ, hầu hết các đổi mới thương mại hỗ trợ AI đều phục vụ cho khối doanh nghiệp tư nhân, không phải các yêu cầu của chính phủ liên bang. Do đó, nhiều nền tảng thông minh về mối đe dọa có sẵn và API thu thập dữ liệu xã hội, web chìm và web đen không tổ chức và lưu trữ dữ liệu để phát triển AI hiệu quả trong phòng thủ.

Các nhà nghiên cứu dữ liệu trong lĩnh vực quốc phòng yêu cầu các giải pháp không chỉ tổng hợp dữ liệu liên quan một cách hiệu quả mà còn được củng cố bởi một hệ thống dữ liệu được duy trì tốt. Điều này có nghĩa là cần thu thập nhiều loại dữ liệu thông tin từ nhiều nguồn dữ liệu khác nhau, sau đó quản lý các danh mục dữ liệu này một cách hữu hiệu và xây dựng một cơ sở dữ liệu đủ lớn để áp dụng các mô hình học máy hiệu quả. Do đó, mọi dữ liệu có cấu trúc hoặc phi cấu trúc được thu thập trực tuyến đều sẵn sàng để hỗ trợ phát triển AI.

Để đáp ứng được nhu cầu này, nhiều nhà cung cấp đã phát triển một API độc quyền kết hợp các nguồn nổi tiếng như thị trường web đen và mạng xã hội chính thống. Giải pháp được xây dựng với một hệ thống dữ liệu cho phép các nhà khoa học tích hợp dữ liệu phi cấu trúc từ các nguồn này và phát triển hiệu quả các mô hình học máy cho các sáng kiến quốc phòng.

API cũng bao gồm các mô hình học máy được tích hợp sẵn, cho phép các nhà phân tích thiết lập và chạy nhanh chóng trên một số trường hợp sử dụng phòng vệ phổ biến, bao gồm tự động phát hiện tiết lộ dữ liệu và PII.

Dữ liệu xã hội công khai, web chìm và web đen ngày càng có giá trị để cung cấp thông tin cho các sáng kiến an ninh quốc gia. Tuy nhiên, các nhà nghiên cứu yêu cầu dữ liệu phi cấu trúc này phải được thu thập, quản lý và lưu trữ đặc biệt để phát triển AI, điều mà không phải lúc nào cũng khả thi thông qua các API thương mại hiện có và các nền tảng thông minh về mối đe dọa.

Ngay cả khi các Bộ Quốc phòng trên toàn thế giới đầu tư nhiều hơn vào AI, công nghệ mới nổi thường phát triển nhanh hơn trước khi ra đời các chính sách. Các giải pháp cung cấp dữ liệu “sẵn sàng cho AI” sẽ cho phép các chính phủ theo kịp các công nghệ AI và tích hợp chúng vào môi trường quốc phòng một cách hiệu quả hơn. Điều đó sẽ thúc đẩy các chiến lược an ninh quốc gia hiệu quả hơn, có thể mở rộng và được cung cấp thông tin tốt hơn.