Học máy là một lĩnh vực của trí tuệ nhân tạo AI liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Các thuật toán được sử dụng trong mô hình học máy là các chương trình máy tính có khả năng học hỏi về cách hoàn thành các nhiệm vụ và cách cải thiện hiệu suất theo thời gian. Thuật toán học máy được hướng dẫn để sử dụng một bộ dữ liệu đào tạo, từ đó tạo ra một mô hình nguyên mẫu. Khi thuật toán tiếp nhận dữ liệu mới, nó sẽ đưa ra những dự đoán phân tích dựa trên nguyên mẫu căn bản.
Học máy đang được nghiên cứu và ứng dụng phổ biến trong các tổ chức, doanh nghiệp. Ngày càng nhiều công ty nghiên cứu, triển khai các ứng dụng học máy vào trung tâm của các mô hình kinh doanh của họ như: Amazon, Google và Uber. Thay vì xem học máy như một công nghệ dễ có, các doanh nghiệp đầu ngành đang sử dụng công nghệ học máy để duy trì lợi thế cạnh tranh của họ. Công nghệ này cho phép các doanh nghiệp thực hiện các nhiệm vụ ở quy mô trước đây không thể thực hiện được, không chỉ tạo ra hiệu quả cho doanh nghiệp mà còn cả những cơ hội kinh doanh mới.
Hình 1. Một số ứng dụng mô hình học máy trong doanh nghiệp
Theo xu hướng hiện tại, học máy đang trên con đường trở thành một công nghệ phổ biến trong vài năm tới. Theo phân tích nghiên cứu và dự đoán thị trường toàn cầu cho biết, ngân sách đầu tư cho mô hình học máy sẽ tăng lên 8,8 tỷ đô-la vào năm 2022, từ mức 1,4 tỷ đôla trong năm 2017. Cũng theo như báo cáo đến năm 2024, 75% các tổ chức, doanh nghiệp sẽ thí điểm vận hành mô hình học máy.
Những mối đe dọa nghiêm trọng chống lại mô hình học máy
Học máy có những tiềm năng lớn nhưng đồng thời nó cũng đối mặt với các rủi ro an toàn bảo mật nghiêm trọng. Trong các lĩnh vực quan trọng như chăm sóc sức khỏe, giao thông và giám sát, các cuộc tấn công thành công vào mô hình học máy có thể dẫn đến thất thoát tài sản hoặc gây nguy hiểm cho con người. Theo những nghiên cứu mới của NCC-Group, mối nguy cơ đối với mô hình học máy có thể bao gồm những hình thức sau:
Tấn công học máy đối nghịch (adversarial attacks): hay tấn công sử dụng mẫu đối nghịch là một dạng của tấn công né tránh (evasion attacks). Đối với kiểu tấn công này, kẻ tấn công sẽ chỉnh sửa dữ liệu đầu vào, tạo ra các mẫu giả gọi là các mẫu đối nghịch, bằng cách thêm nhiễu vào các đầu vào hợp lệ. Các thay đổi này khó bị con người phát hiện, nhưng lại gây ảnh hưởng lớn đến đầu ra của các mô hình học máy.
Hình 2. Kẻ tấn công can thiệp dữ liệu đầu vào của mô hình
Tấn công đầu độc dữ liệu (data poisoning attacks): các mô hình học máy thường được huấn luyện lại bằng dữ liệu mới thu thập được sau khi triển khai để thích ứng với các thay đổi trong phân phối đầu vào. Ví dụ, một hệ thống phát hiện xâm nhập liên tục thu thập các mẫu trên mạng và huấn luyện lại mô hình để phát hiện các cuộc tấn công mới. Trong cuộc tấn công đầu độc dữ liệu, kẻ tấn công thực hiện xâm nhập và sửa đổi dữ liệu huấn luyện khiến cho mô hình học máy hoạt động không bình thường, chẳng hạn như không thể phát hiện các cuộc tấn công trong tương lai.
Tấn công backdoor (backdoor attacks): giống như các phần mềm truyền thống, backdoors có thể được nhúng vào các mô hình học máy và rất khó bị phát hiện. Chỉ có người tạo ra mới biết cách kích hoạt chúng. Các backdoors này thường được nhúng vào bằng cách thêm một số nơ-ron cụ thể vào mô hình mạng nơ-ron huấn luyện. Hầu hết các cuộc tấn công kiểu này xảy ra trong quá trình tạo hoặc truyền các mô hình.
Tấn công suy luận thành viên (membership inference attacks): là hình thức truy vấn mô hình học máy để xác định xem một điểm dữ liệu cụ thể có được sử dụng trong tập huấn luyện của nó hay không. Các mô hình học máy được đào tạo trên số lượng lớn (hàng nghìn, hàng triệu) bản ghi dữ liệu. Trong nhiều trường hợp, các tập dữ liệu này có thể chứa thông tin nhạy cảm như tên, ngày sinh, địa chỉ, mật khẩu, số thẻ tín dụng, dữ liệu sức khỏe và các chi tiết cá nhân khác. Các cuộc tấn công suy luận nhằm mục đích tìm hiểu những thông tin bí mật này bằng cách thăm dò mô hình học máy với dữ liệu đầu vào khác nhau, cân nhắc với kết quả đầu ra để tiếp tục thăm dò dữ liệu đầu vào.
Tấn công trích xuất mô hình (model inversion attacks): trích xuất mô hình học máy để tạo lại một phần hoặc toàn bộ dữ liệu đào tạo của chúng. Trong một cuộc tấn công trích xuất mô hình hoặc dữ liệu huấn luyện, kẻ tấn công sẽ phân tích đầu vào, đầu ra và thông tin bên ngoài của hệ thống để suy đoán các tham số hoặc dữ liệu huấn luyện của mô hình.
Trên cơ sở các mối đe dọa này đối với mô hình học máy, các nhà nghiên cứu của NCC-Group đã tập trung vào việc tái tạo chúng trong các môi trường thực tế, nơi các mô hình học máy được triển khai trong các ứng dụng thực tế như xác minh danh tính người dùng, hệ thống chăm sóc sức khỏe và phần mềm phân loại hình ảnh. Phát hiện của họ cho thấy việc thực hiện các cuộc tấn công chống lại các mô hình học máy trên thực tế là hoàn toàn khả thi. Theo Chris Anley, nhà nghiên cứu của NCC-Group cho biết: “Tôi nghĩ rằng thật đáng ngạc nhiên khi có rất nhiều bài báo mô tả chính xác cách thức hoạt động của những cuộc tấn công đó. Chúng tôi đã kiểm chứng một số kết quả trong các bài báo ở dạng mô phỏng và đã thực hiện thành công các cuộc tấn công vào các tình huống tương tự đối với khách hàng. Mặc dù các cuộc tấn công về quyền riêng tư này không đơn giản như vi phạm dữ liệu được kiểm chứng bằng SQL injection, nhưng chúng chắc chắn là thực tế”.
Cũng theo Anley, nguyên nhân của các mối đe dọa có thể xuất phát từ một số cơ sở như sau:
Thứ nhất, các mô hình học máy sẽ hoạt động tốt hơn khi khối lượng dữ liệu mà chúng được đào tạo tăng lên, khi đó các tổ chức có khả năng phải xử lý khối lượng lớn thông tin nhạy cảm, dữ liệu riêng tư..., điều đó cũng đồng nghĩa với nguy cơ về mất an toàn dữ liệu cũng tăng lên.
Thứ hai, các mô hình học máy được đào tạo trước và chia sẻ trên internet, vốn đã trở nên rất phổ biến trong những năm gần đây. Các nhà phát triển hệ thống chưa có nhiều kinh nghiệm hoặc nguồn lực để đào tạo mô hình học máy của riêng họ có thể tải xuống các mô hình được đào tạo trước này từ một trong số các nền tảng web và trực tiếp tích hợp chúng vào ứng dụng của họ. Nhưng các mô hình được đào tạo trước có thể trở thành nguồn gốc của các mối đe dọa như trên.
Một số giải pháp an toàn
Để hạn chế những nguy cơ về bảo mật đối với các mô hình học máy như trên, một số giải pháp an toàn cần được thực hiện như sau:
Một là, nâng cao tính mạnh mẽ của các mô hình học máy bằng các cơ chế như xác thực mô hình. Các kỹ thuật xác thực trong học máy được sử dụng để lấy tỷ lệ lỗi của mô hình, có thể được coi là gần với tỷ lệ lỗi thực sự của tổng thể. Một số kỹ thuật xác thực có thể được sử dụng như: kỹ thuật xác thực chéo K- Fold, kỹ thuật lấy mẫu con ngẫu nhiên, kỹ thuật bootstraping…
Hai là, xây dựng cấu trúc bảo mật an toàn cho mô hình với nhiều cơ chế, nhiều lớp. Ví dụ như cần có cơ chế quản lý dữ liệu đào tạo mô hình và áp dụng các biện pháp kiểm soát để đảm bảo rằng dữ liệu này không thể bị sửa đổi một cách độc hại. Nếu hoàn toàn phải đào tạo với dữ liệu nhạy cảm, hãy xem xét các kỹ thuật bảo mật hiệu quả như ẩn danh hoặc mã hóa dữ liệu nhạy cảm.
Ba là, thiết lập cơ chế phòng thủ đối với các cuộc tấn công đã biết, thông qua các hệ thống giám sát và phát hiện tấn công.
Tài liệu tham khảo:
2.https://portswigger.net/daily-swig/inference-attacks-how-much-information-can-machine-learning-models-leak
4.https://lethach.com/tan-cong-doi-nghich-trong-hoc-may-va-cach-phong-chong/
5.http://pecc2.com/vn/hoc-may-tren-nen-tang-du-lieu-trong-moi-truong-kinh-doanh.html