Tấn công học máy đối nghịch trong mạng 5G và giải pháp

13:43 | 05/09/2022

Mạng 5G ngày càng trở nên phổ biến với các ứng dụng trong nhiều lĩnh vực như: hội nghị trực tuyến, xe tự lái, chăm sóc sức khỏe từ xa, máy bay không người lái, thực tế ảo.... Bằng cách tích hợp học máy vào công nghệ 5G với những ưu điểm nổi bật về tốc độ và kết nối, hệ thống liên lạc sẽ trở nên thông minh hơn với khả năng vô tuyến nhận thức được hỗ trợ bởi các mô hình học máy để thực hiện các nhiệm vụ quan trọng như cảm nhận và chia sẻ phổ tần. Tuy nhiên, điều đó cũng dẫn đến những nguy cơ mới từ các cuộc tấn công nhắm vào các ứng dụng học máy. Bài báo sau đây sẽ giới thiệu đến độc giả về kỹ thuật học máy đối nghịch và một số kịch bản tấn công sử dụng kỹ thuật này đối với mạng 5G cũng như một số giải pháp phòng chống.

CÔNG NGHỆ 5G VÀ XU THẾ PHÁT TRIỂN

Công nghệ 5G có nhiều ưu điểm vượt trội so với các thế hệ công nghệ trước đây, giúp tiết kiệm năng lượng, mang đến nhiều trải nghiệm Internet tốt hơn với tốc độ cao hơn. Mạng 5G được thiết kế sử dụng các dải tần số cao, hoạt động trong băng tần bước sóng milimet, dao động trong khoảng 30 - 300 GHz. Do đó, theo lý thuyết, tốc độ mạng 5G có thể đạt đến 10 Gbps, thậm chí cao hơn. Trong điều kiện lý tưởng và ổn định, tốc độ mạng 5G sẽ tương đương với tốc độ cáp quang. Trên thực tế, tại Việt Nam, mạng 5G của Viettel đã đạt tốc độ truyền dữ liệu kỷ lục là 4,7 Gbps, cao hơn 40 lần tốc độ 4G hiện có [1].

Về bản chất, mạng 5G vẫn đang được phát triển dựa trên nền tảng của 4G nhưng ở mức độ cao hơn. Mạng 5G sẽ hỗ trợ các công nghệ mở rộng đa nền tảng LAS-CDMA (Large Area Synchronized Code Division Multiple Access), công nghệ băng thông siêu rộng UWB (Ultra Wideband), dịch vụ phân tán đa điểm LMDS (Local Multipoint Distribution Service), dịch vụ IPv6 (Internet Protocol Version 6) và kỹ thuật đa truy cập phân chia theo búp sóng BDMA (Beam Division Multiple Access). Dự án chiến lược phát triển 5G giữa Liên minh Viễn thông Quốc tế (International Telecommunication Union – ITU) và Dự án đối tác thế hệ thứ ba (Third Generation Partnership Project - 3GPP) được đặc tả dựa trên hai giai đoạn:

5G giai đoạn 1: Tháng 6/2018, bộ thông số kỹ thuật 5G đầu tiên đã được thiết lập tại bản phát hành số 15, chủ yếu tập trung vào thông số kỹ thuật cho các mạng 5G hoạt động với mạng lõi 4G LTE và xác định giao diện vô tuyến thế hệ mới 5G- NR (5G- new radio) [2]. Dựa trên bản phát hành số 15, các nhà sản xuất có thể cung cấp thiết bị cho các nhà mạng triển khai dịch vụ băng thông rộng di động nâng cao eMBB (enhanced Mobile Broadband) từ năm 2020 trở đi. Cách tiếp cận này cho phép sự chuyển đổi linh hoạt và tăng tính bền vững của công nghệ LTE cho các nhà mạng di động, đồng thời cung cấp cho người dùng các tính năng mới nhất của công nghệ di động thế hệ thứ 5.

Hình 1. Dự án chiến lược phát triển mạng 5G giữa ITU và 3GPP

5G Giai đoạn 2: Bản phát hành số 16 được hoàn thành vào ngày 03/7/2020, 3GPP đã bổ sung nhiều cải tiến đối với cả công nghệ 4G LTE và 5G, trong đó tập trung vào các ngành công nghiệp khác (Vertical industry) như sản xuất thông minh, ô tô tự lái… cũng như cải tiến để tăng dung lượng dữ liệu của mạng và hiệu năng khai thác mạng [2]. Phiên bản thứ 16 và hơn thế nữa (phiên bản 17 +) được xây dựng dựa trên nền tảng đã có và tiếp tục mở rộng eMBB, kỹ thuật truyền thông siêu tin cậy độ trễ thấp URLLC (Ultra Reliable Low Latency Communications) và công nghệ truyền thông trên quy mô lớn mMTC (massive Machine Type Communications).

TẤN CÔNG HỌC MÁY ĐỐI NGHỊCH TRONG MẠNG 5G

Học máy là một khía cạnh của trí tuệ nhân tạo AI, sử dụng thuật toán để phân tích những thông tin có sẵn, học hỏi từ nó rồi đưa ra quyết định hoặc dự đoán về một thứ gì đó có liên quan. Nói chung, học máy có thể được sử dụng để hoàn thành các nhiệm vụ khác nhau, bao gồm phân loại, phân cụm và đưa ra các dự đoán về dữ liệu. Tác động của học máy tới truyền thông 5G là rất lớn, từ quá trình tối ưu lớp vật lý, các khía cạnh bảo mật từ các thành phần được cấu hình bằng phần mềm và ảo hóa đến quản lý tài nguyên vô tuyến, phân tích chất lượng đường truyền... Một trong những ví dụ cho thấy vai trò của học máy tới 5G là khi được sử dụng để tác động tới kỹ thuật MIMO (multiple-input and multiple-output) quy mô lớn, để xác định thay đổi và dự báo phân phối người dùng bằng cách phân tích dữ liệu lịch sử, tối ưu hóa trọng số của các phần tử ăng-ten thông qua dữ liệu được phân tích hoặc để cải thiện phạm vi phủ sóng trong kịch bản nhiều người dùng yêu cầu truy cập [3-6].

Hình 2. Học máy được sử dụng để dự báo phân phối người dùng trong 5G

Khi học máy trở thành công nghệ nền tảng của mạng 5G, thì đồng thời cũng làm gia tăng các mối lo ngại về tính dễ bị tổn thương của các mô hình này trước các cuộc tấn công đối nghịch. Tin tặc có thể tận dụng các kỹ thuật học máy để khai thác các lỗ hổng trong hệ thống 5G và làm thay đổi chức năng của một số công nghệ được áp dụng trong mạng [6-7]. Do tính chất chia sẻ và mở của các phương tiện, thiết bị không dây, các ứng dụng dựa trên chúng rất dễ bị gây nhiễu và nghe lén, dẫn tới nguy cơ tin tặc có thể thực hiện tấn công học máy đối nghịch, thao túng các quy trình đào tạo và dự đoán của các mô hình học máy. Vì vậy tấn công học máy đối nghịch là một vấn đề rất được quan tâm đối với sự phát triển của mạng truyền thông 5G.

Hình 3. Phân loại các hình thức tấn công dựa trên học máy đối nghịch

Tấn công học máy đối nghịch là một dạng của tấn công né tránh. Đối với kiểu tấn công này, tin tặc sẽ chỉnh sửa dữ liệu đầu vào, tạo ra các mẫu giả gọi là các mẫu đối nghịch bằng cách thêm nhiễu vào các đầu vào hợp lệ. Các thay đổi này khó bị con người phát hiện, nhưng lại gây ảnh hưởng lớn đến đầu ra của các mô hình học máy. Một số kịch bản tấn công học máy đối nghịch có thể được thực hiện trong mạng 5G gồm:

Kịch bản tấn công thứ nhất: hoạt động của mạng 5G dự kiến sẽ bao phủ băng tần vô tuyến băng thông rộng dân dụng CBRS (Citizen’s Broadband Radio Service), nơi người dùng 5G cần chia sẻ phổ tần với tín hiệu ra-đa. Ra-đa sẽ là người dùng chính của băng tần, hệ thống 5G là người dùng phụ [8]. Khi đó, bộ phát 5G là gNodeB và bộ thu 5G là UE (User Equipment) cần giao tiếp với nhau khi không phát hiện thấy tín hiệu ra-đa nào trong băng tần để tránh nhiễu với các tín hiệu (Hình 4). Lúc này, hệ thống cảm biến môi trường ESC (Environmental Sensing Capability) cảm nhận phổ tần, quyết định xem kênh liên lạc đang rảnh hay bận bằng bộ phân loại dựa trên học máy và thông báo các quyết định của mình cho hệ thống truy cập phổ tần SAS (Spectrum Access System). Trong trường hợp này, tin tặc có thể gây nhiễu cả quá trình truyền dữ liệu và cảm nhận phổ cũng như có thể gây nhiễu khoảng thời gian phát hiện phổ, làm sai lệch kết quả phân loại của mô hình học máy (từ kênh đang rảnh thành kênh đang bận).

Hình 4. Tin tặc đào tạo mô hình mục tiêu gây nhiễu

Bộ phân loại dựa trên học máy cho kết quả rất tốt khi không bị tấn công. Kết quả mô phỏng thuật toán cho thấy rằng nó có thể phát hiện chính xác tất cả các trường hợp kênh nhàn rỗi và hầu hết các trường hợp kênh bận. Lỗi khi phát hiện kênh bận là 5.6% [9]. Điều đó có nghĩa là, hệ thống 5G có thể bảo vệ thành công 94,4% đường truyền ra-đa trong khi đạt được 100% thông lượng (được chuẩn hóa bằng thông lượng tốt nhất sẽ đạt được sử dụng một thuật toán lý tưởng phát hiện chính xác mọi kênh không hoạt động). Mô phỏng kịch bản tấn công cho thấy kẻ tấn công không thể làm nhiễu tất cả các quá trình truyền dữ liệu và chỉ có thể làm giảm thông lượng khoảng 19,08%.

Kịch bản tấn công thứ hai: xem xét một cuộc tấn công giả mạo vào kiến trúc ảo hóa mạng 5G – kiến trúc cho phép ghép các mạng logic ảo và độc lập (lát mạng) trên cùng một cơ sở hạ tầng mạng vật lý, mỗi lát mạng là một mạng đầu cuối riêng biệt được thiết kế để đáp ứng các yêu cầu đa dạng được yêu cầu bởi một ứng dụng cụ thể [10]. Một bộ phân loại được đào tạo tại bộ phát 5G là gNodeB để phát hiện các UE-5G dựa trên mô hình học máy nhằm xác định các dịch vụ cụ thể như thể hiện trong Hình 5. Khi đó, gNodeB -5G đào tạo bộ phân loại dựa trên dữ liệu định dạng I/Q (In-Phase and Quadrature Signals) bao gồm cả nguồn tín hiệu và pha để phân biệt tín hiệu từ UE-5G mục tiêu và tín hiệu nhiễu ngẫu nhiên.

Hình 5. Mô hình xác thực trong 5G

Tin tặc có thể truyền các tín hiệu định dạng I/Q tương tự để có quyền truy cập vào các dịch vụ hỗ trợ 5G. Với mục đích này, nó có thể cảm nhận phổ để thu thập các mẫu tín hiệu (dữ liệu I/Q) và xác định xem tín hiệu đó có được phân loại là tín hiệu của người dùng mục tiêu hay không bằng cách giám sát phản hồi từ gNodeB-5G hoặc quan sát UE-5G nào bắt đầu giao tiếp với gNodeB-5G với tư cách là người dùng đã được xác thực. Sau khi thu thập đủ các mẫu tín hiệu, tin tặc có thể áp dụng mô hình mạng sinh GAN để tạo dữ liệu tổng hợp dưới hình thức giả mạo và sau đó truyền chúng vào mô hình xác thực để có quyền truy cập vào các dịch vụ hỗ trợ 5G.

Hình 6. Huấn luyện mạng GAN để tạo ra dữ liệu giả mạo

Đối với cuộc tấn công này, hiệu suất được tính tới khi thay đổi mức công suất nhiễu đối với công suất tín hiệu 5G tối thiểu nhận được ở gNodeB và mức tín hiệu trên nhiễu SNR (Signal to Noise Ratio). Kết quả mô phỏng thuật toán cho thấy, trong trường hợp SNR =3dB, xác suất tấn công thành công có thể lên tới 90% [9]. Tuy nhiên hiệu suất của cuộc tấn công này không thể đạt được bằng các hình thức khuếch đại phát lại và chuyển tiếp các tín hiệu nhận được.

MỘT SỐ GIẢI PHÁP PHÒNG CHỐNG TẤN CÔNG ĐỐI NGHỊCH

Giải pháp cơ bản đối với tấn công học máy đối nghịch là kỹ thuật huấn luyện mẫu đối nghịch. Kỹ thuật này hoạt động bằng cách sinh ra các mẫu đối nghịch sử dụng các phương pháp tấn công đã biết trong pha huấn luyện mô hình, sau đó thêm các mẫu này vào bộ dữ liệu huấn luyện và thực hiện huấn luyện lại để tạo ra mô hình mới có khả năng chống lại tấn công đối nghịch.

Một cách tiếp cận phòng thủ chủ động tại gNodeB5G là gia tăng cảnh báo xác thực lỗi. Đây không phải là một cách tiếp cận để một UE-5G tương ứng bị từ chối yêu cầu xác thực trong một trường hợp có thể được xác thực. Các lỗi được kiểm soát bởi gNodeB-5G với mục đích tạo ra sự hiểu lầm cho tin tặc. Với dữ liệu đầu vào như vậy, tin tặc không thể đào tạo một mô hình GAN thích hợp để tạo ra tín hiệu tổng hợp, tức là các tín hiệu giả mạo có thể được phát hiện và từ chối truy cập một cách đáng tin cậy.

Một biện pháp phòng thủ tương tự có thể được áp dụng đối với kịch bản tấn công thứ nhất, trong đó gNodeB 5G cố tình đưa ra một số lượng nhỏ các quyết định truyền sai khi truy cập phổ. Do đó, tin tặc không thể đào tạo một mô hình đại diện thích hợp để khởi động các cuộc tấn công thành công vào việc truyền dữ liệu hoặc cảm biến phổ.

Hình 7. Mô hình kiểm soát lỗi tại gNodeB

Kỹ thuật huấn luyện mẫu đối nghịch không chỉ làm gia tăng cường độ, mà còn tăng độ chính xác và khả năng chuẩn hóa của mô hình mới. Kỹ thuật này đã được chứng minh là hiệu quả trong việc bảo vệ các mô hình khỏi các cuộc tấn công đối nghịch.

Hình 8. Mô hình khử nhiễu tự động được đào tạo

Ngoài ra có thể xem xét kết hợp nhóm các bộ khử nhiễu tự động được đào tạo (Hình 8). Trước tiên, dữ liệu đầu vào phải được thông qua các tổ hợp khử nhiễu cố gắng thực hiện các phương pháp khác nhau để loại bỏ bất kỳ nhiễu nào được thêm vào dữ liệu (bao gồm nhiễu do tin tặc thực hiện). Quá trình đào tạo cho nhóm bộ khử nhiễu tự động với mục tiêu là giảm lỗi tái cấu trúc giữa dữ liệu được phán đoán và dữ liệu gốc, gia tăng tính chính xác của bộ phân loại dựa trên học máy.

TÀI LIỆU THAM KHẢO

1. https://vjst.vn/vn/tin-tuc/5966/5g-va-nhung-van-de-an-ninh-bao-mat-mang.aspx  

2. http://www.cuctanso.vn/tin-tuc/Pages/thongtindidong5G.aspx?ItemID=2919

3. Haidine, Abdelfatteh, et al. “Artificial intelligence and machine learning in 5G and beyond: a survey and perspectives.” Moving Broadband Mobile Communications Forward: Intelligent Technologies for 5G and Beyond (2021): 47.

4. J. Kaur, M. A. Khan, M. Iftikhar, M. Imran and Q. Emad Ul Haq, “Machine Learning Techniques for 5G and Beyond,” in IEEE Access, vol. 9, pp. 23472-23488, 2021, doi: 10.1109/ACCESS.2021.3051557.

5. Omar Nassef, Wenting Sun, Hakimeh Purmehdi, Mallik Tatipamula, Toktam Mahmoodi, A survey: Distributed Machine Learning for 5G and beyond, Computer Networks, Volume 207, 2022, 108820, ISSN 1389-1286, https://doi.org/10.1016/j.comnet.2022.108820.

6. C. Jiang, H. Zhang, Y. Ren, Z. Han, K. C. Chen, and L. Hanzo,“Machine learning paradigms for next-generation wireless networks,” IEEE Wireless Communications, vol. 24, no. 2, 2016.

7. Y. Vorobeychik and M. Kantarcioglu, Adversarial machine learning, Morgan & Claypool, 2018.

8. Shi, Yi, and Yalin E. Sagduyu. “Adversarial machine learning for flooding attacks on 5G radio access network slicing.” 2021 IEEE International Conference on Communications Workshops (ICC Workshops). IEEE, 2021.

9. S. Zhang, “An overview of network slicing for 5G,” IEEE Wireless Communications (TWC), vol. 26, no. 3, 2019.