Phát hiện mã độc dựa vào máy học và thông tin PE Header (Phần II)

14:34 | 26/10/2021
Trần Ngọc Anh (Bộ Tư lệnh 86) , Võ Khương Lĩnh (Đại học Nguyễn Huệ)

Trong phần trước, các tác giả đã tiến hành phân tích, khảo sát thống kê 55 đặc trưng từ cấu trúc PE Header của tập dữ liệu 5.000 file thực thi EXE/DLL và đã trích chọn được 14 đặc trưng quan trọng. Phần này, các tác giả nghiên cứu thử nghiệm một số mô hình máy học tiêu biểu với tập đặc trưng gốc (55 đặc trưng) và tập đặc trưng rút gọn (14 đặc trưng) cho phát hiện mã độc. Trên cơ sở đánh giá, so sánh thời gian thực hiện và độ chính xác, đồng thời so sánh với một số kết quả nghiên cứu trước nhằm chỉ ra kết quả nghiên cứu của bài báo là có giá trị.

MỘT SỐ MÔ HÌNH

Qua phân tích PE Header (trong Phần I), ta thu được hai tập đặc trưng dùng cho huấn luyện và thử nghiệm: Tập 1 có 55 đặc trưng (trong Phần I) và Tập 2 có 14 đặc trưng (Bảng 1, Phần I). Từ đây ta có thể áp dụng một số mô hình máy học để phân lớp như sau:

- Mô hình phân lớp theo xác xuất NB (Naive Bayes - NB);

- Mô hình Mạng nơ-ron nhân tạo ANN (Artificial Neural Network - ANN);

- Mô hình Cây quyết định DT (Decision Tree - DT);

- Mô hình Rừng ngẫu nhiên RF (Random Forest – RF).

Quý độc giả quan tâm mời xem chi tiết tại đây.