Phân tích chương trình máy tính sử dụng mạng nơron học sâu
Cập nhật vào: Thứ tư - 08/04/2026 10:06
Cỡ chữ
Nhằm tìm ra cách tiếp cận mới và xây dựng mô hình học máy để giải quyết các bài toán phân tích hành vi chương trình và định vị các nội dung liên quan đến hành vi đó. TS. Phan Việt Anh và các cộng sự tại Học viện Kỹ thuật Quân sự (Bộ Quốc phòng) đã thực hiện đề tài: “Phân tích chương trình máy tính sử dụng mạng nơron học sâu”. Đề tài tập trung nghiên cứu phương pháp tiếp cận mới và xây dựng mô hình học máy nhằm giải quyết bài toán phân tích hành vi chương trình và định vị lỗi logic hoặc mã độc. Quy trình thực hiện bắt đầu từ việc khảo sát hạn chế của các phương pháp hiện tại và phân tích đặc trưng dữ liệu để đề xuất cách biểu diễn chương trình giàu thông tin nhất. Trên cơ sở đó, đề tài phát triển các mạng nơ-ron học sâu (Deep Learning) giúp tự động khám phá đặc trưng và định vị các cấu trúc mã nguồn quan trọng. Để tối ưu hóa độ chính xác, nghiên cứu kết hợp đa dạng các kiểu dữ liệu và áp dụng các kỹ thuật tiên tiến như Ensemble Learning, Transfer Learning, đồng thời hướng tới việc tích hợp và triển khai hệ thống trong môi trường thực tế.

Nhằm xây dựng các mô hình hiệu quả trong phân tích chương trình máy tính, nhóm đề tài đã nghiên cứu đề xuất nhiều giải pháp khác nhau, trọng tâm tập trung vào phát triển các kiến trúc mạng nơ ron học sâu phù hợp với biểu diễn dữ liệu; các phương pháp huấn luyện với ít dữ liệu có nhãn; và sinh bộ đặc trưng tốt để phân biệt các chương trình.
Để giải quyết thách thức về việc thiếu hụt dữ liệu có nhãn trong phân tích chương trình, nhóm đề tài đã phát triển kiến trúc mạng nơ-ron tự động mã hóa học đa nhiệm (Multitask Convolutional Autoencoder) dựa trên sự kết hợp giữa bộ mã hóa tự động không giám sát và bộ phân lớp dự đoán lỗi có giám sát. Kiến trúc này không chỉ tận dụng tối đa dữ liệu không nhãn dễ thu thập để sinh đặc trưng ẩn mà còn đảm bảo kết quả dự đoán ổn định, vượt trội hơn các mô hình truyền thống trong kịch bản dữ liệu ít nhãn. Đồng thời, nhằm phân biệt các chương trình có mã nguồn tương đồng nhưng khác biệt về tính chất lỗi (như chỉ khác nhau một toán tử), nhóm đã xây dựng mô hình tự động mã hóa kết hợp thuật toán K-means với các hàm phạt giúp tăng khả năng phân loại chi tiết và giảm phương sai, từ đó cải thiện đáng kể hiệu năng dự đoán lỗi phần mềm. Bên cạnh đó, các phương pháp bổ trợ như học chuyển giao, tăng cường dữ liệu và học bán giám sát cũng được áp dụng linh hoạt để xử lý tình trạng mất cân bằng dữ liệu, tạo ra bộ trích xuất đặc trưng mạnh mẽ thông qua việc huấn luyện trước trên các tập dữ liệu khác hoặc sử dụng thuật toán tìm kiếm văn bản tương tự. Những giải pháp này không chỉ tối ưu hóa khả năng nhận diện mã độc và lỗ hổng phần mềm mà còn có tiềm năng ứng dụng rộng rãi trong các lĩnh vực xử lý ảnh, âm thanh và ngôn ngữ tự nhiên.
Như vậy, các đóng góp quan trọng về mặt khoa học của đề tài bao gồm học máy với ít dữ liệu có nhãn, điều này thường xảy ra trong các bài toán thực tế, phân tích chương trình để phát hiện lỗ hổng phần mềm hoặc phần mềm độc hại trong lĩnh vực an toàn thông tin.
Nhóm đề tài hy vọng các kết quả của đề tài tiếp tục được phát triển, mở rộng và có khả năng ứng dụng trong thực tế.
Có thể tìm đọc toàn văn báo cáo kết quả nghiên cứu (mã số 21541/2022) tại Cục Thông tin, Thống kê.
P.T.T (NASTIS)
Liên hệ
Tiếng Việt
Tiếng Anh











