Tăng cường chú thích ảnh thông qua tích hợp đồ thị tri thức và mạng R-CNN
Main Article Content
Abstract
Trong bối cảnh số hóa phát triển mạnh, chú thích ảnh tự động đóng vai trò quan trọng nhưng các mô hình truyền thống còn hạn chế trong hiểu ngữ cảnh Semantic. Nghiên cứu nhằm nâng cao độ chính xác của chú thích ảnh tự động bằng cách tích hợp đồ thị tri thức vào R-CNN. Phương pháp tiếp cận gồm xây dựng đồ thị tri thức từ ImageNet và COCO, trích xuất đặc trưng bằng CNN, đề xuất vùng bằng Selective Search, phân loại softmax, hồi quy vị trí, cùng quy trình tiền xử lý và huấn luyện với thuật toán hạ gradient ngẫu nhiên (learning rate 0,001, 50 epochs, tỉ lệ 80:20). Kết quả cho thấy mô hình đạt accuracy 96 % và IoU 0,75 trên 2 000 ảnh kiểm thử, vượt R-CNN truyền thống (85 %, IoU 0,6). Việc tích hợp đồ thị tri thức giúp giảm lỗi trong các bối cảnh phức tạp và cải thiện độ đầy đủ ngữ nghĩa. Độ phức tạp tính toán tăng khoảng 20 %, nhưng vẫn đáp ứng yêu cầu xử lý gần thời gian thực và cho hiệu suất cao hơn Fast R-CNN và YOLO. Nghiên cứu này đóng góp phần quản lý ảnh và thiết bị di động, phục vụ cho các ngành liên quan trong việc sử dụng hình ảnh.