Phân tích tình cảm đa phương thức cho tiếng Việt sử dụng mạng nơ-ron tích chập đồ thị chuẩn hóa
Main Article Content
Abstract
Phân tích tình cảm đa phương thức (Multimodal Sentiment Analysis - MSA) kết hợp thông tin từ nhiều phương thức, điển hình là văn bản và hình ảnh, nhằm nhận diện chính xác các trạng thái tình cảm của con người. Tuy nhiên, phương pháp MSA hiện nay vẫn gặp hạn chế trong việc mô hình hóa các mối quan hệ cấu trúc ngữ nghĩa phức tạp của tiếng Việt cũng như các tương quan không gian giữa các vùng đặc trưng hình ảnh. Trong nghiên cứu này, đề xuất ViMACSA-GCN, một khung công tác mới cho bài toán MSA tiếng Việt dựa trên mạng nơ-ron tích chập đồ thị. Cụ thể, đặc trưng văn bản và hình ảnh lần lượt được trích xuất bằng PhoBERT và Vision transformer (ViT). Sau đó, các đồ thị đa phương thức được xây dựng để biểu diễn mối quan hệ cấu trúc giữa các thành phần dữ liệu và được tinh chỉnh bằng mạng nơ-ron tích chập đồ thị chuẩn hóa đối xứng. Các biểu diễn đặc trưng được hợp nhất thông qua tầng tuyến tính và sử dụng bộ phân loại để dự đoán ba nhãn tình cảm: Negative, Neutral và Positive. Kết quả thực nghiệm trên tập dữ liệu ViMACSA cho thấy mô hình đạt độ chính xác 87,1 % và F1-score 72,0 %, khẳng định hiệu quả của cách tiếp cận đề xuất đối với MSA tiếng Việt.