Phân tích tình cảm đa phương thức cho tiếng Việt sử dụng mạng nơ-ron tích chập đồ thị chuẩn hóa

Đỗ Hoàng  Nam; Nguyễn Thị Phong  Dung

doi:10.55401/twhxfk02

PDF (Vietnamese)

Published: Apr 2, 2026

DOI: https://doi.org/10.55401/twhxfk02

Keywords:

Phân tích tình cảm đa phương thức, ViMACSA, mạng nơ-ron tích chập đồ thị, vision transformer, PhoBERT

Đỗ Hoàng Nam

Nguyễn Thị Phong Dung

Abstract

Phân tích tình cảm đa phương thức (Multimodal Sentiment Analysis - MSA) kết hợp thông tin từ nhiều phương thức, điển hình là văn bản và hình ảnh, nhằm nhận diện chính xác các trạng thái tình cảm của con người. Tuy nhiên, phương pháp MSA hiện nay vẫn gặp hạn chế trong việc mô hình hóa các mối quan hệ cấu trúc ngữ nghĩa phức tạp của tiếng Việt cũng như các tương quan không gian giữa các vùng đặc trưng hình ảnh. Trong nghiên cứu này, đề xuất ViMACSA-GCN, một khung công tác mới cho bài toán MSA tiếng Việt dựa trên mạng nơ-ron tích chập đồ thị. Cụ thể, đặc trưng văn bản và hình ảnh lần lượt được trích xuất bằng PhoBERT và Vision transformer (ViT). Sau đó, các đồ thị đa phương thức được xây dựng để biểu diễn mối quan hệ cấu trúc giữa các thành phần dữ liệu và được tinh chỉnh bằng mạng nơ-ron tích chập đồ thị chuẩn hóa đối xứng. Các biểu diễn đặc trưng được hợp nhất thông qua tầng tuyến tính và sử dụng bộ phân loại để dự đoán ba nhãn tình cảm: Negative, Neutral và Positive. Kết quả thực nghiệm trên tập dữ liệu ViMACSA cho thấy mô hình đạt độ chính xác 87,1 % và F1-score 72,0 %, khẳng định hiệu quả của cách tiếp cận đề xuất đối với MSA tiếng Việt.

Issue

Vol. 9 No. 2 (2026): Journal of Science and Technology - Nguyen Tat Thanh University

Section

Articles

Article Sidebar

Main Article Content

Abstract

Article Details