VINIF.2020.DA14 – Nghiên cứu xây dựng hệ thống trợ giúp phát hiện tính tức giả mạo trên mạng xã hội

Chủ nhiệm dự án
TS. Nguyễn Thị Minh Huyền & TS. Hoàng Tuấn Anh
Tổ chức chủ trì
Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội

Các tin tức giả mạo lan truyền trên mạng xã hội có thể gây ra những hậu quả nghiêm trọng về kinh tế, xã hội, và sức khỏe của người dùng internet. Việc phát hiện các tin tức giả mạo, từ đó hạn chế lan truyền và giảm thiểu thiệt hại, là nhu cầu cấp thiết và đang thu hút được sự quan tâm của nhiều ngành nghiên cứu, bao gồm cả khoa học dữ liệu, khoa học xã hội và truyền thông. Dự án này hướng tới xây dựng một hệ thống hỗ trợ người dùng trong việc xác nhận tính chân thực của các tin tức lan truyền trên mạng xã hội thông qua tự động thu thập và tổng hợp từ Internet các bằng chứng ủng hộ hay phủ nhận tin tức.

Mục tiêu nghiên cứu

Để xây dựng hệ thống nói trên, dự án cần nghiên cứu, phát triển các phương pháp học máy cho một số bài cốt lõi, bao gồm:

  • Suy diễn mối quan hệ ngữ nghĩa giữa các văn bản đa phương tiện
  • Suy diễn mối quan hệ ngữ nghĩa giữa các văn bản trong các ngôn ngữ khác nhau
  • Tóm tắt, tổng hợp các văn bản đa phương tiện và/hoặc trong đa ngôn ngữ

Tác động của dự án

  • Cho phép phát triển các hệ thống phù hợp với nhu cầu của đa dạng đối tượng người dùng nhằm tăng cường nỗ lực của cộng đồng trong việc chống lại tin tức giả mạo.
  • Thúc đẩy các nghiên cứu sâu hơn về khoa học dữ liệu và xử lý ngôn ngữ tự nhiên, đặc biệt là đối với tiếng Việt; mang lại cơ hội cho việc đào tạo, nghiên cứu và phát triển các công nghệ tiên tiến tại Việt Nam.
  • Góp phần nâng cao nhận thức về tin tức giả và thiệt hại của chúng trong cả cộng đồng nghiên cứu và toàn xã hội. Tăng cường và khuyến khích phát triển hơn nữa các nền tảng để giáo dục người dùng về trách nhiệm trong môi trường mạng Internet.
Chủ nhiệm dự án
TS. Nguyễn Thị Minh Huyền & TS. Hoàng Tuấn Anh
Tổ chức chủ trì
Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội

Tags

Tiến độ dự kiến
01/11/2020
01/11/2021
Giai đoạn 1

– Phiên bản đầu tiên của các bộ công cụ gán nhãn chú thích ảnh vả đối sánh ngữ nghĩa của cặp câu
– Bộ dữ liệu với ít nhất 10.000 bản ghi mỗi bộ
– Phiên bản thử nghiệm đầu điên của hệ thống hỗ trợ phát hiện tin tức giả mạo trên mạng xã hội
– Gửi đăng 01 bài báo hội nghị hạng A.

01/11/2022
Giai đoạn 2

– Bổ sung ít nhất 20.000 bản nghi cho mỗi bộ dữ liệu
– Phiên bản thử nghiệm thứ hai của hệ thống hỗ trợ phát hiện tin tức giả mạo trên mạng xã hội
– Được nhận đăng 01 bài báo hội nghị hạng A
– Gửi đăng 01 bài báo tạp chí Q1, và 01 bài báo hội nghị hạng A
– 01 báo cáo giai đoạn 2.

01/11/2023
Giai đoạn 3

– Tiếp tục bổ sung ít nhất 20.000 bản ghi cho mỗi bộ dữ liệu thu được sau giai đoạn 2
– Phiên bản thứ ba của hệ thống
– 01 thư viện mã nguồn mở cho bài toán truy xuất tài liệu liên quan đến một bài đăng trên mạng xã hội, sử dụng các công cụ tìm kiếm trên mạng internet;  độ chính xác tối thiểu  90% trên tập dữ liệu thử nghiệm 100 bài đăng
– 01 thư viện mã nguồn mở cho bài toán suy diễn ràng buộc ngữ nghĩa dữ hai tài liệu; độ chính xác tối thiểu 90% trên tập dữ liệu thử nghiệm 1000 cặp câu; và tối thiểu 70% trên tập dữ liệu thử nghiệm 1000 cặp văn bản
– 01 thư viện mã nguồn mở cho bài toán tóm tắt các văn bản thuộc cùng chủ đề; tiết kiệm ít nhất 90% thời gian so với tóm tắt văn bản thủ công
– Được nhận đăng 02 bài tạp chí hạng Q1 và 01 bài báo hội nghị hạng A.