VINIF.2020.DA14 – Nghiên cứu xây dựng hệ thống trợ giúp phát hiện tính tức giả mạo trên mạng xã hội

project manager image
Chủ nhiệm dự án
TS. Nguyễn Thị Minh Huyền & TS. Hoàng Tuấn Anh
Tổ chức chủ trì
Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội

Các tin tức giả mạo lan truyền trên mạng xã hội có thể gây ra những hậu quả nghiêm trọng về kinh tế, xã hội, và sức khỏe của người dùng internet. Việc phát hiện các tin tức giả mạo, từ đó hạn chế lan truyền và giảm thiểu thiệt hại, là nhu cầu cấp thiết và đang thu hút được sự quan tâm của nhiều ngành nghiên cứu, bao gồm cả khoa học dữ liệu, khoa học xã hội và truyền thông. Dự án này hướng tới xây dựng một hệ thống hỗ trợ người dùng trong việc xác nhận tính chân thực của các tin tức lan truyền trên mạng xã hội thông qua tự động thu thập và tổng hợp từ Internet các bằng chứng ủng hộ hay phủ nhận tin tức.

Mục tiêu nghiên cứu

Để xây dựng hệ thống nói trên, dự án cần nghiên cứu, phát triển các phương pháp học máy cho một số bài cốt lõi, bao gồm:

  • Suy diễn mối quan hệ ngữ nghĩa giữa các văn bản đa phương tiện
  • Suy diễn mối quan hệ ngữ nghĩa giữa các văn bản trong các ngôn ngữ khác nhau
  • Tóm tắt, tổng hợp các văn bản đa phương tiện và/hoặc trong đa ngôn ngữ

Tác động của dự án

  • Cho phép phát triển các hệ thống phù hợp với nhu cầu của đa dạng đối tượng người dùng nhằm tăng cường nỗ lực của cộng đồng trong việc chống lại tin tức giả mạo.
  • Thúc đẩy các nghiên cứu sâu hơn về khoa học dữ liệu và xử lý ngôn ngữ tự nhiên, đặc biệt là đối với tiếng Việt; mang lại cơ hội cho việc đào tạo, nghiên cứu và phát triển các công nghệ tiên tiến tại Việt Nam.
  • Góp phần nâng cao nhận thức về tin tức giả và thiệt hại của chúng trong cả cộng đồng nghiên cứu và toàn xã hội. Tăng cường và khuyến khích phát triển hơn nữa các nền tảng để giáo dục người dùng về trách nhiệm trong môi trường mạng Internet.
project manager image
Chủ nhiệm dự án
TS. Nguyễn Thị Minh Huyền & TS. Hoàng Tuấn Anh
Tổ chức chủ trì
Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội

Tags

Tiến độ dự kiến
01/11/2020
01/11/2021
Giai đoạn 1

– Công cụ gán nhãn chú thích ảnh vả đối sánh ngữ nghĩa của cặp câu phiên bản I
– Mỗi bộ dữ liệu trên 10.000 bản ghi
– Phiên bản thử nghiệm I của hệ thống
– Gửi đăng 01 bài báo tạp chí Q1 hoặc hội nghị hạng A

01/11/2022
Giai đoạn 2

– Bổ sung ít nhất 20.000 bản ghi cho mỗi bộ dữ liệu
– Phiên bản thử nghiệm II của hệ thống
– Gửi đăng 01 bài báo tạp chí Q1, và 01 bài báo hội nghị hạng A

01/11/2023
Giai đoạn 3

– Tiếp tục bổ sung 20.000 cho mỗi bộ dữ liệu
– Phiên bản III của hệ thống
– 03 thư viện mã nguồn mở cho các bộ truy xuất tài liệu, nhận dạng quan hệ ngữ nghĩa, và tóm tắt văn bản
– Gửi đăng 01 bài báo tạp chí hạng Q1

Tags