VINIF.2021.DA00031 – Giải pháp học máy tái tạo động lực học phân tử với độ phân giải dưới femto giây từ phổ phát xạ điều hòa bậc cao và phổ nhiễu xạ electron sử dụng xung laser cực ngắn.

Chủ nhiệm dự án
GS. TSKH. Lê Văn Hoàng & PGS.TS. Phan Thị Ngọc Loan
Tổ chức chủ trì
Trường Đại học Sư phạm Thành phố Hồ Chí Minh

Mục tiêu của dự án là xây dựng giải pháp ứng dụng học máy để trích xuất thông tin về cấu trúc phân tử với độ phân giải dưới femto giây từ phổ phát xạ điều hòa bậc cao và phổ nhiễu xạ electron, từ đó tái tạo các quá trình động lực học của phân tử trong thời gian thực. Trong dự án này chúng tôi nghiên cứu các quá trình hóa sinh phổ biến nhưng còn ít thông tin như sự phân ly và sự hoán chuyển tautomer giữa các base của DNA. Cần nhấn mạnh là các nghiên cứu hiện tại về tái tạo động lực học phân tử cực nhanh chủ yếu đang ở trạng thái chứng minh nguyên lý và chưa áp dụng cho các phân tử phức tạp. Khó khăn lớn nhất là khối lượng dữ liệu khổng lồ mà các giải thuật tối ưu truyền thống không xử lý được. Do vậy, chúng tôi áp dụng học máy để xây dựng giải pháp tái tạo động lực học cho các quá trình hóa sinh này.

Những nội dung chính của dự án

  • Mô phỏng dữ liệu HHG/LIED của phân tử phức tạp, trong đó có tính đến các hiệu ứng vĩ mô như phân bố định phương. Bộ dữ liệu này được mô phỏng cho mỗi vị trí trên đường phản ứng hóa học và được xem như là số liệu “thực nghiệm” dùng để kiểm chứng chương trình dựng phim. Khi sử dụng cho trường hợp cụ thể thì dữ liệu đầu vào là phổ HHG/LIED thu được từ thực nghiệm, khi không biết tham số động cấu trúc phân tử.
  • Dùng giải thuật học máy xây dựng trong vấn đề III của nội dung trước để tách ra dữ liệu đơn phân tử (định phương lý tưởng) từ phổ HHG/LIED thực nghiệm (phân tử định phương không hoàn toàn).
  • Từ đây sử dụng giải pháp từ vấn đề II của nội dung trước để tái tạo thông tin cấu trúc từ HHG/LIED của đơn phân tử. Các số liệu này thu được theo thời gian đo. Thời gian trên đường phản ứng hóa học là độ trễ giữa xung laser kích phân tử lên trạng thái kích thích và xung laser tạo ra ion hóa và dẫn đến HHG/LIED. Kết quả thu được là cấu hình phân tử tức thời trong quá trình phân ly hoặc đồng phân hóa.
  • Từ tập hợp các số liệu trên, sử dụng chương trình để tạo phim là một quá trình động lực học. Các phép đo HHG/LIED có độ phân giải thời gian vài femto giây hay ngắn hơn phụ thuộc vào thông số laser kích trong thực nghiệm.

Tác động của dự án

  • Nghiên cứu này là cầu nối giữa nghiên cứu lý thuyết và ứng dụng, cụ thể, cung cấp các giải pháp, phần mềm để các nhà thực nghiệm dựng được các đoạn phim phân tử mô tả quá trình phân ly và đồng phân của phân tử phức tạp với độ phân giải không gian và thời gian cao.
  • Với tầm nhìn xa, các kết quả trong dự án góp phần vào xây dựng nền tảng cho việc chế tạo các kính hiển vi bốn chiều thế hệ mới, phục vụ nghiên cứu trong khoa học, đặc biệt trong vật lý, hóa học và sinh học.
  • Dự án giúp đào tạo các nhà khoa học trẻ, tiếp cận nghiên cứu các vấn đề nghiên cứu thời sự trên thế giới. Dự án có sự tham gia của nghiên cứu sinh, học viên cao học và sinh viên.
  • Dự án này cũng sẽ giúp cho nhóm chúng tôi phát triển quan hệ với các nhóm nghiên cứu thực nghiệm ở các đại học tiên tiến, học hỏi các kỹ thuật và công nghệ mới.
Chủ nhiệm dự án
GS. TSKH. Lê Văn Hoàng & PGS.TS. Phan Thị Ngọc Loan
Tổ chức chủ trì
Trường Đại học Sư phạm Thành phố Hồ Chí Minh

Tags

Tiến độ dự kiến
15/11/2021
01/11/2022
Giai đoạn 1

– Bộ dữ liệu dạng file ASCII cho HHG/LIED từ phân tử với các cấu hình khác nhau, tương tác với xung laser có các thông số khác nhau (5.000 – 10.000 datapoint cho trường hợp định phương và định hướng hoàn toàn và 5.000 – 10.000 datapoint cho trường hợp định phương không hoàn toàn)
– Phát triển mô hình ML để dự đoán được HHG/LIED.
– Phát triển mô hình ML cho bài toán ngược, để trích xuất thông tin cấu trúc phân tử từ phổ HHG/LIED: Một phần mã nguồn số 1.
– Bản thảo bài báo ISI số 1 được chấp nhận đăng.

01/11/2023
Giai đoạn 2

– Bộ dữ liệu dạng file ASCII cho HHG/LIED (5.000 – 10.000 datapoint cho trường hợp định phương và định hướng không hoàn toàn; 5.000 – 10.000 datapoint HHG/LIED phát ra trong quá trình phân ly của phân tử; 5.000 – 10.000 datapoint HHG/LIED phát ra trong quá trình đồng phân hóa của phân tử)
– Phát triển mô hình ML để huấn luyện từ bộ dữ liệu đầu vào.
– Trích xuất thông tin phân bố định phương, phân bố định hướng và cấu trúc phân tử từ phổ HHG/LIED: Một phần mã nguồn số 1.
– Bản thảo bài báo ISI số 2, số 3 được chấp nhận đăng.

15/11/2024
Giai đoạn 3

– Cải tiến ảnh orbital lớp ngoài cùng của phân tử bằng các thuật toán ML.
– Phát triển mô hình ML để thu được thông tin cấu trúc của một phân tử từ dữ liệu HHG/LIED: Hoàn thiện mã nguồn số 1.
– Phát triển mô hình ML để theo dõi quá trình phân ly của phân tử từ dữ liệu HHG/LIED: Một phần mã nguồn số 2.
– Phát triển mô hình ML để theo dõi quá trình đồng phân hóa của phân tử từ dữ liệu HHG/LIED: Hoàn thiện mã nguồn số 2.
– Bản thảo bài báo ISI số 4, số 5, số 6 được chấp nhận đăng.