Meta hợp tác xây dựng bộ dữ liệu tiếng Việt mã nguồn mở để phát triển AI tại Việt Nam

Ánh Huyền -

17 Tháng Ba 2025 | 16:59:27

(VOV5) - Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở từ chương trình Al và dữ liệu vì lợi ích cộng đồng.

Tập đoàn Meta vừa phối hợp cùng Trung tâm Đổi mới sáng tạo Quốc gia (NIC), Bộ Tài chính, vừa công bố dự án ViGen, nhằm tạo bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao, nhằm nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển Al, đồng thời góp phần thúc đẩy nền kinh tế số phát triển vượt bậc và bền vững.

Meta hợp tác xây dựng bộ dữ liệu tiếng Việt mã nguồn mở để phát triển AI tại Việt Nam - ảnh 1

Quang cảnh sự kiện - Ảnh: chinhphu.vn

Tại lễ khởi động dự án hôm 14/3 vừa qua tại Hà Nội, ông Sarim Aziz, Giám đốc Chính sách Công tại Meta, cho biết: "Sáng kiến này nhằm nâng cao hiệu suất và việc áp dụng công nghệ AI tại Việt Nam. Chúng tôi đảm bảo quyền truy cập miễn phí và dễ dàng cho các nhà nghiên cứu tại Việt Nam, các nhà phát triển, công ty khởi nghiệp và doanh nghiệp cũng như những đối tác trên thế giới muốn hợp tác với Việt Nam. Quan trọng hơn, nền tảng dữ liệu này sẽ không chỉ thúc đẩy nghiên cứu tại Việt Nam mà còn thúc đẩy sự đổi mới trong cả khu vực tư nhân, đưa Việt Nam vào kỷ nguyên mới đổi mới sáng tạo".

Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở từ chương trình Al và dữ liệu vì lợi ích cộng đồng của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của Al.

Hiện, hơn 99% dữ liệu cho AI hiện tại là bằng tiếng Anh và các ngôn ngữ khác, chỉ có chưa đầy 1% các dữ liệu AI là bằng tiếng Việt Nam. Do đó, các mô hình AI về Việt Nam hiện chưa được huấn luyện bằng các tệp dữ liệu phù hợp, khiến tính chính xác và hiệu quả còn hạn chế. Việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo, đánh giá AI đã trở thành ưu tiên cấp bách. Có bộ dữ liệu tiếng Việt giúp Việt Nam tận dụng thế mạnh của AI trong phát triển.

Ánh Huyền