Trong khuôn khổ Ngày hội Đổi mới sáng tạo Quốc gia 2025, hội thảo “Tham vấn về xây dựng bộ dữ liệu mở cho tiếng Việt phục vụ nghiên cứu và ứng dụng trí tuệ nhân tạo” đã diễn ra với sự tham gia của NIC, Meta, AI for Vietnam cùng nhiều chuyên gia và doanh nghiệp công nghệ.
Tại sự kiện, ViGen ra mắt phiên bản thử nghiệm – cột mốc quan trọng cho hệ sinh thái AI Việt Nam, đánh dấu bước tiến lớn trong hành trình xây dựng nền tảng dữ liệu mở tiếng Việt phục vụ nghiên cứu và phát triển AI.
3 kết quả nổi bật được công bố trong giai đoạn đầu:
🔹 Vi-Primer 1.0 - bộ dữ liệu tiền huấn luyện tiếng Việt lớn nhất từ trước đến nay (50 tỷ token), phát hành theo giấy phép mở để mọi nhà nghiên cứu, doanh nghiệp và cộng đồng đều có thể khai thác.
🔹 Bộ 5 khung đánh giá chuyên sâu với 10.020 mẫu, giúp đo lường toàn diện năng lực của các mô hình AI tiếng Việt ở nhiều khía cạnh: ngôn ngữ, kiến thức, tư duy, phản hồi và ứng dụng thực tế.
🔹 Nền tảng ViGen thử nghiệm - một không gian cộng tác mở, nơi các bên có thể cùng đóng góp dữ liệu, huấn luyện, kiểm thử và đánh giá mô hình AI, thúc đẩy sự minh bạch và cộng hưởng tri thức.
Sự kiện ra mắt ViGen không chỉ là một cột mốc công nghệ quan trọng mà còn là lời kêu gọi cộng đồng AI Việt Nam cùng chung tay xây dựng hệ sinh thái AI mở, bền vững và mang bản sắc Việt Nam.