Đột phá theo Nghị quyết 57: Làm chủ công nghệ trích xuất thông tin phục vụ chuyển đổi số toàn diện
Đề tài “Phát triển công nghệ trích xuất thông tin từ ảnh văn bản có đa dạng bố cục, bảng biểu và chữ viết tay tiếng Việt” do kỹ sư Trần Tuấn Anh chủ nhiệm, cùng các cộng sự: Phạm Văn Linh, Trần Hoài Nam, Nguyễn Nam Quân và Nguyễn Hữu Thắng thuộc Trung tâm Dịch vụ dữ liệu và trí tuệ nhân tạo Viettel (Tập đoàn Công nghiệp Viễn thông Quân đội) thực hiện, đã đạt giải Khuyến khích Giải thưởng Sáng tạo Khoa học Công nghệ Việt Nam năm 2024. Đây là công trình tiêu biểu góp phần phát triển công nghệ lõi trong lĩnh vực xử lý ngôn ngữ tiếng Việt, phục vụ chuyển đổi số và phát triển các sản phẩm ứng dụng thực tiễn tại Việt Nam và thị trường quốc tế.
Đề tài “Phát triển công nghệ trích xuất thông tin từ ảnh văn bản có đa dạng bố cục, bảng biểu và chữ viết tay tiếng Việt” do kỹ sư Trần Tuấn Anh chủ nhiệm, cùng các cộng sự: Phạm Văn Linh, Trần Hoài Nam, Nguyễn Nam Quân và Nguyễn Hữu Thắng thuộc Trung tâm Dịch vụ dữ liệu và trí tuệ nhân tạo Viettel (Tập đoàn Công nghiệp Viễn thông Quân đội) thực hiện, đã đạt giải Khuyến khích Giải thưởng Sáng tạo Khoa học Công nghệ Việt Nam năm 2024. Đây là công trình tiêu biểu góp phần phát triển công nghệ lõi trong lĩnh vực xử lý ngôn ngữ tiếng Việt, phục vụ chuyển đổi số và phát triển các sản phẩm ứng dụng thực tiễn tại Việt Nam và thị trường quốc tế.
Công trình nghiên cứu của nhóm tác giả hướng đến xây dựng nền tảng công nghệ nhận dạng và trích xuất thông tin từ ảnh tài liệu có bố cục và định dạng phức tạp như bảng biểu, văn bản đánh máy và cả chữ viết tay tiếng Việt. Nền tảng này gồm nhiều mô-đun như nhận dạng ký tự quang học (OCR), nhận dạng bảng biểu, phân tích bố cục tài liệu và trích xuất thông tin có cấu trúc. Nhờ khả năng nhận dạng chính xác nhiều dạng tài liệu, từ mẫu biểu định sẵn đến tài liệu tự do, sản phẩm có thể phục vụ đa dạng nhu cầu trong quản lý hành chính, tài chính, ngân hàng, bảo hiểm, giáo dục và các ngành sử dụng hồ sơ giấy tờ số hóa.
Điểm nổi bật là công trình đã phát triển nền tảng có khả năng xử lý tài liệu bằng tiếng Việt với độ chính xác cao, không phụ thuộc vào các công cụ nước ngoài. Sản phẩm được thiết kế theo dạng mô đun linh hoạt, dễ tích hợp, dễ huấn luyện thêm để phục vụ các bài toán thực tế khác nhau, đặc biệt trong triển khai các hệ thống như xác thực định danh điện tử, quản lý văn bản hành chính, trích xuất dữ liệu hóa đơn, phiếu thu, chi hoặc đơn đăng ký.
Từ năm 2021 đến nay, các mô đun công nghệ đã được Viettel IDP ứng dụng trong nhiều sản phẩm và dự án cụ thể như Voffice (Quản lý văn bản), EKYC (Định danh điện tử), IPA (Tự động hóa xử lý tài liệu), mang lại giá trị doanh thu thực tiễn hàng chục tỷ đồng mỗi năm. Không dừng lại ở thị trường trong nước, công nghệ này còn được ứng dụng tại nhiều thị trường quốc tế như Haiti và Mozambique. Nhờ khả năng làm chủ từ khâu nhận dạng đến phân tích và trích xuất dữ liệu, sản phẩm cho phép tùy chỉnh theo ngôn ngữ và quy chuẩn từng địa phương, mở rộng khả năng thương mại hóa.
Sản phẩm nghiên cứu của nhóm cũng đã được trình bày tại các hội thảo quốc tế hàng đầu như DICTA2022, ICDAR2023, ECAI2024 và đoạt nhiều giải thưởng như Vietnam Digital Awards 2023, Huy chương vàng “IT World Awards 2024” tại hạng mục Giải pháp tài chính. Một phần công nghệ trong công trình đã được đăng ký sáng chế tại Cục Sở hữu trí tuệ Việt Nam với tên gọi “Phương pháp trích xuất giấy tờ định danh”.
Theo kỹ sư Trần Tuấn Anh, chủ nhiệm đề tài, công trình là kết quả của sự kiên trì nghiên cứu, thử nghiệm và cải tiến liên tục để giải quyết bài toán số hóa tài liệu phức tạp trong môi trường tiếng Việt. Việc phát triển được các mô đun lõi có độ chính xác cao đã góp phần quan trọng giúp Việt Nam từng bước làm chủ công nghệ, giảm phụ thuộc vào các giải pháp từ nước ngoài, tiết kiệm chi phí và tạo nền tảng để mở rộng hệ sinh thái dịch vụ số trong nước.
*Nghị quyết 57 mở đường cho nhà sáng chế
Chia sẻ về hành trình nghiên cứu, kỹ sư Trần Tuấn Anh và nhóm cộng sự đều nhấn mạnh vai trò quan trọng của chính sách phát triển khoa học và công nghệ, đặc biệt là Nghị quyết số 57-NQ/TW ngày 22/12/2024 của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Theo nhóm nghiên cứu, Nghị quyết số 57 đã xác lập rõ vị trí trung tâm của đội ngũ nhà khoa học và các doanh nghiệp công nghệ trong quá trình phát triển đất nước, đồng thời mở rộng không gian sáng tạo cho các nhóm nghiên cứu trẻ. "Nghị quyết 57 đã xác định rõ phát triển khoa học, công nghệ và đổi mới sáng tạo là động lực chính để nâng cao năng suất, chất lượng, hiệu quả và sức cạnh tranh quốc gia. Chính vì vậy, các nhóm nghiên cứu như chúng tôi cảm thấy có thêm niềm tin, động lực và định hướng khi triển khai các công trình mang tính thực tiễn cao” kỹ sư Trần Tuấn Anh chia sẻ.
Trong quá trình thực hiện công trình nghiên cứu, nhóm đã nhận được sự khuyến khích mạnh mẽ từ chính sách thúc đẩy nghiên cứu ứng dụng, đặc biệt là các cơ chế thử nghiệm công nghệ mới trong các doanh nghiệp lớn. Môi trường này không chỉ tạo điều kiện về kỹ thuật, tài chính mà còn là “phòng thí nghiệm thực tế” để nhanh chóng kiểm chứng, hoàn thiện và đưa sản phẩm ra thị trường.
Các thành viên khác trong nhóm cũng cho rằng, Nghị quyết số 57 cần tiếp tục được cụ thể hóa bằng các chính sách ưu đãi cho các nhóm nghiên cứu sản phẩm công nghệ lõi, đặc biệt là các công nghệ liên quan đến xử lý ngôn ngữ tiếng Việt, vốn còn ít đơn vị làm chủ. Nếu có thêm các quỹ tài trợ nghiên cứu phát triển, quỹ đầu tư ứng dụng công nghệ và các chính sách khuyến khích mua sắm công sản phẩm trong nước, sẽ tạo đòn bẩy quan trọng để sản phẩm khoa học công nghệ nội địa phát triển mạnh mẽ.
Nhóm nghiên cứu kỳ vọng, trong tương lai gần, hệ sinh thái công nghệ số “Make in Vietnam” sẽ được xây dựng hoàn chỉnh trên nền tảng các công nghệ lõi do người Việt làm chủ, từ nhận dạng văn bản, giọng nói đến xử lý dữ liệu lớn và trí tuệ nhân tạo. Công trình “Phát triển công nghệ trích xuất thông tin” chỉ là bước khởi đầu, góp phần khẳng định năng lực nghiên cứu phát triển của đội ngũ kỹ sư Việt Nam trong kỷ nguyên số./.
- Từ khóa:
- Công nghệ xử lý ngôn ngữ tiếng việt