Linh hoạt mô hình OCR cho dạng văn bản cấu trúc phức tạp

Chủ động xây dựng bộ công nghệ lõi sau đó điều chỉnh mô hình phù hợp với từng bài toán của khách hàng, Trung tâm Không gian mạng đã giải quyết những vấn đề nan giải trong việc tối ưu chi phí huấn luyện dữ liệu, nhân sự; tăng cường cải thiện chất lượng và độ chính xác kết quả đầu ra.

Trong thời đại số hóa, việc lưu trữ, chỉnh sửa, lập chỉ mục và tìm kiếm thông tin trong tài liệu kỹ thuật số dễ dàng hơn nhiều so với việc dành hàng giờ để cuộn qua các tài liệu được in / viết tay / đánh máy trước đây. Và hơn nữa, việc tìm kiếm thứ gì đó trong một tài liệu phi kỹ thuật số lớn không chỉ tốn thời gian mà còn có khả năng chúng ta bỏ lỡ thông tin trong khi cuộn tài liệu theo cách thủ công. May mắn cho chúng ta, máy tính đang trở nên tốt hơn mỗi ngày khi thực hiện các nhiệm vụ mà con người nghĩ rằng chỉ mình mới có thể làm.

Trích xuất văn bản từ hình ảnh có rất nhiều ứng dụng thực tế

Một số ứng dụng là nhận dạng hộ chiếu, nhận dạng biển số tự động, chuyển đổi văn bản viết tay thành văn bản kỹ thuật số, chuyển đổi văn bản đánh máy sang văn bản kỹ thuật số, v.v.

Tuy nhiên, trong giai đoạn nghiên cứu mô hình cho các bài toán, nhóm OCR đã gặp phải một vấn đề: Mô hình đặc thù cho một bài toán không thể giải quyết các bài toán khác. Điều này dẫn đến việc với mỗi bài toán mới, nhóm OCR sẽ cần gán nhãn dữ liệu, điều chỉnh mô hình và huấn luyện mô hình lại. Một chuỗi các hoạt động dẫn đến phát sinh chi phí, nhân lực và tốn thời gian. Thực tế, khi bàn giao mô hình cho khách hàng, độ chính xác của mô hình sẽ thay đổi rất nhiều khi khách hàng thay đổi tập dữ liệu.

Bằng sự linh hoạt và kinh nghiệm thực tế, nhóm OCR đã tiến hành xây dựng bộ công nghệ lõi cho OCR. Mục tiêu chung là xây dựng được một bộ công nghệ lõi có thể đáp ứng được cơ bản các nội dung OCR (độ chính xác cao ~ 80-85%), làm nền tảng cho các sản phẩm cụ thể. Nền tảng này là thành phần quan trọng để xây dựng những sản phẩm như bộ nhận dạng và trích xuất thông tin từ ảnh tài liệu, tạp chí, báo chí, văn bản hành chính, các tài liệu, hoặc các loại tài liệu cá nhân như chứng minh nhân dân (CMND), căn cước công dân (CCCD), bằng lái xe (BLX).

Hình 1: Danh sách các loại tài liệu có thể ứng dụng công nghệ OCR

Các nội dung cần nghiên cứu khi xây dựng bộ công nghệ lõi bao gồm:

Lựa chọn dữ liệu huấn luyện.
Tổng quát hóa và đảm bảo sự cân bằng trong dữ liệu huấn luyện.
Xây dựng mô hình sinh dữ liệu ngẫu nhiên từ cơ sở dữ liệu đang có.
Xây dựng mô hình trích xuất dòng văn bản.
Xây dựng mô hình nhận dạng các đối tượng trong văn bản.
Xây dựng mô hình cải tiến chất lượng ảnh đầu vào, tiền xử lý và hậu xử lý.

Bộ công nghệ lõi cho bài toán OCR không phụ thuộc vào layout, có thể giải quyết bài toán từ những ảnh tài liệu có bố cục ngẫu nhiên như tạp chí, báo giấy, tới các loại thẻ có khuôn mẫu như CMND/CCCD… Do đó có thể dễ dàng chỉnh sửa và áp dụng vào các dạng bài toán khác nhau sau này. Điều này sẽ giúp ích rất nhiều cho quá trình phát triển và ứng dụng của các bài toán OCR, thay vì phải xây lại từ đầu các platform/ nội dung, chúng ta có thể trích xuất từ bộ lõi công nghệ và tinh chỉnh tương ứng.

Từ mô hình lõi có độ chính xác 80-85%, các mô hình tuỳ chỉnh theo các bài toán đạt được độ chính xác rất cao, đáp ứng yêu cầu của khách hàng, tăng khả năng cạnh tranh với các đối thủ trong và ngoài nước.

Giấy tờ tuỳ thân

Trường	Độ chính xác
CMND/CCCD	BLX	Hộ chiếu
Số giấy tờ	98.37%	97.00%	96.02%
Ngày sinh	98.28%	96.60%	95.50%
Tên	98.89%	96.05%	94.00%
Địa chỉ	99.74%	93.00%	93.35%
Ngày cấp	98.05%	95.50%	95.40%

Văn bản hành chính

	Trích yếu nội dung văn bản	Số ký hiệu văn bản	Cơ quan gửi	Người ký	Ngày văn bản
Độ chính xác	98,30%	98,74%	99,63%	95,52%	95,87%