Logo
VietOCR 6.8.0: Chuyển đổi ảnh thành văn bản chính xác

VietOCR 6.8.0: Chuyển đổi ảnh thành văn bản chính xác

Nhà phát hànhQuan Nguyen
Yêu cầuWindows NT/2000/2003/XP/Vista/7/8/8.1/10
Dung lượng22,7 MB
Lượt tải41
Giới Thiệu Chi Tiết

VietOCR – Giải Pháp Nhận Diện Ký Tự Quang Học Mã Nguồn Mở

VietOCR là phần mềm mã nguồn mở, được phát triển bởi các chuyên gia người Việt, chuyên dùng để nhận diện ký tự từ nhiều định dạng ảnh phổ biến.

Chương trình cung cấp chế độ quét được tích hợp sẵn, cùng với các công cụ xử lý hậu kỳ. Những công cụ này giúp cải thiện độ chính xác của bản nhận dạng, sửa chữa các sai sót về ngữ nghĩa và chính tả sau quá trình xử lý.

Ứng Dụng và Tính Năng

VietOCR hoạt động như một ứng dụng nhận diện ký tự quang học (OCR) độc lập, cho phép người dùng xử lý nhanh chóng các tập tin ảnh và dữ liệu hiện có.

Bên cạnh đó, phần mềm còn tương thích với chức năng quét, hỗ trợ xử lý tài liệu được nhập từ các nguồn bên ngoài một cách dễ dàng.

Giao diện chính của VietOCR
Giao diện chính của VietOCR

Những tính năng nổi bật của phần mềm VietOCR

  • Phần mềm tương thích với mọi ngôn ngữ do Tesseract cung cấp.
  • Quá trình tải xuống và cài đặt các gói ngôn ngữ được thực hiện tự động.
  • VietOCR hỗ trợ nhiều định dạng ảnh khác nhau như PDF , TIFF, JPEG, GIF, PNG, BMP.
  • Dung lượng của file đầu vào không bị giới hạn.
  • Người dùng có thể dễ dàng dán hình ảnh từ Clipboard vào phần mềm.
  • Chức năng kéo và thả file được tích hợp để thuận tiện cho việc sử dụng.
  • Phần mềm cho phép chuyển đổi nhiều file cùng lúc.
  • VietOCR cung cấp chế độ quét tích hợp, hỗ trợ tối đa cho người dùng.
  • Công cụ kiểm tra chính tả giúp đảm bảo độ chính xác của văn bản sau khi chuyển đổi.

Giao diện chỉnh sửa
Giao diện chỉnh sửa

Quá trình chuyển đổi ký tự từ ảnh sang văn bản sẽ giúp người dùng giảm thiểu công việc nhập liệu thủ công, qua đó tiết kiệm đáng kể thời gian và công sức.

Việc này đặc biệt hữu ích khi làm việc với các tài liệu chứa nhiều hình ảnh hoặc bản scan.

Cách sử dụng phần mềm nhận dạng chữ viết VietOCR

Nhận dạng tài liệu ảnh

Thông thường, sau khi quét một tài liệu văn bản, file thường được lưu dưới dạng ảnh và không thể chỉnh sửa nội dung như ban đầu. VietOCR có chức năng chuyển đổi các tài liệu ảnh này sang văn bản, giúp bạn dễ dàng xử lý hơn. Phần mềm hỗ trợ nhiều định dạng ảnh phổ biến như: jpg, bmp, png, tiff, nhưng không tương thích với định dạng gif.

Để bắt đầu sử dụng, bạn cần cài đặt gói Visual C++ 2008 SP1 (nếu chưa có) rồi mở menu File > Open. Trong phần File of types, chọn All Image Files và chọn file văn bản cần xử lý. Sau đó, nhấn nút Open để xác nhận.

Trên giao diện chính, bạn sẽ thấy hai khu vực. Khu vực bên trái hiển thị nội dung của file ảnh vừa chọn, còn khu vực bên phải sẽ hiển thị tài liệu sau khi trích xuất. Sau khi nội dung được tải, hãy chọn ngôn ngữ OCR Language (ở góc trên bên phải màn hình) và chọn Vietnamese. Tiếp theo, nhấn nút OCR để bắt đầu quá trình biên dịch. Tốc độ xử lý phụ thuộc vào độ dài của văn bản và hiệu năng máy tính.

Sau khi biên dịch hoàn tất, bạn sẽ có dữ liệu dạng text, có thể chỉnh sửa dễ dàng. Một ưu điểm nổi bật của VietOCR là khả năng tích hợp Bộ gõ Tiếng Việt (dựa trên bộ gõ UniKey ), giúp bạn thay đổi nội dung văn bản có dấu mà không cần cài đặt Unikey riêng.

Để thiết lập bộ gõ trong VietOCR, bạn vào menu và chọn một trong các kiểu gõ: VNI, Telex, VIQR. Font mặc định là Unicode , được tích hợp sẵn trong phần mềm.

Nếu bạn chỉ muốn nhận dạng một vùng cụ thể, hãy giữ chuột trái và kéo để chọn vùng văn bản cần trích xuất. Chỉ nội dung trong vùng chọn sẽ được hiển thị ở khung bên phải. Để xử lý tài liệu nhiều trang, bạn vào menu Command > OCR All Pages.

Để kiểm tra khả năng nhận diện văn bản của chương trình với các định dạng khác nhau, tôi đã sử dụng thư viện mẫu văn bản có sẵn (C:\Program Files\VietUnicode\VietOCR.NET\samples) và lưu chúng thành các định dạng PNG, JPG và BMP (256 bit) từ file gốc .TIFF bằng MS Paint của Windows.

Kết quả cho thấy, chương trình nhận dạng văn bản khá chính xác trong cả ba trường hợp. Tuy nhiên, vẫn còn một số dấu câu và từ sai chính tả, nhưng mức độ chính xác so với bản gốc là khá tốt.

Cài đặt máy quét

Nếu bạn muốn xử lý tài liệu trực tiếp từ máy quét, bạn cần cài đặt thêm máy quét. Để thực hiện việc này, hãy tìm và sao chép file WIAAut.dll (C:\Program Files\VietUnicode\VietOCR.NET) vào thư mục C:\Windows\System32.

Sau đó, mở Start > Run, gõ lệnh regsvr32 C:\Windows\System32\WIAAut.dll để đăng ký thư viện này với Windows. Sau khi đăng ký thành công, hãy cài driver cho máy quét và bắt đầu xử lý văn bản như hướng dẫn trước đó.

Trong quá trình biên dịch, bạn có thể gặp thông báo lỗi Attemp to read or write protected memory. Nguyên nhân có thể do văn bản bị định sai hướng. Hãy nhấn nút Rotate vài lần để điều chỉnh hướng cho đúng.

Nếu bạn không có máy quét, bạn có thể tải tiện ích ImagePrinter để chuyển đổi bất kỳ tài liệu nào sang các định dạng bmp, png, tiff, jpg được hỗ trợ. Để thay đổi giao diện chương trình sang tiếng Việt, bạn vào menu Settings > User Interface Language và chọn Vietnamese.

Tương tự như quá trình nhận dạng tài liệu ảnh, tài liệu quét sẽ được chia thành hai dạng: văn bản thuần và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch diễn ra tương tự. Kết quả cho thấy chương trình nhận dạng tốt với văn bản thuần, nhưng gặp lỗi OCR Operation với tài liệu có hình ảnh. Điều này cũng xảy ra với các định dạng khác.

Để đảm bảo độ chính xác cao nhất, độ phân giải của bản quét nên đạt 300dpi, hình ảnh rõ nét và không bị mờ.

Xử lý tài liệu PDF

Ngoài khả năng nhận dạng ảnh, VietOCR còn có thể xử lý các tài liệu PDF. Để sử dụng tính năng này, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài đặt xong, bạn thực hiện các bước tương tự như xử lý tài liệu ảnh (với tài liệu PDF có hình ảnh, kết quả có thể gặp lỗi tương tự).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác cao và tương thích với nhiều định dạng ảnh khác nhau (đặc biệt với văn bản thuần). Bạn có thể sử dụng văn bản sau khi xử lý cho công việc mà không cần chỉnh sửa nhiều.

Câu hỏi thường gặp

VietOCR là gì?
VietOCR là phần mềm mã nguồn mở do người Việt Nam phát triển, chuyên dùng để nhận diện ký tự từ ảnh. Chương trình hỗ trợ quét tích hợp và các công cụ xử lý hậu kỳ giúp cải thiện độ chính xác về ngữ nghĩa và chính tả.
VietOCR có thể xử lý những định dạng ảnh nào?
VietOCR hỗ trợ các định dạng ảnh phổ biến như PDF, TIFF, JPEG, GIF, PNG và BMP. Bạn có thể sử dụng các định dạng này để chuyển đổi ảnh thành văn bản với VietOCR.
Tôi có thể sử dụng VietOCR để nhận dạng văn bản trong ảnh như thế nào?
Trước tiên, hãy đảm bảo bạn đã cài đặt Visual C++ 2008 SP1. Sau đó, mở VietOCR, chọn File > Open, chọn loại file ảnh và mở ảnh cần xử lý, chọn ngôn ngữ Vietnamese rồi nhấn OCR để bắt đầu quá trình nhận dạng.
VietOCR có khả năng nhận dạng ký tự tiếng Việt không?
Có, VietOCR hỗ trợ nhận dạng tiếng Việt và tích hợp bộ gõ Tiếng Việt phổ biến UniKey với các kiểu gõ VNI, Telex, VIQR.
Làm thế nào để chọn một vùng cụ thể trên ảnh để VietOCR nhận dạng?
Bạn có thể giữ chuột trái và kéo để chọn vùng văn bản mong muốn trên ảnh. Nội dung trong vùng chọn sẽ được hiển thị và chuyển đổi sang văn bản ở khung bên phải.
VietOCR có thể xử lý tài liệu gồm nhiều trang không?
Có, VietOCR hỗ trợ xử lý nhiều trang bằng cách vào menu Command và chọn OCR All Pages.
Cách cài đặt máy quét để sử dụng với VietOCR là gì?
Bạn cần sao chép file WIAAut.dll vào thư mục C:\Windows\System32 và đăng ký file này bằng lệnh regsvr32 thông qua cửa sổ Run. Sau đó, hãy cài đặt driver phù hợp cho máy quét của bạn.
Làm thế nào để khắc phục lỗi 'Attempt to read or write protected memory' khi sử dụng VietOCR?
Lỗi này thường xảy ra do văn bản bị lệch hướng. Bạn có thể thử nhấn nút 'Rotate' nhiều lần để điều chỉnh lại hướng của văn bản cho phù hợp.
Tôi có bắt buộc phải sử dụng máy quét để dùng VietOCR không?
Không, bạn có thể sử dụng tiện ích ImagePrinter để chuyển đổi tài liệu thành các định dạng ảnh như bmp, png, tiff, jpg và sau đó xử lý bằng VietOCR.
VietOCR có thể xử lý được các tài liệu PDF không?
Có, VietOCR hỗ trợ xử lý tài liệu PDF. Tuy nhiên, bạn cần cài đặt thêm gói GPL GhostScript 8.7 để sử dụng tính năng này.
Để VietOCR nhận dạng chính xác, độ phân giải khi quét tài liệu nên là bao nhiêu?
Để VietOCR hoạt động hiệu quả, bạn nên quét tài liệu với độ phân giải 300dpi trở lên. Hình ảnh cần rõ nét, không bị mờ để đảm bảo độ chính xác cao nhất trong quá trình nhận dạng.
Tôi có thể thay đổi ngôn ngữ hiển thị của VietOCR thành tiếng Việt như thế nào?
Bạn có thể thay đổi ngôn ngữ giao diện bằng cách vào menu Settings, chọn User Interface Language và chọn Vietnamese.
Phần mềm VietOCR có giới hạn về dung lượng file đầu vào không?
VietOCR không giới hạn dung lượng file xử lý, bạn có thể thoải mái sử dụng với các tài liệu có dung lượng lớn.
Từ khóa liên quan

Đánh giá từ người dùng

ID: VietOCR 6.8.0: Chuyển đổi ảnh thành văn bản chính xác
5.0

24 nhận xét

5
100%
4
0%
3
0%
2
0%
1
0%

Tải xuống tập tin

Link Chính Thức (Tốc độ cao)

Hoặc

Link Dự Phòng (Mirror)