
Extract Text là một ứng dụng chuyên dụng, được phát triển để trích xuất nội dung văn bản từ đa dạng các loại tài liệu. Phần mềm này tận dụng công nghệ tiên tiến từ Microsoft Index Server, nhằm tạo chỉ mục cho văn bản trong file, giúp người dùng dễ dàng tìm kiếm thông tin cần thiết.

Extract Text được xây dựng dựa trên công nghệ iFilters, vốn được Microsoft Index Server sử dụng. iFilters đóng vai trò như một plugin, giúp gắn chỉ mục cho thông tin và dữ liệu bên trong file. Nhờ đó, công cụ tìm kiếm có thể nhanh chóng xác định vị trí của các dữ liệu này thông qua từ khóa.
Điểm nổi bật của Extract Text là cách sử dụng đơn giản, thông qua giao diện dòng lệnh (command line). Người dùng chỉ cần cung cấp tên file nguồn cần trích xuất và tên file đích để lưu trữ kết quả.
Trước khi tải và cài đặt, hãy đảm bảo máy tính của bạn đã cài đặt .NET Framework 4.0. Extract Text không yêu cầu quy trình cài đặt phức tạp; bạn chỉ cần giải nén file tải về và sao chép vào thư mục mong muốn.
Để trích xuất văn bản từ file PDF, bạn cần có bộ lọc PDF Filter DLL, thường có sẵn trong Adobe Reader phiên bản 7.0.5 đến 9. Từ Adobe Reader 10 trở lên, bộ lọc này không còn được tích hợp sẵn, nhưng bạn vẫn có thể tải về bộ lọc Adobe iFilter riêng biệt.
Đối với các file từ Microsoft Office , bạn cần cài đặt các gói Filter Pack do Microsoft cung cấp. Các gói này cho phép trích xuất văn bản từ nhiều định dạng như DOCX, DOCM, PPTX, PPTM, XLSX, XLSM, XLSB, ZIP, ONE, VDX, VSD, VSS, VST, VSX và VTX.
Extract Text được cung cấp hoàn toàn miễn phí cho người dùng. Phiên bản mới nhất hỗ trợ cả bộ lọc 32-bit và 64-bit, đồng thời sử dụng .NET Framework 4.0 thay vì phiên bản 2.0 trước đây.
1 nhận xét

