OCR-Konverter
Der OCR-Konverter (IQ-Modul: OCRKonverter) erkennt Text in Bilddateien oder in nicht durchsuchbaren PDF-Dateien und wandelt diese in gewünschte Zielformate um. Der OCR-Konverter funktioniert aktuell für die deutsche Sprache.
Wird typischerweise verwendet von:
- Volltext-Indizierung
- Nutzung der Texterkennungs-Funktion des Moduls Schriftgut-Scanner (siehe separate Dokumentation).
Folgende Dateiformate werden als Quellformat unterstützt:
- TIF, TIFF
- BMP
- JPG, JPEG
- PCX
- PNG
- PDF (nicht durchsuchbar)
- DOC, DOCX
- XLS, XLSX
- PPT, PPTX
- TXT
Zielformate:
- PDF ("PDF-TEXT", enthält die Bilddatei in Originalqualität und den erkannten Text als separaten, durchsuchbaren Text-Layer)
- TXT