Warum erkennt Okular Text in gescannten PDFs nicht und erlaubt keine Textmarkierungen?

Melden
  1. Grundlegender Unterschied zwischen gescannten PDFs und durchsuchbaren PDFs
  2. TEXTERKENNUNG (OCR) als Voraussetzung für Textsuche und Markierung
  3. Auswirkungen auf die Funktionalität von Okular
  4. Was kann man tun, wenn man mit gescannten PDFs arbeiten möchte?
  5. Zusammenfassung

Grundlegender Unterschied zwischen gescannten PDFs und durchsuchbaren PDFs

Gescannte PDFs bestehen in der Regel aus Bilddateien, welche direkt von einem Scanner erzeugt wurden. Dabei wird jede Seite als ein Bild gespeichert – zum Beispiel als ein JPEG oder TIFF – und in eine PDF-Datei eingebunden. Diese Art von PDF enthält keinen maschinenlesbaren Text, sondern nur die visuelle Darstellung der Seite. Textelemente sind somit nicht als Zeichen oder Wörter im Dokument vorhanden, sondern lediglich als Pixelwerte im Bild. Okular und andere PDF-Viewer erkennen Text auf dieser Ebene ohne weitere Verarbeitungsmethoden nicht.

TEXTERKENNUNG (OCR) als Voraussetzung für Textsuche und Markierung

Damit Text in einem gescannten PDF erkannt und ausgewählt werden kann, muss das PDF einer sogenannten Texterkennung unterzogen werden, einem Prozess, der als OCR (Optical Character Recognition) bekannt ist. OCR wandelt Bilddaten in maschinenlesbaren Text um, indem die Schriftzeichen im Bild analysiert und als Buchstaben und Wörter gespeichert werden. Ohne OCR ist es somit nicht möglich, Text zu suchen, zu markieren oder zu kopieren. Okular bietet keine integrierte OCR-Funktionalität. Es zeigt zwar gescannte PDFs als Bilder an, kann aber diese nicht automatisch in durchsuchbaren oder auswählbaren Text umwandeln.

Auswirkungen auf die Funktionalität von Okular

Weil Okular den reinen Bild-Charakter der gescannten Seiten erkennt, kann es nicht auf einzelne Wörter zugreifen. Deswegen bleibt die Funktion zum Hervorheben oder Markieren von Text deaktiviert oder funktioniert nur punktuell im Sinne von "freier" Markierungen, jedoch nicht als Textauswahl. Auch die Textsuche wird keine Treffer liefern, da der Text nicht als solcher vorliegt. Nur wenn das PDF echten Text enthält – etwa durch digitale Erstellung oder durch eine bereits durchgeführte OCR – kann Okular diese Funktionen vollständig nutzen.

Was kann man tun, wenn man mit gescannten PDFs arbeiten möchte?

Um gescannte PDFs für eine Texterkennung und damit Markierung und Suche in Okular nutzbar zu machen, müssen sie zunächst mit einem OCR-Programm verarbeitet werden. Tools wie OCRmyPDF, Tesseract oder kommerzielle Software können den Bildtext erkennen und in die PDF-Datei einbetten. Danach kann Okular auf den eingebetteten Text zugreifen und Markierungen sowie Textsuche durchführen. Eine weitere Alternative ist die Nutzung von PDF-Viewern, die eine integrierte OCR-Funktion haben, wobei dies vom eingesetzten System und der Software abhängt.

Zusammenfassung

Okular erkennt Text in gescannten PDFs nicht, weil diese keine maschinenlesbaren Textelemente enthalten, sondern nur Bilder der Seiten. Die Erkennung und Markierung von Text erfordert eine vorherige OCR-Konvertierung, die Okular selbst nicht durchführt. Daher sind Funktionen wie Textmarkierung und -suche bei gescannten PDFs ohne OCR nicht möglich.

0

Kommentare