Vor einigen Zeiten war man schon glücklich, wenn man Dokumente einfach nur einscannen konnte – heute geht man noch etwas weiter. Man packt Papier nicht nur in digitaler Form auf die Festplatte (natürlich auch auf die SSD – ist für mich dasselbe, weil ich es einfach nicht immer erwähnen will), man macht diese Dokumente auch durchsuchbar – eben nach dem Text, der in diesen Dokumenten vorhanden ist.

Damit man Dateien nach beinhaltetem Text durchsuchen kann, darf man das Papier nicht einfach nur einscannen und als Bild speichern – man muss zusätzlich eine Software nutzen, die den Text auch in diesen Bildern erkennt und in digitaler Form speichert. Optimal für solche Aufgaben ist natürlich das PDF-Format.

Software, die Text auf Bildern erkennt, nennt man in einem Begriff schnell gesagt eine solche, die OCR – Optische Texterkennung – beherrscht. Unter Linux ist dafür meist Tesseract zuständig. Grafische Oberflächen dafür gibt es unter Linux dafür auch so einige – genannt wurde auf der Linux Bibel bereits die äußerst umfangreiche Software Paperwork. Braucht man nicht alle Funktionen, nutzt man etwa Gscan2pdf – und um diese Software geht es in diesem Beitrag der Linux Bibel.

Gscan2pdf installieren

Unter auf Debian basierenden Linux-Distributionen installiert man diese Software wie üblich ganz einfach über die Paket-Verwaltung mit den Paketen „gscan2pdf tesseract-ocr-deu„.

Gscan2pdf nutzen

Sie finden diese Software nach der Installation im Anwendungsmenü unter der Kategorie Grafik, alternativ nutzen Sie den Schnellstarter (Alt+F2) oder das Terminal mit dem Befehl:

gscan2pdf

Jetzt nutzt man ganz einfach das Menü „Datei → Scannen“ oder den Schalter „Dokument scannen“ in der Werkzeugleiste:

Und startet den Scan-Vorgang. Ist der Vorgang abgeschlossen, schließt man das Fenster zum Scannen:

Ich habe hier das erste erwischt, was ich gerade gefunden habe – ein Testausdruck einer Konfigurationsdatei – man darf also nicht wirklich etwas Deutsches erwarten. Per Rechtsklick lässt sich die drehen und anderweitig anpassen, gewünschte Stellen für die Texterkennung markieren – im besten Fall klicken Sie einfach auf den Reiter „Textebene„:

Nicht perfekt erkannte Wörter, oder solche, die nicht der deutschen Sprache zuzurechnen sind, markiert die Software rot. Ein Klick auf einen solchen Eintrag vergrößert diesen:

Der Markierte Eintrag lässt sich nun unten im Textfeld anpassen, rechts unten übernehmen Sie anschließend Ihre Korrekturen. Zuletzt speichern Sie die Datei als PDF:

Die gespeicherte PDF-Datei lässt sich nun mit jeder Desktop-Suchmaschine durchsuchen.

Categories:

Tags:

Schreibe einen Kommentar

Noch keine Reaktion

Neue Themen im Forum
Fedora UpdateZitat von robertgoedl am 9. Mai 2024, 13:58 Uhr Jaaaa, Fedora läd … Weiterlesen
Statistik April 2024Die Entwicklung im WIKI im Januar 2024 Insgesamt sind 13 neue Bei … Weiterlesen
Ubuntu 24.04 LTS Desktop ist verf …Ich werde Ubuntu 24.04 neu Installieren. Auf meiner Festplatte sda … Weiterlesen
Kategorien im Wiki
WIKI-Beiträge des Monates

Die Beiträge des Monates finden Sie im Kalender unter den blau markierten Tageszahlen.

September 2023
M D M D F S S
 123
45678910
11121314151617
18192021222324
252627282930  
Archive