Bücher abfotografieren bzw. Repro.

Der chaotische Hauptfaden

Moderatoren: Heaterman, Finger, Sven, TDI, Marsupilami72, duese

Antworten
Benutzeravatar
tschäikäi
Beiträge: 2053
Registriert: Mi 14. Aug 2013, 14:01
Wohnort: Saarland

Re: Bücher abfotografieren bzw. Repro.

Beitrag von tschäikäi »

Moin, hat jemand denn eine OCR-Software, die unter Windows funzt und kostenlos ist?
Ich habe einige Freewares und Testversionen probiert.
Bisher alle Programme haben entweder Seitenbegrenzungen oder unzulängliche Entzifferungsfähigkeiten.

Hier ne PDF zum Testen, die auch ich genommen habe.
Wenns mit OCR nicht klappen sollte... kennt jemand eine SW, die automatisch Seitenränder beschneiden kann?
Beispielsweise im verlinkten Dokument, da hat man das Problem, dass die Hälfte der PDF- Seiten eigentlich weiß sind und die eingescannte Buchseite
nur einen Bruchteil der Fläche ausmacht.


Gruß Julian
sysconsol
Beiträge: 4059
Registriert: Fr 8. Jul 2016, 17:22

Re: Bücher abfotografieren bzw. Repro.

Beitrag von sysconsol »

Ich nutze für OCR eine alte Version des Abbyy Fine Readers (6.0 Sprint). Die war zu einem Scanner dazu.
Zur Vorbereitung nutze ich Scan Tailor.
Die Umwandlung von TIF zu JPG erledige ich mit IrfanView.

Die OCR-ten Seiten drucke ich per FineReader weder als PDF und lege den Inhalt als TXT-Datei daneben.
Das PDF ist durchsuchbar und die TXT-Datei für die Schlagwort-Suche auf dem PC.

PDF-Dokumente sollte man vorher seitenweise als Bild (jpg oder wasauchimmer) exportieren.
Auf die DPI achten, min 600 sind sinnvoll.

Dafür gibt es Onlinekonverter.
Unter Linux gibt es da wohl Werkzeuge, zu deren Einrichtung ich aus zeitlichen Gründen noch nicht gekommen bin.

Ich bastel mal mit der Testdatei und melde mich wieder.
sysconsol
Beiträge: 4059
Registriert: Fr 8. Jul 2016, 17:22

Re: Bücher abfotografieren bzw. Repro.

Beitrag von sysconsol »

Ohne urteilen zu wollen, ob das mit OCR immer sinnvoll ist (zum automatisierten Durchsuchen ja, mehr aber auch nicht),
hier meine Vorgehensweise:

- PDF-Datei zu jpg - eine Bilddatei pro Seite

- JPG-Datei nummerieren 01, 02, 03, ... - zur Not mit Irfanview
(Stapelverarbeitung, schon beim Erstellen des Stapels auf die korrekte Reihenfolge achten)

- Einlesen mit Scan Tailor. Damit werden die Seiten getrennt (wenn Doppelseite), Beschnittel, gedreht und entzerrt (dewarping).

Es entsteht pro zukünftiger Seite eine TIFF-Datei.
Diese TIFF-Datei mit Irfanview wieder zu jpg umwandeln, damit der AbbyFineReader damit klarkommt.
Eventuell dabei noch nachbearbeiten.

OCR durchführen.
Da kommen wir zum Hauptproblem: Der Layouterkennung und Blockerkennung.
Woher soll die Software wissen, was Bild und was Text ist?
Gerade bei Linien / Grafiken wird viel falsch erkannt bzw. gar nich erfasst.
Will man die eingelesene erkannte Schrift nutzen, dann muss man manuell nacharbeiten (braucht viel Zeit).
Ich kümmere mich kaum um die korrekte Erkennung.
Alles was Schrift ist, wird mit in die Felder für Texterkennung gezogen.
Dann wird das Endergebnis als PDF gedruckt.
Dabei wird die Quelldatei (jpg) auf die erkannte Schrift gelegt.
Damit sieht das PDF-Dokument aus wie das Original - ist jedoch durchsuchbar (denn die erkannte Schrift liegt hinter der Grafik).
Für Programme, die keine PDF-Datei durchsuchen können, lege ich den Text in einer Textdatei mit dem selben Namen
neben die PDF-Datei.

Natürlich hat man etwas Schwund - nicht alle Zeichen werden erkannt und damit wird später nie alles gefunden.
Damit kann ich persönlich leben.

So - nun wollte ich die ge-ocr-te PDF-Datei und die Textdatei hier hochladen - aber es gibt nur einen internen Serverfehler.
Versuchen wir es später.
Benutzeravatar
Bastelbruder
Beiträge: 11481
Registriert: Mi 14. Aug 2013, 18:28

Re: Bücher abfotografieren bzw. Repro.

Beitrag von Bastelbruder »

Die Begriffe .jpg und TIFF bedürfen einer Erläuterung.
jpg ist einzig und allein zur komprimierten Aufbewahrung wertarmer Fotos geschaffen, die ursprünglichen guten Gedanken (Anzeige des kompletten Bilds in entsprechend geringer Auflösung aus einem nahezu beliebigen Datenbruchteil) wurden schnell verdrängt. Jede Veränderung einer jpg.Datei bewirkt eine Verschlechterung, das will man nicht. Zudem braucht schlecht lesbarer Text in jpg-Schwamm mehr Speicherplatz als scharf eingescannte Daten mit der vierfachen Auflösung und CCITT Faxkompression Klasse 4. Einmal jpg und alles ist mit Doppelkanten und Falschfarben versaut!
TIFF ist ein Container in dem alle bekannten verlustlosen und verlustbehafteten, komprimierten und unkomprimierten Bilddaten eingepackt werden können, hintendran steht überall .tif

Ich verwende "Some PDF Image Extract" von somepdf.com zur Wandlung von pdf-Bildinhalt in die ursprünglichen Bilder. Jpg bleibt jpg und alles andere wird verlustfrei in png gewandelt. Das Programm legt einen Ordner mit dem Namen der Originaldatei an und darin die einzelnen Seiten (Bilder) mit Namen -000.png, -001.jpg, -002.png ... Was an der Version 1.5 fehlt ist die Übernahme der Abtastauflösung "dpi", die aber bei der Weiterverarbeitung meist eh' geändert wird.

Leider habe ich (als ich es gebraucht hätte) kein besonders brauchbares OCR gefunden, Kadmos im IrfanView ist mit geschätzten 10% Fehlern gerade so geeignet um einen Absatz in Vorschautext zu wandeln...

Wenn eine Datei zickt weil irgendein Arschloch die "Verschlüsselung" aktiviert hat, dann öffne ich das pdf mit pdfsam (v2.2.4) [Visuelle Seitenbearbeitung] und warte auf den Hinweis daß man von mir zur Bearbeitung eine Legitimation benötige. Das will ich aber garnicht und bestätige mit [abbrechen] worauf die thumbnails erzeugt werden. Und dann wird mit [Ausführen] diese Datei unverändert an ihren Platz zurückgelegt wobei wohl elementarer Müll verloren geht... :lol:
sysconsol
Beiträge: 4059
Registriert: Fr 8. Jul 2016, 17:22

Re: Bücher abfotografieren bzw. Repro.

Beitrag von sysconsol »

Dass die Wandlung von TIFF (was auch immer nun genau da drinnen ist) zu jpg suboptimal ist,
ist mir durchaus bewusst.
Leider kann der Abbyy FineReader nicht mit den vom ScanTailor erstellten TIFF umgehen.

Und diverse OCR-Software für Linux hatte mir zu viele Fehler in der Texterkennung.
Vom Layout - was mir manchmal auch wichtig ist - rede ich noch gar nicht.

Da ist der alte FineReader um Welten besser.
shaun
Beiträge: 2399
Registriert: Mo 12. Aug 2013, 20:37

Re: Bücher abfotografieren bzw. Repro.

Beitrag von shaun »

Ui, ich wurde hier im September erwähnt :) Ja in der Tat habe ich mal einige dutzend Stunden und diverses Material in so ein Projekt versenkt, aber lange vor fertig wurde Lebenszeit wertvoller und der Wert von Datenbüchern als Buch sank gleichzeitig, vielmehr brauchte ich die Daten wo ich gerade bin. Daher habe ich bisher schon einige 100 Bücher beim Buchbinder sauber aufschneiden lassen und scanne die immer mal so weg.
Anfangs mit einem HP-Flachbett mit mech. Duplex-Einzug (Seite wurde gewendet), der hat es nicht sehr lange gemacht, und seitdem mit einem Duplex-Einzuscanner.
sysconsol
Beiträge: 4059
Registriert: Fr 8. Jul 2016, 17:22

Re: Bücher abfotografieren bzw. Repro.

Beitrag von sysconsol »

Und wie erledigst du die Texterkennung?

Das Durchsuchen dauert ja auch beim gescannten Buch immernoch lange.
Antworten