Text aus PDF extrahieren bzw. PDF in Reintext verwandeln

PDF sind weltweit sehr beliebt, weil sie meist eine kleine Dateigröße besitzen und die Qualität beim Versenden erhalten bleibt. Wer allerdings Texte aus einem PDF heraus kopieren und in einem Textprogramm weiterverarbeiten möchte, stellt häufig fest, dass die aus PDF kopierten Texte formatiert sind, Spalten falsch kopiert und Sonderzeichen nicht „übersetzt“ werden. Eine Weiterverarbeitung ist damit ohne händische Arbeit nicht möglich.

Als Werbeagentur hat Punktmacher seit seiner Gründung 2006 zigtausende PDF selbst erstellt und aus hunderten PDF auch unformatierte Texte extrahiert, um diese in Textprogrammen weiterverarbeiten zu können. Daraus ist eine Expertise entstanden. Unternehmen, die Texte aus PDF verarbeiten möchten, bietet Punktmacher unkomplizierte, schnelle und einfache Hilfe.

Die Aufgabe, Texte unformatiert aus einem PDF zu extrahieren, führt gelegentlich dazu, dass Texte händisch abgetippt werden. Wenn im PDF sehr viel Text enthalten ist, ist das „Abtippen“ wirtschaftlich unrentabel. Punktmacher hat über Jahre verschiedene Wege gefunden, Texte aus PDF unformatiert zu extrahieren.

PDF und Texte in mehreren Spalten, Headlines, Großbuchstaben, Umbrüche und Sonderzeichen

Besondere Herausforderungen beim Export von Texten aus einer PDF ergeben sich, wenn zum Beispiel folgende Besonderheiten vorliegen:

  • Sonderzeichen im PDF
  • Texte in Spalten im PDF angelegt
  • Headlines über mehrere Spalten verlaufen
  • Tabellen im PDF enthalten sind
  • besonders viele Formatierungen im PDF eingesetzt wurden
  • Kapitälchen oder versal/gemischte Schreibweisen verwendet
  • u.v.m.

 

Besonders häufig werden beim Exportieren Tabellen und Spalten nicht richtig erkannt und mitunter zeilenweise in Text exportiert. Damit ist der Text unbrauchbar oder muss aufwendig händisch überarbeitet werden.

Jetzt PDF senden und Angebot für Reintext erhalten (.doc oder .txt):

   

Typische Anwendungsfälle für den professionellen Exporte von Texten aus PDF

Sobald Texte in einer PDF über mehrere Seiten und spaltenweise angeordnet sind, ist ein professioneller Export vermutlich schon wirtschaftlicher als das händische Übertragen via copy & paste. Typische Anwendungsfälle sind:

  • Inhalte aus PDF einer Preisliste für InDesign aufbereiten – dazu PDF in Text verwandeln
  • Unternehmensbroschüre als PDF in Reintext exportieren
  • Texte eines alten Geschäftsberichtes für die Website kopieren und einsetzen
  • Produkttexte aus PDF aufbereiten für eine Übersetzung z.B. in Excel zum Einbau mehrerer Sprachen
  • PDF von technischen Regelwerken in reine Textdateien überführen
  • Texte aus technischen Datenblätter als Reintext exportieren
  • Katalog-Texte exportieren und z.B. in TextEdit oder Word-Datei liefern
  • u.v.m.

Abtippen von Texten aus PDF ist selten wirtschaftlich – mit Software und Know-how geht es schneller und damit letztlich kostengünstiger und sicherer.

Händisches Abschreiben von Texten aus einer PDF im so genannten „copy & paste-Verfahren“ wird schnell unwirtschaftlich. Punktmacher exportiert unformatierte Texte aus PDF. Sicher. Schnell. Zuverlässig.

Nele Nortmann, Punktmacher GmbH

Nele Nortmann arbeitet in der Beratung bei Punktmacher.

Jetzt PDF senden und in kurzer Zeit ein unverbindliches Angebot erhalten:

 

Was für ein Dateiformat ist PDF?
PDF, Portable Document Format, ist ein Dateiformat für das Anzeigen von Dokumenten. Das Anzeigen erfolgt unabhängig von Betriebssystem, Software, Hardware oder Einstellungen am Computer und ist daher ein nahezu perfektes Format zur Weitergabe von elektronischer Nachrichten. Dabei können PDF sowohl Bilder wie auch Texte „enthalten.”

Besondere Herausforderungen: PDF von Scans oder Kopien – OCR nötig

Selbst wenn PDF z.B. aus Scans erzeugt wurden, können Texte unter Umwege in reine Textdateien verwandelt werden. Dazu wird OCR (Optical Character Recognition) verwendet. Mit Geduld und Geschick lassen sich Inhalte so „automatisch“ in Zeichen verwandeln. Das spart enorm viel Zeit und ist darüber hinaus meist sehr viel zuverlässiger. Eine abschließende Rechtschreibprüfung kann die Qualität des Ergebnisses zumeist noch deutlich erhöhen.

Bei der OCR-Texterkennung ist das Ziel, aus gescanntem oder fotografierten Dokumenten reine Texte zu exportieren, um diese dann weiterverarbeiten zu können.