Datenextraktion verstehen

Lernen Sie, wie Sie Daten aus PDF-Dokumenten extrahieren

Auf einen Blick

  • Schwierigkeit: Einsteiger
  • Zeitbedarf: ~20 Minuten
  • Voraussetzungen: Erste Schritte
  • Was Sie lernen: Schlüsselwörter, Datenbereiche, Extraktionsregeln, Datentypen

Was ist Datenextraktion?

Mit der Datenextraktion können Sie automatisch bestimmte Werte aus PDF-Dokumenten auslesen - z. B. Rechnungsnummern, Datumsangaben, Kundennamen oder Beträge. Diese extrahierten Werte können dann als Platzhalter in Dateinamen, Ordnerpfaden, E-Mails und anderen Aufgaben verwendet werden.

Wichtig: Die Datenextraktion funktioniert nur mit PDFs, die durchsuchbaren Text enthalten. Gescannte Dokumente (reine Bild-PDFs) müssen zuerst mit OCR (Texterkennung) verarbeitet werden.


Das Grundkonzept: Schlüsselwörter und Datenbereiche

Die Datenextraktion funktioniert, indem ein Schlüsselwort im PDF-Text gesucht und dann der Datenbereich relativ zu diesem Schlüsselwort ausgelesen wird. Stellen Sie es sich so vor:

Beispiel PDF-Inhalt:

Rechnungsnummer: RE-2024-0042
Rechnungsdatum:  15. Dezember 2024
Kunde:           Mustermann GmbH
Gesamtbetrag:    1.234,56 EUR

Um die Rechnungsnummer RE-2024-0042 zu extrahieren:

  1. Setzen Sie das Schlüsselwort auf Rechnungsnummer:
  2. Konfigurieren Sie den Datenbereich, um den Text nach dem Schlüsselwort zu lesen

Das Schlüsselwort dient als Ankerpunkt - es sagt dem Programm, wo es suchen soll. Der Datenbereich definiert genau, welcher Text relativ zu diesem Anker erfasst werden soll.


Schritt 1: Beispieldateien hinzufügen

Bevor Sie Extraktionsregeln erstellen, benötigen Sie Beispiel-PDF-Dateien. Diese werden verwendet, um Ihre Extraktionskonfiguration zu testen und eine Vorschau zu erhalten - ohne tatsächliche Dokumente zu verarbeiten.

  1. Öffnen Sie die Profileinstellungen (Doppelklick auf ein Profil oder "Profil bearbeiten...")
  2. Wechseln Sie zur Kategorie "Beispieldateien"
  3. Klicken Sie auf "Hinzufügen..." und wählen Sie 5 oder mehr PDF-Dateien
  4. Wählen Sie Dateien aus einem separaten Ordner, der nicht vom Profil verarbeitet wird

Warum mehrere Dateien? Mit mehreren Beispieldateien können Sie sicherstellen, dass Ihre Extraktionsregeln konsistent über verschiedene Dokumente hinweg funktionieren.


Schritt 2: Den Regeleditor öffnen

  1. Wechseln Sie in den Profileinstellungen zur Kategorie "Datenextraktion"
  2. Klicken Sie auf "Regeln erstellen/bearbeiten..."
  3. Klicken Sie auf "Neue Regel...", um Ihre erste Extraktionsregel zu erstellen

Der Regeleditor zeigt links eine Vorschau Ihrer Beispiel-PDF und rechts die Konfigurationsoptionen. Während Sie die Regel konfigurieren, wird das Extraktionsergebnis in Echtzeit aktualisiert.


Schritt 3: Das Schlüsselwort konfigurieren

Das Schlüsselwort ist der Text, der identifiziert, wo sich Ihre Daten befinden. Geben Sie ein Wort oder eine Phrase ein, die konsistent in Ihren Dokumenten erscheint - direkt vor oder in der Nähe der zu extrahierenden Daten.

Gute Schlüsselwörter:

  • Rechnungsnummer: - spezifische Bezeichnung vor dem Wert
  • Summe: - eindeutige Kennung für den Betrag
  • Datum: - häufige Bezeichnung für Datumsfelder

Diese Schlüsselwörter vermeiden:

  • Rechnung - zu allgemein, kann mehrfach vorkommen
  • der, und, von - häufige Wörter, die überall vorkommen
  • Variable Texte wie tatsächliche Werte oder Datumsangaben

In der PDF-Vorschau wird das Schlüsselwort rot hervorgehoben, wenn es gefunden wird. Falls das Schlüsselwort mehrfach vorkommt, können Sie angeben, welches Vorkommen verwendet werden soll.


Schritt 4: Den Datenbereich definieren

Der Datenbereich bestimmt, welcher Text relativ zum Schlüsselwort erfasst wird. Standardmäßig erfasst das Programm den Textblock direkt nach dem Schlüsselwort.

Datenbereich-Optionen:

Einstellung Beschreibung Verwenden wenn...
Textblock Erfasst den angrenzenden Textblock nach dem Schlüsselwort Daten direkt nach dem Schlüsselwort mit klarer Trennung
Erstes Zeichen Erfasst nur das erste Zeichen, dann manuell erweitern Textblock enthält unerwünschte angrenzende Daten
Datenbereich erweitern Zeichen davor/danach hinzufügen oder feste Länge angeben Präzise Kontrolle über erfassten Text erforderlich

In der PDF-Vorschau wird der Datenbereich grün hervorgehoben. Prüfen Sie, dass nur der gewünschte Text markiert ist.


Schritt 5: Den Datentyp wählen

Der Datentyp bestimmt, wie der extrahierte Wert verarbeitet wird und welche Optionen bei der Verwendung verfügbar sind.

Datentyp Beschreibung Beispiel
Text Allgemeine Textextraktion - für die meisten Werte geeignet Rechnungsnummern, Namen, IDs
Datum Erkennt Datumsformate, ermöglicht Zugriff auf Jahr/Monat/Tag einzeln Rechnungsdatum, Fälligkeitsdatum
Zahl Extrahiert numerische Werte, verarbeitet verschiedene Formate Beträge, Mengen, Seitenzahlen
Abfrage Gibt einen Wert zurück, je nachdem ob Schlüsselwörter gefunden werden "Ja" wenn "Bezahlt" gefunden, sonst "Nein"
Abfrage mit Liste Gleicht mit einer Liste ab, um Kategorie zu bestimmen Dokumenttyp, Kundenname aus Liste

Tipp: Verwenden Sie beim Extrahieren von Datumsangaben immer den Datentyp Datum. So können Sie das Datum neu formatieren (z. B. "15. Dezember 2024" in "2024-12-15") mittels Datums-Platzhaltern.


Schritt 6: Der Regel einen Namen geben

Geben Sie Ihrer Extraktionsregel einen beschreibenden Namen. Dieser Name erscheint in den Platzhalter-Menüs der gesamten Anwendung. Verwenden Sie klare, aussagekräftige Namen wie:

  • Rechnungsnummer
  • Rechnungsdatum
  • Kundenname
  • Gesamtbetrag

Vermeiden Sie Leerzeichen und Sonderzeichen in Regelnamen für eine einfachere Verwendung in Platzhaltern.


Schritt 7: Mit allen Beispieldateien testen

Nach der Konfiguration der Regel testen Sie diese mit allen Beispieldateien:

  1. Verwenden Sie die Dateiauswahl oben im Regeleditor, um zwischen Beispieldateien zu wechseln
  2. Überprüfen Sie, dass die Extraktion für jede Datei korrekt funktioniert
  3. Kontrollieren Sie den Vorschaubereich für den extrahierten Wert
  4. Passen Sie die Konfiguration an, falls die Extraktion bei manchen Dateien fehlschlägt

Klicken Sie auf "OK", um die Regel zu speichern, wenn Sie mit den Ergebnissen zufrieden sind.


Extrahierte Daten verwenden

Sobald Sie Extraktionsregeln erstellt haben, können Sie die extrahierten Werte als Platzhalter in verschiedenen Aufgaben verwenden:

  • Dateien umbenennen: <RuleId:1(Rechnungsnummer)>.pdf
  • Unterordner erstellen: <RuleId:2(Kundenname)>\<RuleId:3(Rechnungsdatum){Jahr4}>
  • E-Mail-Betreff: Rechnung <RuleId:1(Rechnungsnummer)> vom <RuleId:2(Rechnungsdatum)>

Erfahren Sie mehr über die Verwendung von Platzhaltern in der Anleitung Platzhalter-System erklärt.


Ergebnis

Nach Abschluss dieser Anleitung verstehen Sie:

  • Wie Schlüsselwörter und Datenbereiche zusammenarbeiten
  • Wie Sie Extraktionsregeln erstellen und konfigurieren
  • Welchen Datentyp Sie für verschiedene Werte wählen sollten
  • Wie Sie die Extraktion mit Beispieldateien testen
  • Wie extrahierte Werte zu Platzhaltern für andere Aufgaben werden

Häufige Probleme & Lösungen

Problem Lösung
Schlüsselwort nicht gefunden (nicht rot markiert)
  • Prüfen Sie die Schreibweise - sie muss exakt dem PDF-Text entsprechen
  • Versuchen Sie ein kürzeres oder anderes Schlüsselwort
  • Stellen Sie sicher, dass das PDF durchsuchbaren Text enthält (nicht gescannt)
Falscher Text erfasst (grüne Markierung enthält zu viel Text)
  • Wechseln Sie zu "Erstes Zeichen" und nutzen Sie "Datenbereich erweitern"
  • Legen Sie eine feste Zeichenanzahl fest
  • Verwenden Sie "Stoppen bei", um das Ende der Extraktion zu definieren
Extraktion funktioniert bei manchen Dateien, bei anderen nicht
  • Prüfen Sie, ob das Schlüsselwort in fehlerhaften Dateien anders erscheint
  • Verwenden Sie ein allgemeineres Schlüsselwort, das in allen Dokumenten vorkommt
  • Erstellen Sie ggf. mehrere Regeln für verschiedene Dokumentformate
Datum wird nicht korrekt erkannt
  • Stellen Sie sicher, dass Sie den Datentyp "Datum" ausgewählt haben
  • Prüfen Sie, ob das Datumsformat unterstützt wird
  • Passen Sie den Datenbereich an, um das vollständige Datum zu erfassen

Nächste Schritte

Nachdem Sie die Datenextraktion verstanden haben, fahren Sie mit diesen Anleitungen fort:


Weitere Schritt-für-Schritt-Anleitungen

Erste Schritte

Grundlegende Aufgaben

PDF-Bearbeitung

E-Rechnung & Archivierung

Praxisbeispiele


Zur Automatic PDF Processor-Übersichtsseite
Automatic PDF Processor jetzt unverbindlich 30 Tage testen ...     Zum Download