Datenextraktion verstehen
Lernen Sie, wie Sie Daten aus PDF-Dokumenten extrahieren
Auf einen Blick
- Schwierigkeit: Einsteiger
- Zeitbedarf: ~20 Minuten
- Voraussetzungen: Erste Schritte
- Was Sie lernen: Schlüsselwörter, Datenbereiche, Extraktionsregeln, Datentypen
Was ist Datenextraktion?
Mit der Datenextraktion können Sie automatisch bestimmte Werte aus PDF-Dokumenten auslesen - z. B. Rechnungsnummern,
Datumsangaben, Kundennamen oder Beträge. Diese extrahierten Werte können dann als Platzhalter in
Dateinamen, Ordnerpfaden, E-Mails und anderen Aufgaben verwendet werden.
Wichtig: Die Datenextraktion funktioniert nur mit PDFs, die durchsuchbaren Text enthalten.
Gescannte Dokumente (reine Bild-PDFs) müssen zuerst mit OCR (Texterkennung) verarbeitet werden.
Das Grundkonzept: Schlüsselwörter und Datenbereiche
Die Datenextraktion funktioniert, indem ein Schlüsselwort im PDF-Text gesucht und dann der
Datenbereich relativ zu diesem Schlüsselwort ausgelesen wird. Stellen Sie es sich so vor:
Beispiel PDF-Inhalt:
Rechnungsnummer: RE-2024-0042
Rechnungsdatum: 15. Dezember 2024
Kunde: Mustermann GmbH
Gesamtbetrag: 1.234,56 EUR
Um die Rechnungsnummer RE-2024-0042 zu extrahieren:
- Setzen Sie das Schlüsselwort auf
Rechnungsnummer:
- Konfigurieren Sie den Datenbereich, um den Text nach dem Schlüsselwort zu lesen
Das Schlüsselwort dient als Ankerpunkt - es sagt dem Programm, wo es suchen soll. Der Datenbereich definiert
genau, welcher Text relativ zu diesem Anker erfasst werden soll.
Schritt 1: Beispieldateien hinzufügen
Bevor Sie Extraktionsregeln erstellen, benötigen Sie Beispiel-PDF-Dateien. Diese werden verwendet, um Ihre
Extraktionskonfiguration zu testen und eine Vorschau zu erhalten - ohne tatsächliche Dokumente zu verarbeiten.
- Öffnen Sie die Profileinstellungen (Doppelklick auf ein Profil oder "Profil bearbeiten...")
- Wechseln Sie zur Kategorie "Beispieldateien"
- Klicken Sie auf "Hinzufügen..." und wählen Sie 5 oder mehr PDF-Dateien
- Wählen Sie Dateien aus einem separaten Ordner, der nicht vom Profil verarbeitet wird
Warum mehrere Dateien? Mit mehreren Beispieldateien können Sie sicherstellen, dass Ihre
Extraktionsregeln konsistent über verschiedene Dokumente hinweg funktionieren.
Schritt 2: Den Regeleditor öffnen
- Wechseln Sie in den Profileinstellungen zur Kategorie "Datenextraktion"
- Klicken Sie auf "Regeln erstellen/bearbeiten..."
- Klicken Sie auf "Neue Regel...", um Ihre erste Extraktionsregel zu erstellen
Der Regeleditor zeigt links eine Vorschau Ihrer Beispiel-PDF und rechts die Konfigurationsoptionen.
Während Sie die Regel konfigurieren, wird das Extraktionsergebnis in Echtzeit aktualisiert.
Schritt 3: Das Schlüsselwort konfigurieren
Das Schlüsselwort ist der Text, der identifiziert, wo sich Ihre Daten befinden. Geben Sie ein Wort
oder eine Phrase ein, die konsistent in Ihren Dokumenten erscheint - direkt vor oder in der Nähe der
zu extrahierenden Daten.
Gute Schlüsselwörter:
Rechnungsnummer: - spezifische Bezeichnung vor dem Wert
Summe: - eindeutige Kennung für den Betrag
Datum: - häufige Bezeichnung für Datumsfelder
Diese Schlüsselwörter vermeiden:
Rechnung - zu allgemein, kann mehrfach vorkommen
der, und, von - häufige Wörter, die überall vorkommen
- Variable Texte wie tatsächliche Werte oder Datumsangaben
In der PDF-Vorschau wird das Schlüsselwort rot
hervorgehoben, wenn es gefunden wird. Falls das Schlüsselwort mehrfach vorkommt, können Sie angeben,
welches Vorkommen verwendet werden soll.
Schritt 4: Den Datenbereich definieren
Der Datenbereich bestimmt, welcher Text relativ zum Schlüsselwort erfasst wird. Standardmäßig erfasst
das Programm den Textblock direkt nach dem Schlüsselwort.
Datenbereich-Optionen:
| Einstellung |
Beschreibung |
Verwenden wenn... |
| Textblock |
Erfasst den angrenzenden Textblock nach dem Schlüsselwort |
Daten direkt nach dem Schlüsselwort mit klarer Trennung |
| Erstes Zeichen |
Erfasst nur das erste Zeichen, dann manuell erweitern |
Textblock enthält unerwünschte angrenzende Daten |
| Datenbereich erweitern |
Zeichen davor/danach hinzufügen oder feste Länge angeben |
Präzise Kontrolle über erfassten Text erforderlich |
In der PDF-Vorschau wird der Datenbereich grün
hervorgehoben. Prüfen Sie, dass nur der gewünschte Text markiert ist.
Schritt 5: Den Datentyp wählen
Der Datentyp bestimmt, wie der extrahierte Wert verarbeitet wird und welche Optionen bei der Verwendung verfügbar sind.
| Datentyp |
Beschreibung |
Beispiel |
| Text |
Allgemeine Textextraktion - für die meisten Werte geeignet |
Rechnungsnummern, Namen, IDs |
| Datum |
Erkennt Datumsformate, ermöglicht Zugriff auf Jahr/Monat/Tag einzeln |
Rechnungsdatum, Fälligkeitsdatum |
| Zahl |
Extrahiert numerische Werte, verarbeitet verschiedene Formate |
Beträge, Mengen, Seitenzahlen |
| Abfrage |
Gibt einen Wert zurück, je nachdem ob Schlüsselwörter gefunden werden |
"Ja" wenn "Bezahlt" gefunden, sonst "Nein" |
| Abfrage mit Liste |
Gleicht mit einer Liste ab, um Kategorie zu bestimmen |
Dokumenttyp, Kundenname aus Liste |
Tipp: Verwenden Sie beim Extrahieren von Datumsangaben immer den Datentyp Datum.
So können Sie das Datum neu formatieren (z. B. "15. Dezember 2024" in "2024-12-15") mittels Datums-Platzhaltern.
Schritt 6: Der Regel einen Namen geben
Geben Sie Ihrer Extraktionsregel einen beschreibenden Namen. Dieser Name erscheint in den
Platzhalter-Menüs der gesamten Anwendung. Verwenden Sie klare, aussagekräftige Namen wie:
Rechnungsnummer
Rechnungsdatum
Kundenname
Gesamtbetrag
Vermeiden Sie Leerzeichen und Sonderzeichen in Regelnamen für eine einfachere Verwendung in Platzhaltern.
Schritt 7: Mit allen Beispieldateien testen
Nach der Konfiguration der Regel testen Sie diese mit allen Beispieldateien:
- Verwenden Sie die Dateiauswahl oben im Regeleditor, um zwischen Beispieldateien zu wechseln
- Überprüfen Sie, dass die Extraktion für jede Datei korrekt funktioniert
- Kontrollieren Sie den Vorschaubereich für den extrahierten Wert
- Passen Sie die Konfiguration an, falls die Extraktion bei manchen Dateien fehlschlägt
Klicken Sie auf "OK", um die Regel zu speichern, wenn Sie mit den Ergebnissen zufrieden sind.
Extrahierte Daten verwenden
Sobald Sie Extraktionsregeln erstellt haben, können Sie die extrahierten Werte als Platzhalter in verschiedenen Aufgaben verwenden:
- Dateien umbenennen:
<RuleId:1(Rechnungsnummer)>.pdf
- Unterordner erstellen:
<RuleId:2(Kundenname)>\<RuleId:3(Rechnungsdatum){Jahr4}>
- E-Mail-Betreff:
Rechnung <RuleId:1(Rechnungsnummer)> vom <RuleId:2(Rechnungsdatum)>
Erfahren Sie mehr über die Verwendung von Platzhaltern in der Anleitung Platzhalter-System erklärt.
Ergebnis
Nach Abschluss dieser Anleitung verstehen Sie:
- Wie Schlüsselwörter und Datenbereiche zusammenarbeiten
- Wie Sie Extraktionsregeln erstellen und konfigurieren
- Welchen Datentyp Sie für verschiedene Werte wählen sollten
- Wie Sie die Extraktion mit Beispieldateien testen
- Wie extrahierte Werte zu Platzhaltern für andere Aufgaben werden
Häufige Probleme & Lösungen
| Problem |
Lösung |
| Schlüsselwort nicht gefunden (nicht rot markiert) |
- Prüfen Sie die Schreibweise - sie muss exakt dem PDF-Text entsprechen
- Versuchen Sie ein kürzeres oder anderes Schlüsselwort
- Stellen Sie sicher, dass das PDF durchsuchbaren Text enthält (nicht gescannt)
|
| Falscher Text erfasst (grüne Markierung enthält zu viel Text) |
- Wechseln Sie zu "Erstes Zeichen" und nutzen Sie "Datenbereich erweitern"
- Legen Sie eine feste Zeichenanzahl fest
- Verwenden Sie "Stoppen bei", um das Ende der Extraktion zu definieren
|
| Extraktion funktioniert bei manchen Dateien, bei anderen nicht |
- Prüfen Sie, ob das Schlüsselwort in fehlerhaften Dateien anders erscheint
- Verwenden Sie ein allgemeineres Schlüsselwort, das in allen Dokumenten vorkommt
- Erstellen Sie ggf. mehrere Regeln für verschiedene Dokumentformate
|
| Datum wird nicht korrekt erkannt |
- Stellen Sie sicher, dass Sie den Datentyp "Datum" ausgewählt haben
- Prüfen Sie, ob das Datumsformat unterstützt wird
- Passen Sie den Datenbereich an, um das vollständige Datum zu erfassen
|
Nächste Schritte
Nachdem Sie die Datenextraktion verstanden haben, fahren Sie mit diesen Anleitungen fort:
Weitere Schritt-für-Schritt-Anleitungen
Erste Schritte
Grundlegende Aufgaben
PDF-Bearbeitung
E-Rechnung & Archivierung
Praxisbeispiele
Zur Automatic PDF Processor-Übersichtsseite
Automatic PDF Processor jetzt unverbindlich 30 Tage testen ...
Zum Download