Woher eine Extraktionsregel ihren Wert nimmt
Auf einen Blick
- Schwierigkeit: Fortgeschritten
- Zeitbedarf: ~15 Minuten
- Voraussetzungen: Datenextraktion verstehen
- Was Sie lernen: Die acht Datenquellen und wann Sie welche einsetzen
Was ist eine Datenquelle?
Bevor eine Extraktionsregel einen Wert verarbeiten kann, muss feststehen, woher dieser Wert
kommt. Genau das legt die Datenquelle fest. Während der Datentyp
bestimmt, wie ein Wert verstanden wird, bestimmt die Datenquelle, woher er stammt - aus dem
sichtbaren Dokumenttext, einem Barcode, den Metadaten, den Dateiinformationen und mehr.
Die Datenquelle wählen Sie im Regeleditor im Bereich "Allgemein". Je nach Auswahl
blendet das Programm die passenden Einstellungen ein.
Daten aus Dokumententext ermitteln
Die wichtigste und häufigste Quelle. Der Wert wird aus dem sichtbaren Text des PDFs gelesen -
zum Beispiel über ein Schlüsselwort und den danebenstehenden Datenbereich. Die Grundlagen dazu erklärt
die Anleitung Datenextraktion verstehen.
Wichtig: Diese Quelle funktioniert nur mit PDFs, die durchsuchbaren Text
enthalten. Reine Bild-PDFs (Scans) müssen Sie zuvor mit der Texterkennung (OCR) durchsuchbar machen.
Daten aus QR- oder Barcode ermitteln
Liest den Inhalt von QR-Codes und Barcodes aus dem Dokument. Das ist besonders nützlich, wenn
Dokumente bereits mit einem Code versehen sind, der eine eindeutige Kennung enthält - etwa eine Vorgangs- oder
Belegnummer.
Beispiel: Eingehende Belege tragen einen QR-Code mit der Vorgangsnummer.
Sie lesen ihn aus und benennen die Datei danach.
Metadaten des Dokuments verwenden
Greift auf die im PDF gespeicherten Metadaten zu - etwa Titel, Autor, Thema oder das im Dokument
hinterlegte Erstell- bzw. Änderungsdatum. Diese Angaben sind nicht im sichtbaren Text enthalten, sondern
gehören zu den Eigenschaften der Datei.
Beispiel: Sie sortieren Dokumente nach dem im PDF hinterlegten Autor in
unterschiedliche Ordner.
Dateiinformationen verwenden
Nutzt Eigenschaften der Datei selbst - den Dateinamen, den Pfad sowie die Datumsangaben des
Dateisystems (Erstellt/Geändert). Praktisch, wenn bereits der Dateiname oder der Ablageort eine verwertbare
Information enthält.
Beispiel: Der Dateiname enthält bereits eine Kundennummer, die Sie für
die weitere Ablage übernehmen möchten.
Benutzerdefinierten Text verwenden
Liefert einen festen Text, den Sie selbst vorgeben - unabhängig vom Dokumentinhalt. Das ist
nützlich für feste Bausteine oder als Rückfallwert: Erstellen Sie eine zweite Regel mit
demselben Namen, springt diese ein, wenn die eigentliche Extraktion einmal keinen Wert findet.
Hinweis: Bei dieser Quelle steht ausschließlich der Datentyp
Text zur Verfügung.
Wert eines Platzhalters verwenden
Diese Quelle baut auf dem Ergebnis einer anderen Regel auf. So können Sie bereits extrahierte
Werte weiterverarbeiten oder mehrere Werte miteinander kombinieren, ohne dieselbe Extraktion erneut einzurichten.
Beispiel: Eine Regel liest das Rechnungsdatum. Eine zweite Regel verwendet
diesen Wert, um daraus eine andere Schreibweise zu erzeugen.
Formulardaten verwenden
Liest den Inhalt von ausfüllbaren PDF-Formularfeldern (z. B. Textfelder oder Auswahlkästchen).
Voraussetzung ist, dass das PDF echte Formularfelder enthält - nicht nur aufgedruckten Text. Eine ausführliche
Anleitung finden Sie unter PDF-Formulardaten auslesen.
Fortlaufende Nummer verwenden
Erzeugt eine automatisch hochzählende Nummer - zum Beispiel eine durchgehende Belegnummer. Die
Nummerierung wird über benannte Zähler verwaltet, die Sie zentral pflegen. Mehrere Regeln oder Profile, die
denselben Zähler verwenden, teilen sich eine garantiert eindeutige, lückenlose Nummernfolge.
Beispiel: Jede verarbeitete Rechnung erhält eine fortlaufende interne
Nummer wie 000123, 000124, 000125 - mit frei wählbarem Startwert und
Format.