Datenquellen verwenden

Woher eine Extraktionsregel ihren Wert nimmt

Auf einen Blick

  • Schwierigkeit: Fortgeschritten
  • Zeitbedarf: ~15 Minuten
  • Voraussetzungen: Datenextraktion verstehen
  • Was Sie lernen: Die acht Datenquellen und wann Sie welche einsetzen

Was ist eine Datenquelle?

Bevor eine Extraktionsregel einen Wert verarbeiten kann, muss feststehen, woher dieser Wert kommt. Genau das legt die Datenquelle fest. Während der Datentyp bestimmt, wie ein Wert verstanden wird, bestimmt die Datenquelle, woher er stammt - aus dem sichtbaren Dokumenttext, einem Barcode, den Metadaten, den Dateiinformationen und mehr.

Die Datenquelle wählen Sie im Regeleditor im Bereich "Allgemein". Je nach Auswahl blendet das Programm die passenden Einstellungen ein.


Die acht Datenquellen im Überblick

Datenquelle Liefert Werte aus ...
Daten aus Dokumententext ermittelndem sichtbaren, durchsuchbaren Text der Seiten
Daten aus QR- oder Barcode ermittelnQR-Codes und Barcodes im Dokument
Metadaten des Dokuments verwendenPDF-Metadaten wie Titel, Autor oder Erstelldatum
Dateiinformationen verwendenDateiname, Pfad und Datei-Datumsangaben
Benutzerdefinierten Text verwendeneinem von Ihnen fest vorgegebenen Text
Wert eines Platzhalters verwendendem Ergebnis einer anderen Regel
Formulardaten verwendenausfüllbaren PDF-Formularfeldern
Fortlaufende Nummer verwendeneinem automatisch hochzählenden Zähler

Daten aus Dokumententext ermitteln

Die wichtigste und häufigste Quelle. Der Wert wird aus dem sichtbaren Text des PDFs gelesen - zum Beispiel über ein Schlüsselwort und den danebenstehenden Datenbereich. Die Grundlagen dazu erklärt die Anleitung Datenextraktion verstehen.

Wichtig: Diese Quelle funktioniert nur mit PDFs, die durchsuchbaren Text enthalten. Reine Bild-PDFs (Scans) müssen Sie zuvor mit der Texterkennung (OCR) durchsuchbar machen.


Daten aus QR- oder Barcode ermitteln

Liest den Inhalt von QR-Codes und Barcodes aus dem Dokument. Das ist besonders nützlich, wenn Dokumente bereits mit einem Code versehen sind, der eine eindeutige Kennung enthält - etwa eine Vorgangs- oder Belegnummer.

Beispiel: Eingehende Belege tragen einen QR-Code mit der Vorgangsnummer. Sie lesen ihn aus und benennen die Datei danach.


Metadaten des Dokuments verwenden

Greift auf die im PDF gespeicherten Metadaten zu - etwa Titel, Autor, Thema oder das im Dokument hinterlegte Erstell- bzw. Änderungsdatum. Diese Angaben sind nicht im sichtbaren Text enthalten, sondern gehören zu den Eigenschaften der Datei.

Beispiel: Sie sortieren Dokumente nach dem im PDF hinterlegten Autor in unterschiedliche Ordner.


Dateiinformationen verwenden

Nutzt Eigenschaften der Datei selbst - den Dateinamen, den Pfad sowie die Datumsangaben des Dateisystems (Erstellt/Geändert). Praktisch, wenn bereits der Dateiname oder der Ablageort eine verwertbare Information enthält.

Beispiel: Der Dateiname enthält bereits eine Kundennummer, die Sie für die weitere Ablage übernehmen möchten.


Benutzerdefinierten Text verwenden

Liefert einen festen Text, den Sie selbst vorgeben - unabhängig vom Dokumentinhalt. Das ist nützlich für feste Bausteine oder als Rückfallwert: Erstellen Sie eine zweite Regel mit demselben Namen, springt diese ein, wenn die eigentliche Extraktion einmal keinen Wert findet.

Hinweis: Bei dieser Quelle steht ausschließlich der Datentyp Text zur Verfügung.


Wert eines Platzhalters verwenden

Diese Quelle baut auf dem Ergebnis einer anderen Regel auf. So können Sie bereits extrahierte Werte weiterverarbeiten oder mehrere Werte miteinander kombinieren, ohne dieselbe Extraktion erneut einzurichten.

Beispiel: Eine Regel liest das Rechnungsdatum. Eine zweite Regel verwendet diesen Wert, um daraus eine andere Schreibweise zu erzeugen.


Formulardaten verwenden

Liest den Inhalt von ausfüllbaren PDF-Formularfeldern (z. B. Textfelder oder Auswahlkästchen). Voraussetzung ist, dass das PDF echte Formularfelder enthält - nicht nur aufgedruckten Text. Eine ausführliche Anleitung finden Sie unter PDF-Formulardaten auslesen.


Fortlaufende Nummer verwenden

Erzeugt eine automatisch hochzählende Nummer - zum Beispiel eine durchgehende Belegnummer. Die Nummerierung wird über benannte Zähler verwaltet, die Sie zentral pflegen. Mehrere Regeln oder Profile, die denselben Zähler verwenden, teilen sich eine garantiert eindeutige, lückenlose Nummernfolge.

Beispiel: Jede verarbeitete Rechnung erhält eine fortlaufende interne Nummer wie 000123, 000124, 000125 - mit frei wählbarem Startwert und Format.


Welche Quelle ist die richtige?

Ihr Ziel Geeignete Datenquelle
Wert steht im sichtbaren DokumenttextDaten aus Dokumententext ermitteln
Dokument trägt einen QR-/BarcodeDaten aus QR- oder Barcode ermitteln
Information steckt im Dateinamen oder PfadDateiinformationen verwenden
Titel/Autor aus den PDF-EigenschaftenMetadaten des Dokuments verwenden
Ausfüllbares Formular-PDFFormulardaten verwenden
Fester Text oder RückfallwertBenutzerdefinierten Text verwenden
Auf einem bereits extrahierten Wert aufbauenWert eines Platzhalters verwenden
Durchgehende, eindeutige NummerierungFortlaufende Nummer verwenden

Nächste Schritte


Weitere Schritt-für-Schritt-Anleitungen

Erste Schritte

Grundlegende Aufgaben

PDF-Bearbeitung

E-Rechnung & Archivierung

Betrieb & Server

Praxisbeispiele


Zur Automatic PDF Processor-Übersichtsseite
Automatic PDF Processor jetzt unverbindlich 30 Tage testen ...     Zum Download