Automatic PDF Processor - PDF-Dateien automatisiert verarbeiten

Die Komplettlösung zur automatisierten Verarbeitung von PDF-Dokumenten

Datenquellen verwenden

Woher eine Extraktionsregel ihren Wert nimmt

Auf einen Blick

Schwierigkeit: Fortgeschritten
Zeitbedarf: ~15 Minuten
Voraussetzungen: Datenextraktion verstehen
Was Sie lernen: Die acht Datenquellen und wann Sie welche einsetzen

Was ist eine Datenquelle?

Bevor eine Extraktionsregel einen Wert verarbeiten kann, muss feststehen, woher dieser Wert kommt. Genau das legt die Datenquelle fest. Während der Datentyp bestimmt, wie ein Wert verstanden wird, bestimmt die Datenquelle, woher er stammt - aus dem sichtbaren Dokumenttext, einem Barcode, den Metadaten, den Dateiinformationen und mehr.

Die Datenquelle wählen Sie im Regeleditor im Bereich "Allgemein". Je nach Auswahl blendet das Programm die passenden Einstellungen ein.

Die acht Datenquellen im Überblick

Datenquelle	Liefert Werte aus ...
Daten aus Dokumententext ermitteln	dem sichtbaren, durchsuchbaren Text der Seiten
Daten aus QR- oder Barcode ermitteln	QR-Codes und Barcodes im Dokument
Metadaten des Dokuments verwenden	PDF-Metadaten wie Titel, Autor oder Erstelldatum
Dateiinformationen verwenden	Dateiname, Pfad und Datei-Datumsangaben
Benutzerdefinierten Text verwenden	einem von Ihnen fest vorgegebenen Text
Wert eines Platzhalters verwenden	dem Ergebnis einer anderen Regel
Formulardaten verwenden	ausfüllbaren PDF-Formularfeldern
Fortlaufende Nummer verwenden	einem automatisch hochzählenden Zähler

Daten aus Dokumententext ermitteln

Die wichtigste und häufigste Quelle. Der Wert wird aus dem sichtbaren Text des PDFs gelesen - zum Beispiel über ein Schlüsselwort und den danebenstehenden Datenbereich. Die Grundlagen dazu erklärt die Anleitung Datenextraktion verstehen.

Wichtig: Diese Quelle funktioniert nur mit PDFs, die durchsuchbaren Text enthalten. Reine Bild-PDFs (Scans) müssen Sie zuvor mit der Texterkennung (OCR) durchsuchbar machen.

Daten aus QR- oder Barcode ermitteln

Liest den Inhalt von QR-Codes und Barcodes aus dem Dokument. Das ist besonders nützlich, wenn Dokumente bereits mit einem Code versehen sind, der eine eindeutige Kennung enthält - etwa eine Vorgangs- oder Belegnummer.

Beispiel: Eingehende Belege tragen einen QR-Code mit der Vorgangsnummer. Sie lesen ihn aus und benennen die Datei danach.

Metadaten des Dokuments verwenden

Greift auf die im PDF gespeicherten Metadaten zu - etwa Titel, Autor, Thema oder das im Dokument hinterlegte Erstell- bzw. Änderungsdatum. Diese Angaben sind nicht im sichtbaren Text enthalten, sondern gehören zu den Eigenschaften der Datei.

Beispiel: Sie sortieren Dokumente nach dem im PDF hinterlegten Autor in unterschiedliche Ordner.

Dateiinformationen verwenden

Nutzt Eigenschaften der Datei selbst - den Dateinamen, den Pfad sowie die Datumsangaben des Dateisystems (Erstellt/Geändert). Praktisch, wenn bereits der Dateiname oder der Ablageort eine verwertbare Information enthält.

Beispiel: Der Dateiname enthält bereits eine Kundennummer, die Sie für die weitere Ablage übernehmen möchten.

Benutzerdefinierten Text verwenden

Liefert einen festen Text, den Sie selbst vorgeben - unabhängig vom Dokumentinhalt. Das ist nützlich für feste Bausteine oder als Rückfallwert: Erstellen Sie eine zweite Regel mit demselben Namen, springt diese ein, wenn die eigentliche Extraktion einmal keinen Wert findet.

Hinweis: Bei dieser Quelle steht ausschließlich der Datentyp Text zur Verfügung.

Wert eines Platzhalters verwenden

Diese Quelle baut auf dem Ergebnis einer anderen Regel auf. So können Sie bereits extrahierte Werte weiterverarbeiten oder mehrere Werte miteinander kombinieren, ohne dieselbe Extraktion erneut einzurichten.

Beispiel: Eine Regel liest das Rechnungsdatum. Eine zweite Regel verwendet diesen Wert, um daraus eine andere Schreibweise zu erzeugen.

Formulardaten verwenden

Liest den Inhalt von ausfüllbaren PDF-Formularfeldern (z. B. Textfelder oder Auswahlkästchen). Voraussetzung ist, dass das PDF echte Formularfelder enthält - nicht nur aufgedruckten Text. Eine ausführliche Anleitung finden Sie unter PDF-Formulardaten auslesen.

Fortlaufende Nummer verwenden

Erzeugt eine automatisch hochzählende Nummer - zum Beispiel eine durchgehende Belegnummer. Die Nummerierung wird über benannte Zähler verwaltet, die Sie zentral pflegen. Mehrere Regeln oder Profile, die denselben Zähler verwenden, teilen sich eine garantiert eindeutige, lückenlose Nummernfolge.

Beispiel: Jede verarbeitete Rechnung erhält eine fortlaufende interne Nummer wie 000123, 000124, 000125 - mit frei wählbarem Startwert und Format.

Welche Quelle ist die richtige?

Ihr Ziel	Geeignete Datenquelle
Wert steht im sichtbaren Dokumenttext	Daten aus Dokumententext ermitteln
Dokument trägt einen QR-/Barcode	Daten aus QR- oder Barcode ermitteln
Information steckt im Dateinamen oder Pfad	Dateiinformationen verwenden
Titel/Autor aus den PDF-Eigenschaften	Metadaten des Dokuments verwenden
Ausfüllbares Formular-PDF	Formulardaten verwenden
Fester Text oder Rückfallwert	Benutzerdefinierten Text verwenden
Auf einem bereits extrahierten Wert aufbauen	Wert eines Platzhalters verwenden
Durchgehende, eindeutige Nummerierung	Fortlaufende Nummer verwenden

Nächste Schritte

Datentypen verwenden - Wie ein Wert verarbeitet wird: Text, Datum, Zahl, Abfrage und Abfrage (mit Liste)
Platzhalter-System erklärt - Extrahierte Werte in Dateinamen und Pfaden verwenden
PDF-Formulardaten auslesen - Werte aus Formularfeldern gezielt extrahieren

Weitere Schritt-für-Schritt-Anleitungen

Automatic PDF Processor jetzt unverbindlich 30 Tage testen ... Zum Download