21 Extraktionen speichern

Aufgabe: Extraktionen speichern

21.1 Beschreibung

Die Aufgabe Extraktionen speichern exportiert die mit Extrahierungsregeln gewonnenen Daten in eine externe Datei. Aktuell wird das CSV-Format unterstützt, das von nahezu allen Anwendungen importiert werden kann.

Typische Anwendungsfälle

  • Buchhaltung: Rechnungsdaten (Nummer, Datum, Betrag) für den Import in die Buchhaltungssoftware exportieren
  • Dokumentenmanagement: Metadaten für die Indexierung in ein DMS übertragen
  • Datenerfassung: Extrahierte Informationen in einer zentralen Tabelle sammeln
  • Automatisierung: Strukturierte Daten für nachfolgende Verarbeitungsschritte bereitstellen

21.2 Allgemeine Einstellungen

Aktiviert

Aktivieren Sie diese Option, damit die Aufgabe bei passenden PDF-Dateien ausgeführt wird. Deaktivierte Aufgaben werden übersprungen.


21.3 Zu exportierende Regeln

Regelauswahl

Wählen Sie die Extrahierungsregeln aus, deren Werte in die Datei geschrieben werden sollen. Jede ausgewählte Regel wird als separate Spalte in der CSV-Datei dargestellt.

Hinweis: Nur Regeln, die im Profil definiert sind und Daten extrahieren, können exportiert werden. Die Reihenfolge der Regeln in der Auswahl bestimmt die Spaltenreihenfolge in der CSV-Datei.


21.4 CSV-Einstellungen

Trennzeichen

Das Zeichen, das die einzelnen Werte (Spalten) trennt. Standardmäßig wird das Listentrennzeichen des Systems verwendet.

Trennzeichen Beschreibung
, (Komma) Internationaler Standard
; (Semikolon) Deutscher Standard, empfohlen für deutsche Excel-Versionen
\t (Tabulator) Für TAB-getrennte Dateien

Tipp: Verwenden Sie ; wenn Sie die Datei mit deutschen Excel-Versionen öffnen möchten.

Spaltenüberschriften

Aktivieren Sie diese Option, um in der ersten Zeile die Namen der Extrahierungsregeln als Spaltenüberschriften auszugeben.

Beispiel mit Spaltenüberschriften:

Rechnungsnummer;Datum;Betrag
RE-12345;15.12.2024;1250,00
RE-12346;16.12.2024;890,50

Beispiel ohne Spaltenüberschriften:

RE-12345;15.12.2024;1250,00
RE-12346;16.12.2024;890,50

Sammeldatei

Aktivieren Sie diese Option, um alle extrahierten Daten in einer gemeinsamen Datei zu sammeln. Neue Datensätze werden am Ende der Datei angehängt.

  • Aktiviert: Alle PDFs schreiben in dieselbe CSV-Datei (eine Zeile pro PDF)
  • Deaktiviert: Jedes PDF erzeugt eine separate CSV-Datei

Anwendungsfall: Sie verarbeiten täglich mehrere Rechnungen und möchten alle Daten in einer einzigen Übersichtsdatei sammeln.

Mehrzeilige Werte expandieren

Wenn eine Extrahierungsregel mehrzeilige Werte liefert (z.B. mehrere Positionen einer Rechnung), können Sie festlegen, wie diese behandelt werden:

  • Nicht expandieren (Standard): Der mehrzeilige Text bleibt in einer Zelle
  • Regel auswählen: Der mehrzeilige Wert wird in separate CSV-Zeilen aufgeteilt (mit Wiederholung der anderen Spaltenwerte)

Beispiel: Eine Rechnung mit 3 Positionen - Ohne Expansion: Position 1↵Position 2↵Position 3 in einer Zelle - Mit Expansion: 3 separate Zeilen in der CSV


21.5 Zeichencodierung

Wählen Sie die Zeichencodierung für die Ausgabedatei:

Codierung Beschreibung Empfohlen für
ANSI Windows-Standardcodierung Ältere Anwendungen
UTF-8 Unicode ohne BOM Web, moderne Anwendungen
UTF-8 mit BOM Unicode mit Byte Order Mark Excel (empfohlen)
UTF-16 LE/BE 16-Bit Unicode Spezielle Anwendungen
ASCII Nur Standardzeichen Legacy-Systeme

Empfehlung: Verwenden Sie “UTF-8 mit BOM” für beste Kompatibilität mit Excel und Umlauten.


21.6 Speicherort

Verzeichnis

Geben Sie das Zielverzeichnis für die CSV-Datei an.

Hinweis: Es wird empfohlen, für jeden Verarbeitungsschritt einen eigenen Ordner zu verwenden, um eine klare Trennung zu gewährleisten.

Dateiname

Legen Sie den Namen für die CSV-Datei fest.

Beispiele:

Eingabe Ergebnis
Export Export.csv
<TodaysYear4>-<TodaysMonth>-<TodaysDay>_Rechnungen 2024-12-15_Rechnungen.csv
<FileName>_Daten Rechnung123_Daten.csv

Bei Sammeldatei: Verwenden Sie einen festen Namen oder einen Datums-Platzhalter für tägliche/monatliche Dateien.

Namenskollisionen

Wählen Sie, was passieren soll, wenn bereits eine Datei mit dem Zielnamen existiert:

Option Beschreibung
Überschreiben Die vorhandene Datei wird ersetzt
Nummerierung anfügen Fügt eine Nummer an
Datum anfügen Fügt das Verarbeitungsdatum an
Datum und Uhrzeit anfügen Fügt Datum und Uhrzeit an
Vorgang abbrechen Die Datei wird nicht geschrieben

Bei Sammeldatei: Diese Einstellung gilt nur für neue Dateien. Bei aktivierter Sammeldatei werden neue Zeilen immer angehängt.


21.7 Dateidatum

Erstellungs- und Änderungsdatum anpassen

Optional können Sie das Dateidatum der CSV-Datei ändern:

Option Beschreibung
Nicht ändern Die Datei erhält automatisch das aktuelle Datum
Erstellungsdatum der Originaldatei Übernimmt das Erstellungsdatum der PDF
Änderungsdatum der Originaldatei Übernimmt das Änderungsdatum der PDF
PDF-Erstellungsdatum Datum aus den PDF-Metadaten
Extrahiertes Datum Ein mit einer Extrahierungsregel gewonnenes Datum
Aktuelles Datum Setzt das heutige Datum

21.8 Im Anschluss

Externes Programm aufrufen

Nach dem Speichern kann automatisch ein externes Programm gestartet werden.

Programm: Pfad zur ausführbaren Datei

Parameter: Kommandozeilenparameter. Verfügbare Platzhalter: - <PathIncludingFilename> - Vollständiger Pfad der CSV-Datei - <ParentDirectory> - Pfad des Elternordners - <Filename> - Dateiname der CSV-Datei


21.9 Beispiel: Rechnungsdaten für Buchhaltung exportieren

Ausgangssituation

Eingehende Rechnungen sollen automatisch verarbeitet werden. Die Rechnungsdaten (Nummer, Datum, Lieferant, Betrag) sollen in eine CSV-Datei exportiert werden, die monatlich in die Buchhaltungssoftware importiert wird.

Voraussetzungen

Extrahierungsregeln definiert für: - Regel 1: “Rechnungsnummer” - Regel 2: “Rechnungsdatum” - Regel 3: “Lieferant” - Regel 4: “Bruttobetrag”

Konfiguration

  1. Aktiviert: Ja
  2. Ausgewählte Regeln: Alle vier Regeln
  3. Trennzeichen: ;
  4. Spaltenüberschriften: Ja
  5. Sammeldatei: Ja
  6. Zeichencodierung: UTF-8 mit BOM
  7. Verzeichnis: D:\Buchhaltung\Import
  8. Dateiname: Rechnungen_<TodaysYear4>-<TodaysMonth>

Ergebnis

Alle im Dezember 2024 verarbeiteten Rechnungen werden in einer Datei gesammelt:

Datei: D:\Buchhaltung\Import\Rechnungen_2024-12.csv

Rechnungsnummer;Rechnungsdatum;Lieferant;Bruttobetrag
RE-12345;15.12.2024;Mustermann GmbH;1250,00
RE-12346;16.12.2024;Schmidt AG;890,50
RE-12347;17.12.2024;Beispiel KG;2100,00

21.10 Beispiel: Einzelne CSV pro PDF

Ausgangssituation

Jede verarbeitete Rechnung soll eine eigene CSV-Datei mit den extrahierten Daten erhalten, um sie einem Dokumentenmanagementsystem als Begleitdatei beizufügen.

Konfiguration

  1. Aktiviert: Ja
  2. Ausgewählte Regeln: Alle relevanten Regeln
  3. Sammeldatei: Nein
  4. Verzeichnis: D:\Archiv\<TodaysYear4>\<TodaysMonth>
  5. Dateiname: <FileName>

Ergebnis

PDF-Datei CSV-Datei
Rechnung_12345.pdf D:\Archiv\2024\12\Rechnung_12345.csv
Rechnung_12346.pdf D:\Archiv\2024\12\Rechnung_12346.csv

21.6 Tipps und Hinweise

Sonderzeichen in Werten

Wenn extrahierte Werte das Trennzeichen enthalten (z.B. , in einem Betrag), werden die Werte automatisch in Anführungszeichen gesetzt:

"Mustermann, GmbH";15.12.2024;1250,00

Leere Werte

Wenn eine Extrahierungsregel für ein bestimmtes PDF keinen Wert liefert, wird ein leeres Feld geschrieben:

RE-12345;;Mustermann GmbH;1250,00

(Hier fehlt das Datum)

Reihenfolge der Spalten

Die Spaltenreihenfolge in der CSV-Datei entspricht der Reihenfolge der ausgewählten Regeln. Ändern Sie die Auswahl-Reihenfolge, um die Spaltenreihenfolge anzupassen.

Excel-Import

Für einen problemlosen Import in Excel: 1. Verwenden Sie ; als Trennzeichen (bei deutscher Excel-Version) 2. Wählen Sie UTF-8 mit BOM als Codierung 3. Aktivieren Sie Spaltenüberschriften

Kombination mit anderen Aufgaben

Die Aufgabe “Extraktionen speichern” kann gut mit anderen Aufgaben kombiniert werden: 1. Datei umbenennen: PDF nach extrahierten Daten umbenennen 2. Datei kopieren: PDF ins Archiv kopieren 3. Extraktionen speichern: Daten für Import exportieren 4. E-Mail versenden: Benachrichtigung mit extrahierten Daten senden