70.2 Textextraktion

70.2.1 Übersicht

Die Textextraktion ist eine Erweiterung der Platzhalter-Logik, mit der gezielt Teil-Werte aus Mails oder Anhängen ausgelesen werden - z.B. eine Rechnungsnummer aus dem Betreff, ein Buchungs-Code aus dem Body oder ein Vertragspartner aus einer beigefügten TXT- oder CSV-Datei.

Im Unterschied zu den festen Platzhaltern (siehe Kapitel 70.1) sind Textextraktions-Regeln konfigurierbar: Sie definieren pro Regel, welcher Bereich der Mail durchsucht wird, mit welchen Begrenzungen (von / bis), und mit welcher zusätzlichen Einschränkung (Regex, Anzahl Zeichen).


70.2.2 Direkt-Regex im Betreff oder Body

Die einfachste Variante ist die direkte Regex-Extraktion - ohne separate Regel-Definition. In jedem Eingabefeld können Sie schreiben:

<BeginOfSubjectRegex>INV-(\d{4}-\d{3})<EndOfRegex>

Das Programm wendet das Regex auf den Betreff an und ersetzt den Platzhalter durch die erste Match-Gruppe. Bei mehreren Gruppen lassen sich $1, $2 etc. referenzieren.

Analog gibt es <BeginOfBodyRegex>...<EndOfRegex> für den Body.

Beispiel:

Betreff Regex Ergebnis
Rechnung INV-2026-456 Müller GmbH <BeginOfSubjectRegex>INV-(\d{4}-\d{3})<EndOfRegex> 2026-456
Bestellung Nummer 78901 <BeginOfSubjectRegex>Nummer (\d+)<EndOfRegex> 78901

70.2.3 Textextraktions-Regeln

Für komplexere Extraktionen (z.B. mehrstufige Bereichs-Eingrenzung, Anwendung auf Anhänge, Encoding-Steuerung) verwenden Sie Textextraktions-Regeln, die im Profil-Editor unter Textextraktion definiert werden.

Pro Regel konfigurieren Sie:

Feld Beschreibung
Name Eindeutiger Bezeichner (für die Platzhalter-Referenz)
Quelle Nachrichtentext oder Anhang (mit Datei-Filter)
Encoding ANSI, UTF-8, Unicode oder explizite Codepage (für Anhänge mit speziellem Format)
Bereich von Suchstring oder Regex, ab dem die Extraktion beginnt
Bereich bis Suchstring oder Regex, an dem die Extraktion endet
Einschränkung Erste X Zeichen, Letzte X Zeichen, oder Regex auf den extrahierten Bereich
Werte-Umwandlung Optionale Nachschlagetabelle, die den extrahierten Wert weiter mappt (z.B. Code → Klartext)

70.2.4 Verwendung der Regel als Platzhalter

Eine konfigurierte Regel referenzieren Sie als Platzhalter:

Platzhalter Wirkung
<MRuleId:5(Rechnungsnummer)> Wendet die Regel mit ID 5 (Anzeigename „Rechnungsnummer”) auf den Nachrichtentext an
<FRuleId:7(Buchungscode)> Wendet die Regel mit ID 7 (Anzeigename „Buchungscode”) auf den passenden Anhang an

MRuleId steht für Message-Rule (Nachrichtentext), FRuleId für File-Rule (Datei-Anhang). Die ID ist der eindeutige Schlüssel der Regel; der Klammer-Anhang ist nur ein lesbarer Anzeigename und wird beim Verarbeiten ignoriert.

Die Auswahl erfolgt im Platzhalter-Menü - alle definierten Regeln erscheinen unter „Textextraktion”.


70.2.5 Bereich-Eingrenzung

Die zwei-stufige Bereichs-Eingrenzung (von + bis) ist die zentrale Logik:

  1. Bereich von: Suchstring identifiziert die Anfangs-Stelle. Alles davor wird ignoriert.
  2. Bereich bis: Suchstring identifiziert die End-Stelle. Alles danach wird ignoriert.
  3. Der dazwischen liegende Text ist der Roh-Treffer.
  4. Auf den Roh-Treffer wird die Einschränkung angewendet (z.B. erste 20 Zeichen).
  5. Optional: Werte-Umwandlung über eine Nachschlagetabelle.

Beispiel-Mail-Body:

Sehr geehrte Damen und Herren,
hiermit übersenden wir Ihnen die Rechnung Nummer INV-2026-456
mit einem Gesamtbetrag von 1.234,56 EUR.
Mit freundlichen Grüßen

Regel: - Bereich von: Nummer - Bereich bis: mit - Einschränkung: keine

Ergebnis: INV-2026-456


70.2.6 Encoding und Anhang-Quellen

Bei Datei-basierter Extraktion (Quelle: Anhang) liest das Programm den Anhang mit dem konfigurierten Encoding:

Encoding Wann verwenden
ANSI Klassische Windows-Textdateien
UTF-8 Moderne Textdateien, JSON, XML
Unicode UTF-16 Little-Endian (typische Windows-Mail-Bodies)
Codepage Explizite Codepage (z.B. 1252, 850) für legacy-Formate

Die Textextraktion funktioniert nur für reine Text-Anhänge (z.B. TXT, CSV, XML, JSON, HTML). Binärformate werden nicht unterstützt.


70.2.7 Anwendungsfall

Rechnungsnummer aus Betreff

Mail-Betreff: „Rechnung INV-2026-456 vom 7.5.” Regel: Direkt-Regex <BeginOfSubjectRegex>INV-([0-9-]+)<EndOfRegex> → liefert 2026-456. Wird im Pfad-Aufbau als <EmailYear4>-<EmailMonth>-<EmailDay>_<BeginOfSubjectRegex>...<EndOfRegex>.pdf eingesetzt.


70.2.8 Tipps

  • Die Werte-Umwandlung über eine Nachschlagetabelle ist mächtig - Sie können einen extrahierten Code direkt in einen lesbaren Klartext umwandeln (siehe Kapitel 70.3)
  • Testen Sie neue Regeln auf Beispiel-Mails im Profil-Editor - die Vorschau zeigt das Ergebnis direkt