70.2 Textextraktion
70.2.1 Übersicht ¶
Die Textextraktion ist eine Erweiterung der Platzhalter-Logik, mit der gezielt Teil-Werte aus Mails oder Anhängen ausgelesen werden - z.B. eine Rechnungsnummer aus dem Betreff, ein Buchungs-Code aus dem Body oder ein Vertragspartner aus einer beigefügten TXT- oder CSV-Datei.
Im Unterschied zu den festen Platzhaltern (siehe Kapitel 70.1) sind Textextraktions-Regeln konfigurierbar: Sie definieren pro Regel, welcher Bereich der Mail durchsucht wird, mit welchen Begrenzungen (von / bis), und mit welcher zusätzlichen Einschränkung (Regex, Anzahl Zeichen).
70.2.2 Direkt-Regex im Betreff oder Body ¶
Die einfachste Variante ist die direkte Regex-Extraktion - ohne separate Regel-Definition. In jedem Eingabefeld können Sie schreiben:
<BeginOfSubjectRegex>INV-(\d{4}-\d{3})<EndOfRegex>
Das Programm wendet das Regex auf den Betreff an und ersetzt den Platzhalter durch die erste Match-Gruppe. Bei mehreren Gruppen lassen sich $1, $2 etc. referenzieren.
Analog gibt es <BeginOfBodyRegex>...<EndOfRegex> für den Body.
Beispiel:
| Betreff |
Regex |
Ergebnis |
Rechnung INV-2026-456 Müller GmbH |
<BeginOfSubjectRegex>INV-(\d{4}-\d{3})<EndOfRegex> |
2026-456 |
Bestellung Nummer 78901 |
<BeginOfSubjectRegex>Nummer (\d+)<EndOfRegex> |
78901 |
70.2.3 Textextraktions-Regeln ¶
Für komplexere Extraktionen (z.B. mehrstufige Bereichs-Eingrenzung, Anwendung auf Anhänge, Encoding-Steuerung) verwenden Sie Textextraktions-Regeln, die im Profil-Editor unter Textextraktion definiert werden.
Pro Regel konfigurieren Sie:
| Feld |
Beschreibung |
| Name |
Eindeutiger Bezeichner (für die Platzhalter-Referenz) |
| Quelle |
Nachrichtentext oder Anhang (mit Datei-Filter) |
| Encoding |
ANSI, UTF-8, Unicode oder explizite Codepage (für Anhänge mit speziellem Format) |
| Bereich von |
Suchstring oder Regex, ab dem die Extraktion beginnt |
| Bereich bis |
Suchstring oder Regex, an dem die Extraktion endet |
| Einschränkung |
Erste X Zeichen, Letzte X Zeichen, oder Regex auf den extrahierten Bereich |
| Werte-Umwandlung |
Optionale Nachschlagetabelle, die den extrahierten Wert weiter mappt (z.B. Code → Klartext) |
70.2.4 Verwendung der Regel als Platzhalter ¶
Eine konfigurierte Regel referenzieren Sie als Platzhalter:
| Platzhalter |
Wirkung |
<MRuleId:5(Rechnungsnummer)> |
Wendet die Regel mit ID 5 (Anzeigename „Rechnungsnummer”) auf den Nachrichtentext an |
<FRuleId:7(Buchungscode)> |
Wendet die Regel mit ID 7 (Anzeigename „Buchungscode”) auf den passenden Anhang an |
MRuleId steht für Message-Rule (Nachrichtentext), FRuleId für File-Rule (Datei-Anhang). Die ID ist der eindeutige Schlüssel der Regel; der Klammer-Anhang ist nur ein lesbarer Anzeigename und wird beim Verarbeiten ignoriert.
Die Auswahl erfolgt im Platzhalter-Menü - alle definierten Regeln erscheinen unter „Textextraktion”.
70.2.5 Bereich-Eingrenzung ¶
Die zwei-stufige Bereichs-Eingrenzung (von + bis) ist die zentrale Logik:
- Bereich von: Suchstring identifiziert die Anfangs-Stelle. Alles davor wird ignoriert.
- Bereich bis: Suchstring identifiziert die End-Stelle. Alles danach wird ignoriert.
- Der dazwischen liegende Text ist der Roh-Treffer.
- Auf den Roh-Treffer wird die Einschränkung angewendet (z.B. erste 20 Zeichen).
- Optional: Werte-Umwandlung über eine Nachschlagetabelle.
Beispiel-Mail-Body:
Sehr geehrte Damen und Herren,
hiermit übersenden wir Ihnen die Rechnung Nummer INV-2026-456
mit einem Gesamtbetrag von 1.234,56 EUR.
Mit freundlichen Grüßen
Regel: - Bereich von: Nummer - Bereich bis: mit - Einschränkung: keine
Ergebnis: INV-2026-456
70.2.6 Encoding und Anhang-Quellen ¶
Bei Datei-basierter Extraktion (Quelle: Anhang) liest das Programm den Anhang mit dem konfigurierten Encoding:
| Encoding |
Wann verwenden |
| ANSI |
Klassische Windows-Textdateien |
| UTF-8 |
Moderne Textdateien, JSON, XML |
| Unicode |
UTF-16 Little-Endian (typische Windows-Mail-Bodies) |
| Codepage |
Explizite Codepage (z.B. 1252, 850) für legacy-Formate |
Die Textextraktion funktioniert nur für reine Text-Anhänge (z.B. TXT, CSV, XML, JSON, HTML). Binärformate werden nicht unterstützt.
70.2.7 Anwendungsfall ¶
Rechnungsnummer aus Betreff
Mail-Betreff: „Rechnung INV-2026-456 vom 7.5.” Regel: Direkt-Regex <BeginOfSubjectRegex>INV-([0-9-]+)<EndOfRegex> → liefert 2026-456. Wird im Pfad-Aufbau als <EmailYear4>-<EmailMonth>-<EmailDay>_<BeginOfSubjectRegex>...<EndOfRegex>.pdf eingesetzt.
70.2.8 Tipps ¶
- Die Werte-Umwandlung über eine Nachschlagetabelle ist mächtig - Sie können einen extrahierten Code direkt in einen lesbaren Klartext umwandeln (siehe Kapitel 70.3)
- Testen Sie neue Regeln auf Beispiel-Mails im Profil-Editor - die Vorschau zeigt das Ergebnis direkt