Schritt-für-Schritt-Anleitung für das automatisierte Anonymisieren von PDF-Dokumenten
Die DSGVO (Datenschutz-Grundverordnung) erfordert oft die Anonymisierung personenbezogener Daten,
bevor Dokumente weitergegeben werden können. Mit dem Automatic PDF Processor können Sie
diesen Prozess vollständig automatisieren.
Typische Anwendungsfälle
- Anonymisierung von Kundendaten für Schulungszwecke
- Entfernung von Namen und Adressen aus Verträgen
- Schwärzung von Kontonummern und IBAN
- Ersetzung von Personalnummern durch Pseudonyme
- Anonymisierung medizinischer Unterlagen
Schritt 1: Neues Profil erstellen
Erstellen Sie ein neues Profil mit einem aussagekräftigen Namen wie "Dokumente anonymisieren".
Legen Sie den zu überwachenden Ordner fest, in dem die zu anonymisierenden Dokumente abgelegt werden.
Schritt 2: Extrahierungsregeln für zu anonymisierende Daten erstellen
Um Daten zu anonymisieren, müssen Sie zunächst definieren, welche Bereiche im Dokument
die zu ersetzenden Daten enthalten. Wechseln Sie zur Registerkarte "Datenextrahierung"
und erstellen Sie Regeln für jeden zu anonymisierenden Bereich:
- Name: Definieren Sie einen Bereich, der den Namen enthält
- Adresse: Definieren Sie einen Bereich für die Adresse
- IBAN: Definieren Sie einen Bereich für die Kontonummer
Die Position kann über ein Schlüsselwort (z.B. "Name:") oder absolute Koordinaten bestimmt werden.
Bei der Datenextrahierung über ein Schlüsselwort ist es oftmals besser, die Datenposition auf
"Bereich der Fundstelle" zu setzen und mittels "Datenbereich erweitern" diesen zu
verschieben und zu vergrößern, so dass beispielsweise der rechts stehende Text vollständig
erfasst ist. Oftmals ist so auch die Positionierung genauer.
Schritt 3: Aufgabe "Inhalt ersetzen" aktivieren
Wechseln Sie zur Aufgabenansicht und wählen Sie die Aufgabe "Inhalt ersetzen".
Diese Aufgabe ermöglicht es, den in den Extrahierungsregeln definierten Text durch
einen anderen Wert zu ersetzen (Redaction mit Textersetzung).
Schritt 4: Ersetzungsregeln konfigurieren
Für jede Extrahierungsregel können Sie festlegen, durch welchen Wert der gefundene Text
ersetzt werden soll. Folgende Ersetzungsquellen stehen zur Verfügung:
| Quelle |
Beschreibung |
Beispiel |
| Fester Text |
Immer derselbe Ersatztext |
"[ANONYMISIERT]" oder "XXXXX" |
| Zufallszahl |
Zufällige Nummer mit konfigurierbarer Stellenzahl |
"98234567" |
| Fortlaufend |
Fortlaufende Nummer |
"PERSON-00001", "PERSON-00002" |
| Zufällig aus Liste |
Zufälliger Wert aus einer Textdatei |
Zufälliger Name aus Namensliste |
| CSV-Zuordnung |
Wert aus CSV-Datei basierend auf Schlüssel |
Pseudonym basierend auf Original-ID |
| Datum/Zeit |
Aktuelles Datum oder Zeit |
"2024-01-01" |
Schritt 5: Anwendungsbereich festlegen
Für jede Ersetzungsregel können Sie den Anwendungsbereich festlegen:
- Einzelnes Vorkommen: Nur das von der Regel gefundene Vorkommen ersetzen
- Alle Seiten an gleicher Position: Gleiche Position auf allen Seiten (z.B. Kopf-/Fußzeilen)
- Alle Vorkommen im Dokument: Jeden Treffer im gesamten Dokument ersetzen
Beispiel: Namen durch Pseudonyme ersetzen
Um Namen konsistent durch Pseudonyme zu ersetzen, können Sie eine CSV-Zuordnung verwenden:
- Erstellen Sie eine CSV-Datei mit der Zuordnung Original → Pseudonym
- Richten Sie eine DynamicQueryList in den Programmoptionen ein
- Wählen Sie "CSV-Zuordnung" als Ersetzungsquelle
- Wählen Sie die entsprechende Liste aus
So wird beispielsweise "Max Mustermann" immer durch "Person A" ersetzt,
während "Erika Musterfrau" immer durch "Person B" ersetzt wird.
Schritt 6: Speicherort festlegen
Legen Sie fest, wo die anonymisierten Dokumente gespeichert werden sollen.
Es empfiehlt sich, einen separaten Ordner für die anonymisierten Versionen zu verwenden:
D:\Dokumente\Anonymisiert\<TodaysYear4>\<TodaysMonth>
Ergebnis
Nach der Konfiguration werden alle in den überwachten Ordner abgelegten Dokumente automatisch:
- Analysiert, um die definierten Datenbereiche zu finden
- Die personenbezogenen Daten durch die konfigurierten Ersatzwerte ersetzt
- Als anonymisierte Version im Zielordner gespeichert
Die Ersetzung erfolgt unwiderruflich - die Originaldaten sind in der anonymisierten Version
nicht mehr rekonstruierbar.