Mit der IPA-Suite ab Version 9.2.x.x können mehrseitige PDF-Dokumente automatisch in einzelne, logisch zusammengehörige Dokumente aufgeteilt werden.
Die integrierte KI analysiert jede Seite des Dokuments, erkennt Zusammenhänge, ordnet Seiten einem Dokumententyp (Doctype) zu und extrahiert zusätzlich definierte Variablen – sowohl aus dem gesamten Stapel als auch aus den jeweiligen Teildokumenten.
Alle erkannten Informationen werden in separaten XML-Dateien gespeichert, die später im Folgeprozess weiter verarbeitet werden können.
Sie legen ein mehrseitiges PDF-Dokument in einen überwachten Ordner oder starten den Prozess manuell.
Die KI führt anschließend eine strukturierte Analyse durch:
den Dokumententyp (z. B. Rechnung, Packliste, Frachtbrief, Zertifikat, …),
welche Seiten zusammengehören und ein gemeinsames Dokument bilden,
die Start- und Endseite jedes erkannten Teildokuments,
alle zusätzlichen Variablen, die im gesamten Dokumentenstapel gesucht werden sollen (z. B. Invoice Number, Vessel, Container ID, …).
eine eigene PDF-Datei für jedes erkannte Dokument,
eine zugehörige XML-Datei, die alle relevanten Metadaten enthält:
Doctype
Startseite / Endseite
gesamte Batchvariablen
inhaltliche Zusatzinformationen (falls übergeben).
Die XML ist vollständig maschinenlesbar und wird nach einem fixen Schema erstellt.
Beispiel: Ursprungs-PDF mit 14 Seiten (z. B. Frachtunterlagen)
Dateiname startet mit der Startseite des Dokuments
(automatisch zweistellig, dreistellig etc., abhängig von der Gesamtseitenzahl).
Danach folgt der erkannte Doctype als Dateiname.
Die XML-Datei enthält:
Erkannten Doctype
Start- und Endseite
alle extrahierten Variablen
weitere Metadaten, falls konfiguriert
Damit können Folgeprozesse die Dokumente präzise und vollständig weiterverarbeiten.
Legen Sie im IPA-Suite Admin unter „Dokumenttypen“ fest, welche Dokumentarten im Stapel erkannt werden sollen (z. B. Rechnung, Packliste, Certificate of Origin, …).
Für die Batch-Verarbeitung werden zwei getrennte Prozesse benötigt:
Schritt 1: KI-Analyse & Aufteilung des PDFs
Schritt 2: Weiterverarbeitung der aufgeteilten PDFs inkl. XML-Metadaten
Öffnen Sie den Prozess „Schritt 1“.
Aktivieren Sie unter KI → Batch Processing:
✔ Activate batch processing
Wählen Sie als Ausgabeordner den überwachten Ordner von Schritt 2.
Definieren Sie zusätzliche Variablen, die über den gesamten Stapel hinweg extrahiert werden sollen.
Optional: Hinterlegen Sie zusätzliche Informationen zur KI-Analyse.
Speichern Sie den Prozess.

Bevor Schritt 2 konfiguriert ist, dürfen dort keine Dateien abgegriffen werden.
Tragen Sie zum Schutz in Schritt 2 zunächst im Bereich Input (Network/Image Scanner) folgendes ein:
„Nur wenn Dateiname…“ → XXXXX
„Nur wenn Pfad…“ → XXXXX
Dadurch werden die erzeugten XML-Dateien nicht abgegriffen und Sie können die Konfiguration von Prozess 2 vornehmen.
Entfernen Sie die XXXXX-Einträge wieder.
Unter Input → Network/Image Scanner → Metadata come with document wählen Sie:
✔ Interpret and use any XML
Geben Sie eine Beispiel-XML aus Schritt 1 an.
Verwenden Sie Regex, um Metadaten aus der XML in Meta1 … Meta10 zu schreiben.
Konfigurieren Sie anschließend die gewünschte KI-Verarbeitung, Ausgabeordner oder Archivierung.
Speichern Sie Schritt 2.
Übergeben Sie eine Testdatei an Schritt 1 und überprüfen Sie die erzeugten Dateien in Schritt 2.
Vollständige Verarbeitung
Jede Seite des Originaldokuments wird berücksichtigt und muss im Ergebnis abgedeckt sein.
Unklare Seiten
Kann ein Dokumenttyp nicht sicher erkannt werden, wird automatisch unknown verwendet.
Automatische Plausibilitätsprüfung
Die KI und die IPA-Suite versuchen zu prüfen, ob keine Seite fehlt.
Sonderzeichenbehandlung
Dokumentnamen werden automatisch in gültige Dateinamen konvertiert (Umlaute, Sonderzeichen entfernt/ersetzt).
Archiv-Integration
Die erzeugten PDFs und XMLs können optional direkt in den IPA-DocStore übernommen werden.
Massive Zeitersparnis
Vollautomatische Aufteilung großer Dokumentstapel – keine manuelle Sortierung mehr.
Minimierte Fehlerquote
KI erkennt selbst unstrukturierte Dokumente und unterschiedlichste Layouts zuverlässig.
Hohe Flexibilität
Eigene Dokumenttypen und Variablen frei definierbar.
Maximale Transparenz
Jede PDF-Ausgabedatei enthält eine passende XML mit sämtlichen Metadaten.