Anleitung: KI-gestützte Dokumentaufteilung in der IPA-Suite

Anleitung: KI-gestützte Dokumentaufteilung in der IPA-Suite

🌟 KI-gestützte Dokumentaufteilung in der IPA-Suite

Mit der IPA-Suite ab Version 9.2.x.x können mehrseitige PDF-Dokumente automatisch in einzelne, logisch zusammengehörige Dokumente aufgeteilt werden.
Die integrierte KI analysiert jede Seite des Dokuments, erkennt Zusammenhänge, ordnet Seiten einem Dokumententyp (Doctype) zu und extrahiert zusätzlich definierte Variablen – sowohl aus dem gesamten Stapel als auch aus den jeweiligen Teil­dokumenten.
Alle erkannten Informationen werden in separaten XML-Dateien gespeichert, die später im Folgeprozess weiter verarbeitet werden können.


✨ Funktionsweise

Sie legen ein mehrseitiges PDF-Dokument in einen überwachten Ordner oder starten den Prozess manuell.

Die KI führt anschließend eine strukturierte Analyse durch:

Die KI erkennt pro Seite:

  • den Dokumententyp (z. B. Rechnung, Packliste, Frachtbrief, Zertifikat, …),

  • welche Seiten zusammengehören und ein gemeinsames Dokument bilden,

  • die Start- und Endseite jedes erkannten Teil­dokuments,

  • alle zusätzlichen Variablen, die im gesamten Dokumentenstapel gesucht werden sollen (z. B. Invoice Number, Vessel, Container ID, …).

Die IPA-Suite erzeugt automatisch:

  • eine eigene PDF-Datei für jedes erkannte Dokument,

  • eine zugehörige XML-Datei, die alle relevanten Metadaten enthält:

    • Doctype

    • Startseite / Endseite

    • gesamte Batchvariablen

    • inhaltliche Zusatzinformationen (falls übergeben).

Die XML ist vollständig maschinenlesbar und wird nach einem fixen Schema erstellt.


📂 Ergebnisstruktur

Beispiel: Ursprungs-PDF mit 14 Seiten (z. B. Frachtunterlagen)

01_Versandbenachrichtigung.pdf 01_Versandbenachrichtigung.xml 02_SeaWayBill.pdf 02_SeaWayBill.xml 03_Rechnung.pdf 03_Rechnung.xml … 14_Produktionszertifikat.pdf 14_Produktionszertifikat.xml

Regeln:

  • Dateiname startet mit der Startseite des Dokuments
    (automatisch zweistellig, dreistellig etc., abhängig von der Gesamtseitenzahl).

  • Danach folgt der erkannte Doctype als Dateiname.

  • Die XML-Datei enthält:

    • Erkannten Doctype

    • Start- und Endseite

    • alle extrahierten Variablen

    • weitere Metadaten, falls konfiguriert

Damit können Folgeprozesse die Dokumente präzise und vollständig weiterverarbeiten.


🛠️ Konfiguration

1. Dokumenttypen definieren

Legen Sie im IPA-Suite Admin unter „Dokumenttypen“ fest, welche Dokumentarten im Stapel erkannt werden sollen (z. B. Rechnung, Packliste, Certificate of Origin, …).

2. Zwei Prozesse anlegen

Für die Batch-Verarbeitung werden zwei getrennte Prozesse benötigt:

  • Schritt 1: KI-Analyse & Aufteilung des PDFs

  • Schritt 2: Weiterverarbeitung der aufgeteilten PDFs inkl. XML-Metadaten

3. Schritt 1 konfigurieren

  • Öffnen Sie den Prozess „Schritt 1“.

  • Aktivieren Sie unter KI → Batch Processing:
    Activate batch processing

  • Wählen Sie als Ausgabeordner den überwachten Ordner von Schritt 2.

  • Definieren Sie zusätzliche Variablen, die über den gesamten Stapel hinweg extrahiert werden sollen.

  • Optional: Hinterlegen Sie zusätzliche Informationen zur KI-Analyse.

  • Speichern Sie den Prozess.


Notes

WICHTIGER Hinweis

Bevor Schritt 2 konfiguriert ist, dürfen dort keine Dateien abgegriffen werden.
Tragen Sie zum Schutz in Schritt 2 zunächst im Bereich Input (Network/Image Scanner) folgendes ein:

  • „Nur wenn Dateiname…“ → XXXXX

  • „Nur wenn Pfad…“ → XXXXX

Dadurch werden die erzeugten XML-Dateien nicht abgegriffen und Sie können die Konfiguration von Prozess 2 vornehmen.


4. Schritt 2 konfigurieren

  • Entfernen Sie die XXXXX-Einträge wieder.

  • Unter Input → Network/Image Scanner → Metadata come with document wählen Sie:
    Interpret and use any XML

  • Geben Sie eine Beispiel-XML aus Schritt 1 an.

  • Verwenden Sie Regex, um Metadaten aus der XML in Meta1 … Meta10 zu schreiben.

  • Konfigurieren Sie anschließend die gewünschte KI-Verarbeitung, Ausgabeordner oder Archivierung.

  • Speichern Sie Schritt 2.

5. Test

Übergeben Sie eine Testdatei an Schritt 1 und überprüfen Sie die erzeugten Dateien in Schritt 2.


🔎 Hinweise für Anwender

  • Vollständige Verarbeitung
    Jede Seite des Originaldokuments wird berücksichtigt und muss im Ergebnis abgedeckt sein.

  • Unklare Seiten
    Kann ein Dokumenttyp nicht sicher erkannt werden, wird automatisch unknown verwendet.

  • Automatische Plausibilitätsprüfung
    Die KI und die IPA-Suite versuchen zu prüfen, ob keine Seite fehlt.

  • Sonderzeichenbehandlung
    Dokumentnamen werden automatisch in gültige Dateinamen konvertiert (Umlaute, Sonderzeichen entfernt/ersetzt).

  • Archiv-Integration
    Die erzeugten PDFs und XMLs können optional direkt in den IPA-DocStore übernommen werden.


✅ Vorteile für Sie

  • Massive Zeitersparnis
    Vollautomatische Aufteilung großer Dokumentstapel – keine manuelle Sortierung mehr.

  • Minimierte Fehlerquote
    KI erkennt selbst unstrukturierte Dokumente und unterschiedlichste Layouts zuverlässig.

  • Hohe Flexibilität
    Eigene Dokumenttypen und Variablen frei definierbar.

  • Maximale Transparenz
    Jede PDF-Ausgabedatei enthält eine passende XML mit sämtlichen Metadaten.