Warum acht Agenten und nicht ein Chatbot.
Das Einzel-Chatbot-Muster scheitert an genau den Prüfungen, die ein Bilanzierungs-Policy-Team einem Junior abverlangt. Acht Agenten bestehen sie.
Die Form der Policy-Arbeit
Policy-Beratung — in einer Big-Four-Firma oder einem internen Bilanzierungsteam — ist keine Frage-und-Antwort-Aufgabe. Sie ist adversariales Argumentieren unter Unsicherheit. Zwei Lesarten desselben Absatzes in IAS 36 können beide vertretbar sein. Die Frage ist, welche der Prüfer akzeptiert und welche die Aufsicht nicht angreift. Das ist kein Faktensuchproblem.
Ein echtes Policy-Team spielt das strukturell durch. Der Ersteller entwirft die Position. Ein Reviewer fordert sie aus Sicht eines skeptischen Prüfers heraus. Ein Senior Partner steht über beiden und entscheidet, welcher Rahmen tragfähig ist. Das Ergebnis ist nicht die erste Antwort des Erstellers; es ist die Antwort, die den Austausch überstanden hat.
Ein einzelner Chatbot hat nichts davon. Er erzeugt eine plausible Antwort und hält an. Plausibilität ist der Fehlerfall. Aus der Ausgabe allein lässt sich nicht erkennen, welche von drei oder vier ähnlich plausiblen Alternativen das Modell erwogen und verworfen hat. Man wird also gezwungen, den Prompt mit Variationen zu wiederholen, um sichtbar zu machen, was beim ersten Mal sichtbar hätte sein sollen.
Was jeder der acht Agenten tut
Ile Owo benennt die Rollen explizit und leitet die Arbeit zwischen ihnen. Der Orchestrator hält den Arbeitskontext und entscheidet, welcher Agent als Nächstes läuft. Der Filter grenzt die Anfrage gegen das Korpus ein — Anerkennungen des UK Endorsement Board, BIZ-Veröffentlichungen, Fachbibliotheken der Big Four, interne Policy-Memos — und verwirft Off-Topic-Material. Der Summarian extrahiert die tragenden Aussagen aus jeder Quelle.
In der mittleren Stufe steckt die adversariale Struktur. Der Historiker verortet die Frage in früheren Normungsentscheidungen: Wann wurde dieser Absatz zuletzt ausgelegt, von wem, mit welchen späteren Änderungen? Der Insider vertritt die Position des Erstellers — dort, wo die Norm Ermessen lässt, und dort, wo sie eine harte Regel gibt. Der Outsider vertritt die Position des Prüfers oder Aufsehers und bringt jene Einwände hervor, die der Insider lieber gemieden hätte.
Die Synthese liegt bei zwei weiteren Agenten. Der Auditor entscheidet den Insider/Outsider-Austausch anhand des Normtextes und der Analoga des Historikers und schreibt die abgewogene Position. Der Scribe erstellt daraus die finale Beratungsnotiz im Hausstil — Quellenangaben, Begründung, Zusammenfassung.
Plausibilität ist der Fehlerfall. Ein einzelner Chatbot erzeugt eine plausible Antwort und hält an; der Leser sieht nicht, was erwogen und verworfen wurde.
Warum das ein einzelnes Großmodell schlägt
Drei Gründe, nach Wichtigkeit. Spezialisierung zuerst: Der Prompt jedes Agenten ist auf seine Rolle abgestimmt. Der Prompt des Outsiders belohnt das Finden der Position, die der Insider übersehen hat; der Prompt des Insiders belohnt die sauberste, verteidigbare Formulierung. Ein einzelner Chatbot, der über beide Rollen gemittelt ist, schreibt keine von beiden gut.
Kontext-Isolierung als Zweites: Jeder Agent läuft mit eigenem Arbeitsspeicher. Der Outsider sieht den Entwurf des Insiders nicht, bevor er seine eigenen Einwände formuliert hat. Das beseitigt die Höflichkeits-Kompression, die entsteht, wenn ein einziges Modell Entwurf und Kritik in einem Zug schreibt — es endet stets damit, die Kritik dem Entwurf anzupassen.
Audit-Spur als Drittes, und das ist die, auf die die Aufsicht achtet. Die Ausgabe jedes Agenten wird mit Zeitstempel, Quellenzitaten und Zwischenargumenten protokolliert. Wenn ein Aufseher fragt „Wie ist diese Position entstanden?", lautet die Antwort kein Chat-Protokoll, sondern ein strukturierter Datensatz: welche Quellen erwogen, welche Positionen geprüft, welche Review welchen Gegenargument hervorgebracht hat. Das ist ein prüfbarer Artefakt. Ein einzelner Chatbot liefert nur die finale Antwort und den Prompt; alles dazwischen bleibt implizit.
Was das nicht löst
Ile Owo zertifiziert keine Vollständigkeit. Der Filter kann eine relevante Quelle übersehen haben; der Historiker einen Präzedenzfall; der Auditor eine bekannte Sorge der Aufsicht zu gering gewichten. Das System ist ein Entwurfs-Beschleuniger und ein strukturierter Erstprüfer, keine Entscheidungsinstanz.
Es ersetzt auch nicht das menschliche Urteil bei wirklich neuen Fragen — jenen, bei denen die Antwort lautet „wir sollten direkt beim Standardsetzer nachfragen". In diesen Fällen ist die nützlichste Ausgabe der Agenten nicht ihre Schlussfolgerung; es ist die Sammlung von Überlegungen, die sie aufgeworfen haben, und die zur Briefing-Mappe für das folgende Gespräch wird.
Behandeln Sie es wie den Erstentwurf einer Senior Associate, in zwanzig Minuten statt drei Tagen verfasst. Lesen Sie ihn dann so, wie jeden Erstentwurf eines noch nicht voll vertrauten Kollegen: auf der Suche nach dem Fehlenden, nicht nach dem Vorhandenen.