KI-Agenten pragmatisch einsetzen | Jan Kirenz

Illustration: Ein Agent arbeitet mit Werkzeugen, Checklisten und Kontrollpunkten.

Auf einen Blick

KI‑Agenten sind keine magischen Lösungen: Sie verbinden Sprachmodelle mit Werkzeugen und Prozessen – und kämpfen weiterhin mit Zuverlässigkeit.
Jetzt ist Lernzeit: Wer 2025 klein beginnt, versteht Risiken, Datenflüsse und Governance – und verhindert teure Irrwege ab 2026.
Wert entsteht heute vor allem im Backoffice (Dokumente, Service‑Backends, IT‑Ops) – aber nur mit klaren KPIs und Human‑in‑the‑Loop.
Architektur ja, Over‑Engineering nein: RAG + wenige, gut gekapselte Tools, expliziter State/Checkpoints, Transparenz im Betrieb und einfache Guardrails genügen für den Start.
Fallstudien zeigen Potenzial, sind aber kontextabhängig – ohne eigenes Messkonzept lassen sich Fallstudien-Ergebnisse nicht seriös übertragen.

1. Warum jetzt über KI-Agenten sprechen – und warum skeptisch bleiben

Es gibt bei neuen Technologien einen Moment, in dem die Versprechen schneller wachsen als die Fähigkeiten. KI-Agenten sind aktuell genau dort: Sie können recherchieren, Daten extrahieren, E-Mails vorbereiten, Tickets anlegen – und wirken dabei erstaunlich kompetent. Gleichzeitig scheitern sie an banalen Dingen: wechselnden Formularen, unklaren Rollenrechten, versteckten Annahmen im Prompt. Das ist kein Widerspruch, sondern der Normalzustand junger Technologien.

Für Unternehmen heißt das: Jetzt beginnen – aber mit realistischer Erwartung. Wer 2025 Prozesse versteht, Datenflüsse aufräumt und Governance etabliert, kann 2026/27 seriös skalieren. Wer heute „alles automatisiert“, baut häufig eine fragile Black-Box, die im Betrieb teuer wird.

2. Was KI-Agenten sind – und was nicht

Vereinfacht gesagt erinnern KI-Agenten an kompetente Juniorkräfte. Sie sind verlässlich bei Standardaufgaben, erzielen bessere Ergebnisse mit klaren Briefings und haben Schwierigkeiten bei Mehrdeutigkeit. Technisch kombinieren Agenten drei Dinge:

Sprachmodell für Verständnis und Planung,
Werkzeuge (APIs, Datenbanken, Web/Steuerung über Benutzeroberflächen „Computer Use“ = Steuerung von Benutzeroberflächen durch den Agenten) für Handlungen,
Gedächtnis/Zustand (Kontext & Zwischenergebnisse) für mehrschrittige Aufgaben.

Wichtig ist der iterative Zyklus aus beobachten, planen, handeln und erneutem beobachten. Das hat Folgen: Ohne expliziten Zustand (Kontrollpunkte, Protokolle) fehlt Nachvollziehbarkeit. Ohne Grenzen (Rollen, Limits) handeln Agenten zu weit. Und ohne Menschen im Loop bleiben Fehler teilweise unentdeckt.

3. Was heute zuverlässig funktioniert – und was (noch) nicht

Gut geeignet sind in der Regel enge, datennahe Aufgaben: Dokumente klassifizieren, Informationen extrahieren, Wissensartikel referenzieren, Tickets anlegen, Status zusammenfassen. Hier helfen strukturierte Quellen, feste Werkzeugschnittstellen und eine einfache Erfolgskontrolle (z. B. „Feld korrekt befüllt?“).

Schwer bleiben offene, mehrdeutige Fälle: kreative Analysen ohne Quellenbezug, regulatorische Entscheidungen, heikle Kundenkommunikation mit rechtlichen Folgen. Auch „Computer Use“ ist aktuell eher ein Spezialfall, der nur selten zum Einsatz kommt – theoretisch nützlich, aber anspruchsvoll in der Umsetzung.

Wenn Ihr Team klare Arbeitsabläufe, saubere Daten und überprüfbare Outputs hat, profitieren Sie früh. Fehlen diese Grundlagen, beschleunigt ein Agent vor allem Fehler.

Autonomie realistisch bewerten – 2025 dominiert der Workflow-Modus

„Autonome“ Agenten klingen verlockend, doch der betriebliche Nutzen entsteht heute vor allem dort, wo klar definierte Arbeitsabläufe sauber umgesetzt werden: regelbasierte Sequenzen mit Kontrollpunkten, Rollenrechten und Freigaben. Der Mehrwert liegt in Tempo, Konsistenz und Nachvollziehbarkeit – nicht in unbeaufsichtigten Entscheidungen. In regulierten EU-Umgebungen sprechen Recht und Haftung gegen weitreichende Autonomie ohne dokumentierte Freigaben; zugleich sind viele Zielumgebungen wechselhaft (veränderte Benutzeroberflächen, Rechteketten, Datenqualität), was autonome Schleifen brüchig macht. Ohne harte Grenzen, menschliche Mitwirkung und lückenlose Nachverfolgung lassen sich Fehlerfolgen und Kosten nicht beherrschen; offene Eingabekanäle mit Zugriff auf Werkzeuge erhöhen zudem die Angriffsfläche (z. B. über das Einschleusen manipulativer Prompts).

Praktisch bewährt hat sich ein Spektrum an Betriebsarten. Am Anfang stehen unterstützte Szenarien, bei denen das Modell Vorschläge liefert, ohne Werkzeuge auszuführen. Es folgt die schrittweise Nutzung von Werkzeugen mit fest parametrierten Aufrufen (zum Beispiel Extraktion, Nachschlagevorgänge). Der heutige Standard ist der aufeinander abgestimmte Arbeitsablauf: ein vordefinierter Ablaufplan mit Kontrollpunkten, Fehlerpfaden und Freigabestellen mit menschlicher Entscheidung, der verlässlich wiederholbar ist. Wo mehr Flexibilität nötig ist, lässt sich eingeschränkte Autonomie in einer abgeschotteten Umgebung zulassen: Der Agent darf Varianten wählen, bewegt sich aber strikt innerhalb von Regeln, Positivlisten, Kontingenten und Zeitbegrenzungen. Volle Autonomie im Produktivbetrieb bleibt Ausnahmefällen vorbehalten – in engen Fachdomänen mit stabilen Programmierschnittstellen, strenger Steuerung und erst nach Probeläufen.

Damit das sicher funktioniert, gilt: erst Arbeitsabläufe, dann Autonomie. Zuerst kommen Regeln und Grenzen: Wer darf was – mit welchen Betrags- und Risikoschwellen, Zeit- und Kostenbudgets? Jeder Lauf benötigt einen sichtbaren Plan mit klaren Erfolgskriterien und Abbruchbedingungen. Kontrollpunkte und Protokolle sichern Wiederaufnahme, Prüfungen und messbare Entscheidungen durch Menschen. Die technische Voreinstellung ist „verweigern“: Zugriffe auf Werkzeuge nur über Positivlisten und mit minimal erforderlichen Rechten (Einmalanmeldung mit Rollen). Wirtschaftliche Leitplanken – Zeitbegrenzungen, Kostenobergrenzen, Begrenzung paralleler Abläufe sowie definierte Wiederholversuche mit Eskalation – schützen Betrieb und Budget. Für die Steuerung über Benutzeroberflächen gilt eine Pflicht zur abgeschotteten Umgebung, Eingriffe in Produktivsysteme erfolgen vorzugsweise über Programmierschnittstellen.

Auch die Freigabelogik folgt einem klaren Raster: Tätigkeiten mit niedrigem Risiko (zum Beispiel Entwürfe, Statusmeldungen) dürfen autonom laufen, werden aber konsequent protokolliert. Operative Schritte mit mittlerem Risiko erfordern eine menschliche Freigabe vor der Ausführung oder nach Überschreiten festgelegter Schwellenwerte (etwa Betrag, Empfänger, Zielsystem). Rechtlich oder finanziell wirksame Aktionen benötigen immer eine manuelle Endfreigabe nach dem Vier-Augen-Prinzip – einschließlich revisionssicherem Nachweis.

Für die Einführung empfiehlt sich ein gestuftes Vorgehen: Zunächst ein Probelauf ohne Wirkung auf Produktivsysteme, bei dem der Agent Pläne, Unterschiede und Belege erzeugt. Danach Teilautonomie: unkritische Schritte laufen eigenständig, kritische bleiben an eine menschliche Freigabe gebunden. Schließlich werden Schwellenwerte behutsam angehoben, während Kennzahlen wie Erfolgsquote, Kosten je Fall und Anteil menschlicher Freigaben eng überwacht werden. So wächst die Handlungsfreiheit in dem Maß, in dem Daten, Rechteketten, Transparenz im Betrieb und Freigabemechanismen ihren stabilen Betrieb bewiesen haben.

4. Architektur – so wenig wie möglich, so viel wie nötig

Für den Einstieg genügen oftmals diese Bausteine:

Kontext & Daten (Quellenbezug, RAG+): Starten Sie mit einem kleinen, kuratierten Korpus (aktuelle Dokumente mit klaren Zugriffsrechten). Nutzen Sie Retrieval, um Antworten zu belegen. Wenige, gut strukturierte Quellen schlagen einen „alles-rein“-Index.

Orchestrierung (Zustand & Kontrollpunkte): Bilden Sie den Arbeitsfluss als Graph ab: Schritte, Schleifen, menschliche Freigaben. Kontrollpunkte erlauben Wiederaufnahme nach Fehlern und liefern Audit-Spuren.

Leitplanken (Guardrails): Mindestrechteprinzip konsequent umsetzen: Werkzeuge nur mit minimalen Rechten, Betrags-/Zeitlimits, Positivlisten für Zieladressen. „Computer Use“ – wenn überhaupt – in einer virtuellen Maschine.

Transparenz im Betrieb & Qualitätssicherung: Ohne aussagekräftige Protokolle und Ablaufspuren kein Vertrauen: Eingaben, Werkzeugaufrufe, Kosten, Laufzeiten, Quellen, Freigaben. Definieren Sie eine kleine, feste Metrikliste (z. B. Erfolgsquote, Zeit je Fall, Fehlerklassen) und prüfen Sie regelmäßig Stichproben.

Enterprise-Integration: Einmalanmeldung (SSO), Rollen (RBAC) und ein Schreib-/Lesekonzept zu SAP, M365 etc. sind Pflicht. Ein Agent ohne klares Berechtigungsmodell ist ein Sicherheitsproblem – kein Produkt.

Audit-Log – Mindestumfang: Versionen von Eingaben/Antworten, Modell/Version, Werkzeugaufrufe inkl. Parameter/Ergebnis/Dauer, genutzte Quellen (mit Dokument-Version), Kosten/Laufzeit pro Schritt, Entscheidungspfade (Übergaben/menschliche Mitwirkung), Fehlersignaturen/Wiederholversuche.

5. Ein Entscheidungsraster für Use Cases

Prüfen Sie jeden Kandidaten anhand von Regelwerk, Datenlage und Risiko:

Kategorie	Typische Beispiele	Warum (nicht)	Testkriterium
Geeignet	Dokumentklassifikation, Antworten mit Quellen, Ticket-Vorqualifizierung, Kontenabgleich mit festen Regeln	Klare Inputs/Outputs, überprüfbar, geringer Schaden bei Fehlern	> 80 % Treffergenauigkeit im Referenzdatensatz (Golden Set), < X € Kosten je Fall
Experimentell	IT-Runbooks mit Werkzeugaufrufen, Lieferantenkommunikation, einfache Vertriebsassistenz	Mehrdeutigkeiten, variable Werkzeuge, mittleres Risiko	Quote menschlicher Mitwirkung (HITL) definiert (z. B. 30–50 %), saubere Eskalation
Vermeiden	Rechtliche/finanzielle Entscheidungen, heikle Kundenkommunikation ohne Freigabe, Produktionssteuerung in Echtzeit	Hohe Folgeschäden, unklare Haftung, strenge Regulierung	Nur mit klarer Verantwortungsrolle und manueller Endfreigabe

6. Plattform-Landschaft – konkret starten, ohne sich festzufahren

Bevor Sie sich für einen Weg entscheiden, lohnt ein kurzer Blick auf das Schichtenmodell – und auf die Kompetenzen, die jede Schicht verlangt. Typisch sind vier Ebenen:

Daten- und Wissensschicht (Dokumentquellen, Indizes, Vektorspeicher, Rechtefortführung),
Agenten-/Backend-Schicht (Orchestrierung, Werkzeugadapter, Regeln, Protokollierung),
Benutzeroberfläche (Frontend) für Fachbereiche,
Querschnitte wie Einmalanmeldung (SSO), rollenbasierte Rechte (RBAC), Sicherheit und Transparenz im Betrieb.

Eine Standardlösung für alle Anwendungsfälle gibt es nicht: Architektur und Betriebsmodell hängen vom konkreten Einsatzszenario, der Schutzwürdigkeit des geistigen Eigentums, den Teamkompetenzen und den Gesamtkosten über den Lebenszyklus ab. Ein Trend 2025 ist zudem die Strategie mit mehreren Sprachmodellen: Standardfunktionen werden zugekauft, während die wirklich differenzierenden Teile – Ablauf-Logik, Werkzeuganbindung, Domänenwissen und Messkonzept – gezielt im eigenen Haus entstehen. Wo unternehmenskritisches Know-how berührt ist, wird Souveränität zum Entscheidungskriterium: Anbieter mit Verarbeitung in der EU und – wo sinnvoll – offen verfügbare Modelle im eigenen Kontrollbereich schaffen zusätzliche Sicherheit.

Darauf aufbauend unterscheiden sich zwei Betriebsmodi – und sie setzen unterschiedliches Know-how voraus. Codebasierte Pfade (zum Beispiel mit OpenAI-SDK/Responses oder LangGraph) bieten maximale Gestaltungsfreiheit, erfordern aber Softwarekompetenz in Sprachen wie Python und TypeScript, die Anbindung von Programmierschnittstellen, Tests und Betrieb. Menü- bzw. Low-Code-Pfade (zum Beispiel Microsoft Copilot Studio oder Google Agentspace) liefern Konnektoren, Rechtefortführung und Oberflächenbausteine; vieles gelingt per Konfiguration, Governance und Protokollierung bleiben dennoch Pflicht.

Startpfade nach Unternehmenskontext

Google-zentriert: ADK/Agent Engine (codeorientiert) oder Agentspace (menügeführt). Wer stark im Google-Ökosystem arbeitet, hat zwei sinnvolle Startpfade: codeorientiert mit dem Agent Development Kit (ADK) und der Agent Engine als verwalteter Laufzeit – oder oberflächenbasiert mit Agentspace. Agentspace ist ein menügeführter Arbeitsbereich: Datenquellen anbinden, Konnektoren aktivieren, Ablagen und Indizes anlegen, bestehende Rollenrechte fortführen sowie Such- und Wissensanwendungen zusammenstellen – alles mit wenig bis gar keinem Code. Richtlinien, Freigaben und Protokolle werden zentral gepflegt. Vorteil: ein schneller, gut administrierbarer Einstieg. Im Blick behalten sollte man regionale Funktionsunterschiede sowie Nutzungs- und Kostenlimits.

Microsoft-zentriert: Copilot Studio (menügeführt). In M365-Organisationen bietet sich Copilot Studio an. Die visuelle Orchestrierung erleichtert den Einstieg, Graph-/Business-Konnektoren binden Unternehmenssysteme an, Oberflächenbausteine bringen schnell arbeitsfähige Dialoge auf den Bildschirm. Wichtig sind verbindliche Leitplanken: Einmalanmeldung, Rollen, Protokollierung, Kosten- und Zeitlimits sowie eine klare Freigabelogik für wirksame Aktionen. Für Lücken ohne Programmierschnittstelle kann UI-Automatisierung in einer abgeschotteten Umgebung punktuell helfen – produktiv aber nur mit strikten Grenzen.

Selbstbetrieb: n8n als Workflow-Brücke (menügeführt, wenig Code). n8n ist eine visuelle Automations- und Orchestrierungsplattform für den Eigenbetrieb (oder EU-Cloud). Sie verbindet Unternehmenssysteme über Konnektoren, Webhooks und Zeitpläne und bildet Abläufe, Entscheidungen und Fehlerpfade grafisch ab – inklusive Rollenprüfung, Freigaben, Protokollen sowie Kosten- und Zeitlimits. Technisch ist n8n keine Modell- oder Agentenlaufzeit, sondern die Verbindung zwischen Benutzeroberfläche, Datenquellen und Ihrem eigentlichen Agenten-Dienst. n8n kann sich mit beliebigen Modellen und Agenten verbinden – solange ein HTTP/REST-Endpunkt oder ein aufrufbarer Dienst vorhanden ist. Das umfasst modellbasierte Endpunkte (z. B. OpenAI, Azure OpenAI, Google-Modelle, lokale Modelle) und eigene Agenten, die Sie etwa mit LangGraph oder dem OpenAI-Agents-SDK bereitstellen.

OpenAI-zentriert: Agents-SDK/Responses (codebasiert). Mit dem OpenAI-Agents-SDK beziehungsweise der Responses-Schnittstelle lassen sich Werkzeugaufrufe, Zustandsverwaltung und Übergaben zwischen Teilagenten fein steuern. Die Einbindung eigener Dokumente (Quellenbezug/RAG) kann plattformnah oder extern angebunden werden. Unverzichtbar sind Transparenz im Betrieb (Ablaufspuren, Kosten, Laufzeiten), eine nachvollziehbare Datenaufbewahrung und EU-konforme Verarbeitung. Dieser Pfad ist ideal, wenn Engineering-Ressourcen vorhanden sind und Differenzierung im Prozessdesign gewünscht ist.

OSS-zentriert: LangGraph + frei wählbare Bausteine (codebasiert). Wer Unabhängigkeit und Austauschbarkeit priorisiert, setzt auf Lösungen wie LangGraph für Orchestrierung, Zustand und Kontrollpunkte; ergänzt um RAG-Pipelines (zum Beispiel Haystack oder LlamaIndex) sowie frei wählbare Modelle und Vektor-Dienste (lokal oder Cloud). Das verlangt mehr Eigenbetrieb (Build- und Auslieferungsprozesse/CI-CD, Monitoring, Kostensteuerung), bietet dafür maximale Portabilität und die Möglichkeit, Sicherheits- und Datenschutzanforderungen sehr fein zuzuschneiden.

Benutzeroberfläche (Frontend): selbst entwickeln oder übernehmen?

Ob ein Pilot im Fachbereich Akzeptanz findet, entscheidet häufig die Benutzeroberfläche: Sie muss schnell reagieren, übersichtlich sein und die Rechte sauber prüfen.

Eigenentwicklung mit Frameworks wie React oder Next.js ist sinnvoll, wenn spezielle Bedienlogik, Abbildung individueller Arbeitsabläufe für Fachprozesse oder ein bestimmtes Markenbild gefordert sind. Man gewinnt maximale Kontrolle (Komponenten, Rollenprüfungen), zahlt aber mit Entwicklungs- und Wartungsaufwand. Für die schnelle Entwicklung von Prototypen eignen sich auch Python-basierte Frameworks wie Streamlit oder Gradio: In wenigen Zeilen entstehen klickbare Oberflächen mit Formularen, Datei-Uploads und einfachen Workflows – ideal für Experimente und interne Tests. Grenzen liegen bei individueller Gestaltung, komplexen Rollen-/SSO-Konzepten und Skalierung; für produktive Fachanwendungen ist oft eine spätere Ablösung oder Integration ins bestehende Frontend sinnvoll.

Vorgefertigte Benutzer-Oberflächen verkürzen die Zeit bis zum ersten nutzbaren Prototyp. Beispielhafte Optionen:

LibreChat ist ein quelloffenes Web-Frontend für Assistenten. Typischer Funktionsumfang (je nach Konfiguration und Backend): Anbindung mehrerer Modellanbieter, Verwaltung von Gesprächen und Vorlagen (Systemanweisungen), Upload von Dateien oder Wissensanhängen für Quellenbezug (RAG), einfache Rollen-/Rechte-Konzepte, Team-Freigabe von Prompts sowie grundlegende Protokolle über Abläufe und Kosten. Stärken: sehr schneller Roll-out, vertrautes Chat-Paradigma, gute Erweiterbarkeit.
Open WebUI richtet sich an Teams, die lokale oder selbst gehostete Modelle nutzen wollen (ggf. kombiniert mit externen Endpunkten) und bringt eine moderne Oberfläche, Dokument-Bezug (RAG) und Verwaltung von Modellquellen mit.
Chatbot UI ist eine React-Anwendung als Startpunkt – ideal, wenn Sie sehr schnell ein eigenes, anpassbares Frontend benötigen und die restliche Logik bereits im Backend liegt.
Dify geht über eine reine BEnutzer-Oberfläche hinaus Richtung App-Baukasten mit Workflows, Datenspeichern und Auslieferung; geeignet, wenn Sie Oberfläche, einfache Orchestrierung und Verwaltung aus einer Hand wünschen.

Bei vorkonfigurierten Oberflächen sollten Sie vor dem Einsatz prüfen, ob zentrale Grundlagen erfüllt sind: Einmalanmeldung und Rollenmodell (SSO/RBAC); eine saubere Anbindung an Ihr Backend (Schnittstellen/SDKs); revisionssichere Audit-Exporte für Gespräche, Werkzeugaufrufe und Kosten; wirksamer Schutz vor Datenabfluss (Upload-Filter, Positivlisten); Unterstützung für Quellenbezug (RAG) sowie Optionen zur Trennung nach Mandanten oder Teams. Gerade in Pilotphasen ist wichtig, dass Protokolle und Messwerte (inklusive Kosten und Laufzeiten) ohne Zusatzaufwand sichtbar sind – sonst fehlt die Grundlage für eine belastbare ROI-Bewertung.

7. Kontext und Suche: interne Quellen nutzbar machen

Plattformdienste für Unternehmenssuche decken den gesamten Weg von der Datenanbindung über die Indizierung und Rechtefortführung bis zur Abfrage ab. Sie bringen damit bereits eine semantische Suche mit – oft inklusive Vektorindex –, sodass in vielen Fällen kein zusätzlicher Vektorspeicher nötig ist. Ein eigener Vektorspeicher wird vor allem dann sinnvoll, wenn Sie die Retrieval-Logik sehr fein steuern möchten (eigene Einbettungen, spezielles Ranking), besondere Anforderungen an Datenhoheit und Löschkonzepte haben oder temporäre Team-Kontexte und Spezialkorpora getrennt vom kanonischen Wissensbestand halten wollen. Beides lässt sich kombinieren: die Plattform für das „offizielle“ Unternehmenswissen, ein Vektorspeicher für experimentelle oder kurzlebige Arbeitsbestände.

Für die Einbindung eigener Quellen stehen mehrere ausgereifte, produktionsnahe Dienste bereit. Azure AI Search bietet hybride Suche, breite Datenanbindungen und eine enge Verzahnung mit Identitäten und Rechten in europäischen Regionen. Amazon Kendra (GenAI Index) adressiert ähnliche Anforderungen im AWS-Umfeld mit starker Unterstützung für Unternehmensquellen. In Google-Landschaften liegt Vertex AI Search nahe, das klassische und semantische Suche zusammenführt. Bewährte Alternativen sind Elastic Enterprise Search bzw. OpenSearch, beide mit Varianten für Eigenbetrieb und Cloud. Algolia NeuralSearch punktet mit sehr geringer Latenz und entwicklerfreundlichen Schnittstellen. Ergänzend dazu unterstützt Zeta Alpha den Quellenbezug mit nutzer- und rollenbasierten Zugriffsrechten, konfigurierbaren Datenpipelines und hybrider Suche – hilfreich, wenn Berechtigungen aus dem Quellsystem durchgängig respektiert werden müssen.

Vektorspeicher (Vector Stores)

Entscheiden Sie sich für einen komponentenbasierten Ansatz oder benötigen Sie zusätzliche Flexibilität, kommen Vektorspeicher als technische Basiskomponente für die semantische Ähnlichkeitssuche ins Spiel. Sie speichern Einbettungen und beantworten Abfragen; Konnektoren, Rechtefortführung und Oberflächen werden dann in Ihrer Orchestrierung umgesetzt. Pinecone ist ein verwalteter Dienst mit hoher Zuverlässigkeit und europäischen Regionen; Kontrollen und Protokolle lassen sich gut integrieren. Qdrant eignet sich für Cloud-, Hybrid- und Eigenbetriebsszenarien und bietet feine Steuerungsmöglichkeiten – passend für Souveränitäts-Setups. Weaviate steht sowohl als Cloud-Dienst als auch offen zur Verfügung und bringt ein breites Ökosystem sowie Filter und hybride Suche mit. Milvus beziehungsweise Zilliz Cloud ist auf große Datenbestände und wechselnde Durchsatzanforderungen ausgelegt und damit besonders interessant, wenn das Volumen schnell wächst.

Auswahlkriterien und Souveränität

Für die Wahl der Plattform sind vor allem die durchgängige Rechtefortführung (Einmalanmeldung und rollenbasierte Zugriffskontrolle), Prüfbarkeit (Auditierbarkeit) sowie Beobachtbarkeit bzw. Transparenz im Betrieb maßgeblich. Im deutschsprachigen Raum kommen zusätzlich die Anforderungen aus Datenschutz-Grundverordnung, Datenresidenz und menschlicher Aufsicht zum Tragen. Es lohnt sich, früh die Zusammenarbeit mit Datenschutz, Informationssicherheit und Betriebsrat zu organisieren und die rechtlichen Grundlagen (etwa für Indizierung oder nachgelagertes Anlernen), die Datenflüsse (Index gegenüber Live-Daten) und die Grenzen der Autonomie (wo endet der Agent, wer entscheidet) nachvollziehbar zu dokumentieren. In Summe gilt: keine Einheitslösung, sondern eine wohldosierte Kombination aus Bausteinen – idealerweise mit einer Mehr-Modell-Strategie, die Standardfähigkeiten einkauft und die eigenen Differenzierungsmerkmale intern entwickelt.

8. ROI realistisch messen

Skalierung ohne belastbare Messung ist Blindflug. Jede Pilotierung braucht daher ein klares Ausgangsniveau (Baseline), einen definierten Beobachtungszeitraum und eindeutige Entscheidungskriterien. Konkret: Was kostet ein Vorgang heute, wie lange dauert er, und wie oft trifft das System die Zielvorgabe?

Als Kernkennzahlen haben sich drei Größen bewährt, die durchgehend erhoben und protokolliert werden sollten: Zielerreichung (Anteil korrekt bearbeiteter Fälle), Durchlaufzeit je Vorgang (inklusive Warte- und Freigabezeiten) und Kosten je Fall (Modell- und Werkzeugkosten, Infrastruktur sowie Personalaufwand für Freigaben und Stichprobenprüfungen). Flankieren Sie diese Messung mit einer schlanken Qualitätsmethode: einem Referenzdatensatz (Golden Set) mit repräsentativen Fällen plus regelmäßigen Stichprobenprüfungen durch die Fachseite. Voraussetzung dafür sind durchgängige Protokolle der Läufe – Eingaben/Prompts, Werkzeugaufrufe, Entscheidungen und Freigaben.

Ergänzen Sie die Messung um Budgetsteuerung: Versehen Sie alle Läufe mit Kostenstellen- oder Projekt-Tags und hinterlegen Sie harte Kosten- und Zeitlimits je Vorgang; bei Überschreitung bricht das System den Lauf ab oder eskaliert automatisch.

Starten Sie den Pilot im Schattenbetrieb, um eine faire Vergleichsbasis zu erhalten, und wechseln Sie anschließend in einen begrenzten Wirkbetrieb mit klarer Freigabelogik. Definieren Sie vorab, wann der Versuch als Erfolg gilt: etwa stabil über 80 % Zielerreichung über einen repräsentativen Zeitraum, sinkende Kosten je Fall gegenüber der Baseline und eine abnehmende Quote menschlicher Mitwirkung (HITL) – bei unverändertem oder besserem Service-Niveau. Ebenso wichtig sind Stopp-Kriterien: Überschreitet der Pilot Kosten- oder Fehlergrenzen, wird zurückgebaut oder beendet. Ein „Nein“ ist in diesem Rahmen ein gutes Ergebnis, weil es Ressourcen und Folgekosten spart.

Zitierte Erfolgszahlen aus Fallstudien können Orientierung geben, sind aber selten übertragbar: Branchen, Prozesse, Datenlage und Unterstützungsstrukturen unterscheiden sich. Übernehmen Sie deshalb nicht die Prozentwerte, sondern das Vorgehen: sauber definieren, transparent messen, in kurzen Schleifen verbessern – und nur dann ausweiten, wenn die eigenen Kennzahlen tragen.

Executive-Agenda (30–60 Tage)

Einen Use Case mit echtem Volumen wählen (COO/CIO): klarer Input/Output, geringe Folgeschäden, vorhandene Daten.
Kleinen, sauberen Datenkorpus erstellen (Data Lead): aktuelle Dokumente, Rechte geprüft, Quellen versioniert.
Minimal-Architektur aufsetzen (Head of IT/AI): Quellenbezug (RAG) + 1–2 Werkzeuge, Zustand/Kontrollpunkte, SSO/RBAC, Transparenz im Betrieb.
Freigaben (HITL) & Ablaufhandbuch definieren (Fachbereich + Legal/DPO + Betriebsrat): Freigabeschritte, Eskalation, Verantwortlichkeiten.
Messkonzept und Stopp-Kriterien festlegen (QA/Controlling): KPIs, Kostenlimits, Qualitätsstichproben; „Go/No-Go“ nach 30 Tagen.

Fazit

Die Frage in 2025 ist nicht „Können Agenten alles?“, sondern: „Welche kleinen, überprüfbaren Aufgaben erledigen sie heute verlässlich – und was lernen wir dabei?“ Wer so vorgeht, baut Kompetenzen auf, reduziert Risiken und schafft die Grundlage für spätere Skalierung. Der Rest ist solide Ingenieursarbeit: Daten ordnen, Rechte klären, messen, verbessern.

FAQ

1) Wie vermeide ich Anbieterbindung am Anfang?
Kapseln Sie Werkzeuge/Modelle hinter eigene Adapter, versionieren Sie Eingaben/Prompts und Ablaufhandbücher (Runbooks) und nutzen Sie eine Orchestrierung, die mehrere Modelle/Endpunkte unterstützt. Testen Sie früh den Modelltausch als Exit-Übung.

2) Was ist der häufigste Grund, warum Piloten scheitern?
Typischerweise nicht Halluzinationen – sondern unklare Ziele und fehlende Messung. Ohne KPIs und saubere Daten „wirkt“ der Pilot, liefert aber keinen belastbaren Nutzen.

3) Sind „Computer Use“-Agenten produktionsreif?
Punktuell ja – aber nur in abgeschotteten Umgebungen (Sandbox/VM) mit Positivlisten und Limits sowie menschlicher Freigabe vor wirksamen Aktionen. Im Kerngeschäft sollten Programmierschnittstellen der Standardweg sein.

4) Ab wann lohnt sich Skalierung?
Wenn ein Pilot stabil über 80 % Zielerreichung zeigt, die Kosten je Fall unter dem bisherigen Niveau liegen und die HITL-Quote signifikant sinkt, haben Sie einen Kandidaten für den Rollout.

Auf einen Blick

KI‑Agenten sind keine magischen Lösungen: Sie verbinden Sprachmodelle mit Werkzeugen und Prozessen – und kämpfen weiterhin mit Zuverlässigkeit.
Jetzt ist Lernzeit: Wer 2025 klein beginnt, versteht Risiken, Datenflüsse und Governance – und verhindert teure Irrwege ab 2026.
Wert entsteht heute vor allem im Backoffice (Dokumente, Service‑Backends, IT‑Ops) – aber nur mit klaren KPIs und Human‑in‑the‑Loop.
Architektur ja, Over‑Engineering nein: RAG + wenige, gut gekapselte Tools, expliziter State/Checkpoints, Transparenz im Betrieb und einfache Guardrails genügen für den Start.
Fallstudien zeigen Potenzial, sind aber kontextabhängig – ohne eigenes Messkonzept lassen sich Fallstudien-Ergebnisse nicht seriös übertragen.

1. Warum jetzt über KI-Agenten sprechen – und warum skeptisch bleiben

2. Was KI-Agenten sind – und was nicht

Sprachmodell für Verständnis und Planung,
Werkzeuge (APIs, Datenbanken, Web/Steuerung über Benutzeroberflächen „Computer Use“ = Steuerung von Benutzeroberflächen durch den Agenten) für Handlungen,
Gedächtnis/Zustand (Kontext & Zwischenergebnisse) für mehrschrittige Aufgaben.

3. Was heute zuverlässig funktioniert – und was (noch) nicht

Wenn Ihr Team klare Arbeitsabläufe, saubere Daten und überprüfbare Outputs hat, profitieren Sie früh. Fehlen diese Grundlagen, beschleunigt ein Agent vor allem Fehler.

Autonomie realistisch bewerten – 2025 dominiert der Workflow-Modus

4. Architektur – so wenig wie möglich, so viel wie nötig

Für den Einstieg genügen oftmals diese Bausteine:

5. Ein Entscheidungsraster für Use Cases

Prüfen Sie jeden Kandidaten anhand von Regelwerk, Datenlage und Risiko:

Kategorie	Typische Beispiele	Warum (nicht)	Testkriterium
Geeignet	Dokumentklassifikation, Antworten mit Quellen, Ticket-Vorqualifizierung, Kontenabgleich mit festen Regeln	Klare Inputs/Outputs, überprüfbar, geringer Schaden bei Fehlern	> 80 % Treffergenauigkeit im Referenzdatensatz (Golden Set), < X € Kosten je Fall
Experimentell	IT-Runbooks mit Werkzeugaufrufen, Lieferantenkommunikation, einfache Vertriebsassistenz	Mehrdeutigkeiten, variable Werkzeuge, mittleres Risiko	Quote menschlicher Mitwirkung (HITL) definiert (z. B. 30–50 %), saubere Eskalation
Vermeiden	Rechtliche/finanzielle Entscheidungen, heikle Kundenkommunikation ohne Freigabe, Produktionssteuerung in Echtzeit	Hohe Folgeschäden, unklare Haftung, strenge Regulierung	Nur mit klarer Verantwortungsrolle und manueller Endfreigabe

6. Plattform-Landschaft – konkret starten, ohne sich festzufahren

Bevor Sie sich für einen Weg entscheiden, lohnt ein kurzer Blick auf das Schichtenmodell – und auf die Kompetenzen, die jede Schicht verlangt. Typisch sind vier Ebenen:

Daten- und Wissensschicht (Dokumentquellen, Indizes, Vektorspeicher, Rechtefortführung),
Agenten-/Backend-Schicht (Orchestrierung, Werkzeugadapter, Regeln, Protokollierung),
Benutzeroberfläche (Frontend) für Fachbereiche,
Querschnitte wie Einmalanmeldung (SSO), rollenbasierte Rechte (RBAC), Sicherheit und Transparenz im Betrieb.

Startpfade nach Unternehmenskontext

Benutzeroberfläche (Frontend): selbst entwickeln oder übernehmen?

Ob ein Pilot im Fachbereich Akzeptanz findet, entscheidet häufig die Benutzeroberfläche: Sie muss schnell reagieren, übersichtlich sein und die Rechte sauber prüfen.

Vorgefertigte Benutzer-Oberflächen verkürzen die Zeit bis zum ersten nutzbaren Prototyp. Beispielhafte Optionen:

LibreChat ist ein quelloffenes Web-Frontend für Assistenten. Typischer Funktionsumfang (je nach Konfiguration und Backend): Anbindung mehrerer Modellanbieter, Verwaltung von Gesprächen und Vorlagen (Systemanweisungen), Upload von Dateien oder Wissensanhängen für Quellenbezug (RAG), einfache Rollen-/Rechte-Konzepte, Team-Freigabe von Prompts sowie grundlegende Protokolle über Abläufe und Kosten. Stärken: sehr schneller Roll-out, vertrautes Chat-Paradigma, gute Erweiterbarkeit.
Open WebUI richtet sich an Teams, die lokale oder selbst gehostete Modelle nutzen wollen (ggf. kombiniert mit externen Endpunkten) und bringt eine moderne Oberfläche, Dokument-Bezug (RAG) und Verwaltung von Modellquellen mit.
Chatbot UI ist eine React-Anwendung als Startpunkt – ideal, wenn Sie sehr schnell ein eigenes, anpassbares Frontend benötigen und die restliche Logik bereits im Backend liegt.
Dify geht über eine reine BEnutzer-Oberfläche hinaus Richtung App-Baukasten mit Workflows, Datenspeichern und Auslieferung; geeignet, wenn Sie Oberfläche, einfache Orchestrierung und Verwaltung aus einer Hand wünschen.

7. Kontext und Suche: interne Quellen nutzbar machen

Vektorspeicher (Vector Stores)

Auswahlkriterien und Souveränität

8. ROI realistisch messen

Executive-Agenda (30–60 Tage)

Einen Use Case mit echtem Volumen wählen (COO/CIO): klarer Input/Output, geringe Folgeschäden, vorhandene Daten.
Kleinen, sauberen Datenkorpus erstellen (Data Lead): aktuelle Dokumente, Rechte geprüft, Quellen versioniert.
Minimal-Architektur aufsetzen (Head of IT/AI): Quellenbezug (RAG) + 1–2 Werkzeuge, Zustand/Kontrollpunkte, SSO/RBAC, Transparenz im Betrieb.
Freigaben (HITL) & Ablaufhandbuch definieren (Fachbereich + Legal/DPO + Betriebsrat): Freigabeschritte, Eskalation, Verantwortlichkeiten.
Messkonzept und Stopp-Kriterien festlegen (QA/Controlling): KPIs, Kostenlimits, Qualitätsstichproben; „Go/No-Go“ nach 30 Tagen.

KI-Agenten pragmatisch einführen

Auf einen Blick

1. Warum jetzt über KI-Agenten sprechen – und warum skeptisch bleiben

2. Was KI-Agenten sind – und was nicht

3. Was heute zuverlässig funktioniert – und was (noch) nicht

Autonomie realistisch bewerten – 2025 dominiert der Workflow-Modus

4. Architektur – so wenig wie möglich, so viel wie nötig

5. Ein Entscheidungsraster für Use Cases

6. Plattform-Landschaft – konkret starten, ohne sich festzufahren

Startpfade nach Unternehmenskontext

Benutzeroberfläche (Frontend): selbst entwickeln oder übernehmen?

7. Kontext und Suche: interne Quellen nutzbar machen

Vektorspeicher (Vector Stores)

Auswahlkriterien und Souveränität

8. ROI realistisch messen

Executive-Agenda (30–60 Tage)

Fazit

FAQ

Haben Sie Fragen zu diesem Artikel?

KI-Agenten pragmatisch einführen

Auf einen Blick

1. Warum jetzt über KI-Agenten sprechen – und warum skeptisch bleiben

2. Was KI-Agenten sind – und was nicht

3. Was heute zuverlässig funktioniert – und was (noch) nicht

Autonomie realistisch bewerten – 2025 dominiert der Workflow-Modus

4. Architektur – so wenig wie möglich, so viel wie nötig

5. Ein Entscheidungsraster für Use Cases

6. Plattform-Landschaft – konkret starten, ohne sich festzufahren

Startpfade nach Unternehmenskontext

Benutzeroberfläche (Frontend): selbst entwickeln oder übernehmen?

7. Kontext und Suche: interne Quellen nutzbar machen

Vektorspeicher (Vector Stores)

Auswahlkriterien und Souveränität

8. ROI realistisch messen

Executive-Agenda (30–60 Tage)

Fazit

FAQ

Haben Sie Fragen zu diesem Artikel?