Multi-Provider-Architektur, DSGVO-konforme Infrastruktur und use-case-getriebene Gesprächsführung: Was eine spezialisierte KI-Telefonassistentin von generischen Lösungen unterscheidet.

Simon Tretter
CTO & Co-Founder One100

KI-Telefonassistent:innen sind aktuell eines der am schnellsten wachsenden Segmente im Bereich Voice AI. Zahlreiche Anbieter versprechen eine einfache, sofort einsatzbereite Lösung für automatisierte Telefonate. Doch wer genauer hinsieht, erkennt schnell: Zwischen einem generischen Voice Agent und einer spezialisierten, produktionsreifen Lösung liegen Welten. In diesem Artikel zeigen wir, warum der One100 Voice Agent sich grundlegend von generischen Alternativen unterscheidet – und welche technischen Entscheidungen dahinterstehen.
Die meisten generischen Voice-Agent-Lösungen setzen auf einen einzigen Anbieter für Spracherkennung (STT), Sprachmodell (LLM) und Sprachsynthese (TTS). Das bedeutet: Fällt dieser Anbieter aus, fällt der gesamte Dienst aus. Und die Qualität ist immer nur so gut wie dieser eine Anbieter es erlaubt.
Der One100 Voice Agent verfolgt einen grundlegend anderen Ansatz. Unsere Plattform unterstützt eine Vielzahl verschiedener STT-, LLM- und TTS-Provider. Durch diese Vielfalt können wir für jeden Anwendungsfall die optimale Kombination aus Qualität, Latenz und Kosten wählen.
Automatisches Failover: Unser STT-Fallback-System erkennt Provider-Ausfälle in Echtzeit und wechselt nahtlos auf einen alternativen Anbieter – ohne dass der laufende Anruf unterbrochen wird. Alle Spracheinstellungen, Keyword-Gruppen und der aktuelle Gesprächskontext bleiben dabei vollständig erhalten. Ein generischer Voice Agent würde in dieser Situation den Anruf einfach verlieren.
Generische Lösungen bieten typischerweise nur einen Modus: entweder eine einfache STT-LLM-TTS-Pipeline oder einen Realtime-API-Ansatz. Der One100 Voice Agent unterstützt beide.
Realtime-Modus: Direkte Integration mit verschiedenen Realtime-APIs führender Anbieter. Hier wird Audio direkt an ein multimodales Sprachmodell gestreamt, was extrem niedrige Latenz ermöglicht.
Stream-Modus: Separate STT-, LLM- und TTS-Komponenten, die unabhängig voneinander konfiguriert, ausgetauscht und optimiert werden können. Dieser Modus bietet maximale Flexibilität und Redundanz durch parallele STT-Erkennung für Mehrsprachigkeit.
Je nach Anwendungsfall und Anforderung kann der optimale Modus zur Laufzeit gewählt werden. Kein generischer Anbieter bietet diese Flexibilität.
Der vielleicht wichtigste Unterschied: Generische Voice Agents führen offene Gespräche. Sie können plaudern, aber sie können keine strukturierten Prozesse zuverlässig abbilden. Der One100 Voice Agent ist grundlegend anders konzipiert.
Multi-Agent-Architektur: Ein Receptionist-Agent nimmt den Anruf entgegen, klärt das Anliegen und übergibt bei Bedarf kontexterhaltend an einen spezialisierten Appointment-Agent. Dieser führt den Buchungsprozess Schritt für Schritt durch.
Strukturierte Datenerfassung: Der Appointment-Agent folgt einer definierten State Machine: Kalender- und Facharztwahl, Terminart bestimmen, Verfügbarkeit prüfen, persönliche Daten erheben (Name, Telefon, E-Mail, Sozialversicherungsnummer, Adresse, Geburtsdatum), alle Angaben bestätigen und den Termin buchen. Erst wenn alle Pflichtfelder vollständig und validiert sind, wird der Termin im Praxiskalender eingetragen.
Proaktive Verfügbarkeitsprüfung: Bevor der Agent Zeitslots vorschlägt, prüft er die tatsächliche Verfügbarkeit im Kalender der Praxissoftware. Patient:innen erhalten nur Termine, die wirklich frei sind. Generische Agents können das nicht, weil ihnen die Integration in Praxissoftware fehlt.
Flexibles Fragebogen-System: Über ein konfigurierbares Questionnaire-System mit mehreren Antworttypen, bedingter Logik und Bestätigungsworkflows können beliebige Abfragen abgebildet werden – von der Patientenaufnahme bis zur Rezeptanfrage.
Ein generischer Voice Agent endet beim Gespräch. Er nimmt Informationen auf, kann sie aber nicht verarbeiten. Der One100 Voice Agent ist direkt in zahlreiche gängige Praxissoftware-Systeme integriert – von Kalenderlösungen über Praxisverwaltungssysteme bis hin zu spezialisierten Anbietern im DACH-Raum.
Der Agent fragt verfügbare Terminarten ab, prüft freie Slots und bucht direkt im System. Das Praxisteam muss keinen einzigen manuellen Schritt mehr ausführen. Und die Patient:innen erhalten sofort eine Bestätigung, statt auf einen Rückruf warten zu müssen.
Zusätzlich werden Gesprächsnotizen strukturiert erfasst und per E-Mail oder direkt im System an das Praxisteam übermittelt. Jedes Anliegen – ob Terminbuchung, Rezeptanfrage oder Rückrufbitte – wird vollständig dokumentiert und zugeordnet.
Hier liegt einer der kritischsten Unterschiede zu generischen Lösungen, die häufig auf US-amerikanische Infrastruktur setzen. Beim One100 Voice Agent ist Datenschutz keine nachträgliche Ergänzung, sondern ein Grundprinzip der gesamten Architektur.
Europäische Infrastruktur: Der gesamte Orchestration Layer ist self-hosted auf europäischen Servern. Alle Daten bleiben in Europa. Das gilt nicht nur für die eigene Plattform, sondern für die gesamte Verarbeitungskette.
Alle Dienste DSGVO-konform: Viele Anbieter werben mit DSGVO-Konformität, meinen damit aber nur ihren eigenen Orchestration Layer. Die tatsächlich genutzten Spracherkennungs-, KI- und Synthesedienste laufen dann trotzdem über US-Server. Beim One100 Voice Agent sind auch alle eingesetzten STT-, LLM- und TTS-Dienste mit europäischen Endpunkten konfiguriert – Spracherkennung, Sprachmodelle und Sprachsynthese laufen über europäische Rechenzentren.
Telefonie und SMS: Auch bei Telefonie- und SMS-Providern achten wir auf europäische Datenverarbeitung. Die Plattform unterstützt mehrere Anbieter – alle mit europäischen Endpunkten konfigurierbar. Das ist ein Punkt, den die meisten Anbieter komplett ignorieren: Selbst wenn die KI in Europa läuft, gehen Telefondaten und SMS-Nachrichten häufig über US-Provider und damit außerhalb des europäischen Rechtsraums.
Secrets Management: Alle sensiblen Zugangsdaten werden zentral und verschlüsselt verwaltet – niemals im Code gespeichert und nie an Dritte weitergegeben.
Generische Voice-Agent-Plattformen sind typischerweise geschlossene SaaS-Lösungen. Der Kunde hat keinen Einblick in die Verarbeitung, keine Kontrolle über Provider-Auswahl und keine Möglichkeit, das System an spezifische Anforderungen anzupassen.
Der One100 Voice Agent basiert auf einem vollständig eigenen Orchestration Layer. Das bedeutet: Wir kontrollieren die gesamte Gesprächsführung, Provider-Auswahl, Failover-Logik, Datenfluss und Logging selbst. Es gibt keine Black Box. Jede Komponente – von der Spracherkennung über das Sprachmodell bis zur Sprachsynthese – kann unabhängig konfiguriert, ausgetauscht und optimiert werden.
Diese Architektur ermöglicht es uns, innerhalb kürzester Zeit auf neue Provider-Releases zu reagieren, A/B-Tests zwischen verschiedenen Modellen durchzuführen und die beste Kombination aus Latenz, Qualität und Kosten für jeden einzelnen Anwendungsfall zu finden.
Mehrsprachigkeit bei generischen Voice Agents bedeutet meist: Man wählt eine Sprache und bleibt dabei. Der One100 Voice Agent geht deutlich weiter.
Automatische Spracherkennung: Unsere STT-Provider erkennen automatisch zahlreiche Sprachen in einem einzigen Audiostream – darunter Deutsch, Englisch, Französisch, Spanisch, Italienisch und Polnisch. Einige Provider können sogar mehrere Sprachen simultan erkennen.
Dynamischer Sprachwechsel: Der Agent kann mitten im Gespräch die Sprache wechseln, wenn der Anrufer in einer anderen Sprache antwortet. Die Systemprompts passen sich automatisch an die erkannte Sprache an.
Österreich-spezifische Features: Der Agent versteht österreichische Telefonnummernformate, kann Sozialversicherungsnummern korrekt erfassen und berücksichtigt regionale Besonderheiten bei der Spracherkennung – einschließlich Dialekte.
Ein oft übersehener Aspekt: Viele Voice-Agent-Lösungen funktionieren in Demos beeindruckend, scheitern aber im produktiven Dauerbetrieb. Der One100 Voice Agent ist für den 24/7-Einsatz in Arztpraxen konzipiert und entsprechend gehärtet.
Graceful Shutdown: Bei Server-Updates werden laufende Anrufe nicht abgebrochen. Das System wartet, bis alle aktiven Gespräche beendet sind, bevor ein Server heruntergefahren wird. Rolling Updates ohne Anrufverlust – das ist Production-Grade.
Noise Cancellation: Integrierte Geräuschunterdrückung sorgt dafür, dass der Agent auch in lauten Umgebungen zuverlässig funktioniert – nicht nur im stillen Demoraum.
Lückenlose Gesprächsdokumentation: Jedes Gespräch wird vollständig protokolliert: Spracherkennung, KI-Anfragen, Aktionen, Sprachausgabe und Fehler. Ein hierarchisches Logging-System ermöglicht die Nachverfolgung jeder einzelnen Operation – für Compliance-Audits, Qualitätskontrolle und Debugging unverzichtbar.
Anrufaufzeichnung: Optionale Aufzeichnung mit sicherer europäischer Speicherung. Temporäre Zugangsdaten statt langlebiger Keys für maximale Sicherheit.
Jede Praxis ist anders. Ein generischer Voice Agent bietet bestenfalls ein paar Einstellungen. Der One100 Voice Agent ermöglicht eine vollständige Individualisierung pro Arzt und Praxis.
Über ein eigenes Web-Interface können Praxen ihren Voice Agent selbst konfigurieren: individuelle Begrüßung, Systemprompt, Weiterleitungsverhalten, Ordinationszeiten, Terminarten, Pflichtfelder bei der Datenerfassung und sogar die Zuordnung zu mehreren Kalendern und Fachrichtungen innerhalb einer Gruppenpraxis.
Das ist kein One-Size-Fits-All. Das ist ein System, das sich an die Praxis anpasst – nicht umgekehrt.
Spracherkennung im medizinischen Kontext ist besonders anspruchsvoll: Fachbegriffe, Medikamentennamen, Diagnosen und Eigennamen müssen korrekt erkannt werden. Generische Voice Agents scheitern hier regelmäßig.
Der One100 Voice Agent nutzt ein Keyword-Boosting-System, das pro Praxis konfiguriert wird. Medizinische Fachbegriffe, Arzt- und Therapeutennamen sowie praxisspezifische Terminarten werden als Keywords registriert und die Erkennungsgenauigkeit gezielt verbessert.
Ein generischer Voice Agent ist wie ein universeller Chatbot mit Telefonanschluss. Er kann reden, aber er kann keine Termine buchen, keine Patientendaten validieren, keine Praxissoftware bedienen und keinen strukturierten Prozess zuverlässig durchführen. Er läuft auf US-Servern, hat keinen Failover und bricht bei einem Provider-Ausfall zusammen.
Der One100 Voice Agent ist das Gegenteil: eine spezialisierte, europäisch gehostete, DSGVO-konforme Plattform mit Multi-Provider-Redundanz, direkter Praxissoftware-Integration und use-case-getriebener Gesprächsführung. Entwickelt für den Alltag in Arztpraxen und Gesundheitszentren – nicht für Demos.
Technologie im Hintergrund, Ruhe im Praxisalltag. Das ist unser Anspruch.
Lassen Sie sich unverbindlich und kostenlos beraten. Wir analysieren Ihre Prozesse und zeigen Ihnen, wie die KI Telefonassistentin Ihre Anrufe übernehmen kann.
Lassen Sie sich unverbindlich und kostenlos beraten. Wir analysieren Ihre Prozesse und zeigen Ihnen, wie die KI Telefonassistentin Ihre Anrufe übernehmen kann.