Conversational AI od ElevenLabs to platforma do budowania głosowych agentów, którzy prowadzą dwukierunkowe rozmowy w czasie rzeczywistym. Bazuje na modelu Flash v2.5 z latencją ~75 ms, obsługuje polski natywnie, ma gotowe integracje z Twilio (telefonia), Salesforce, Gmail i protokołem MCP. Cennik: 0,08 USD za minutę rozmowy. W tym poradniku zbudujemy polskiego voice agenta od zera w 15 minut.

Czym jest głosowy agent AI
Voice agent (agent głosowy) to system AI, który potrafi słuchać i mówić w czasie rzeczywistym. Łączy trzy komponenty: rozpoznawanie mowy (STT, model Scribe), duży model językowy (LLM — GPT-4, Claude lub Gemini), oraz syntezę mowy (TTS, Flash v2.5). Wszystko musi zadziałać w mniej niż 800 ms, żeby rozmowa nie brzmiała „robotycznie”.
Przykładowe zastosowania:
- Bot na infolinii — odbiera połączenia, kwalifikuje, przekazuje do konsultanta.
- Konsultant w sklepie online — odpowiada na pytania o produkty po polsku.
- Rezerwacja wizyt — lekarz, fryzjer, mechanik samochodowy.
- Voice agent w grze — NPC, który odpowiada na pytania gracza.
- Asystent w aplikacji — wewnętrzny tool dla pracowników.
- Bot windykacyjny — przypomnienia o płatnościach.
- Cold calling — wstępna kwalifikacja leadów (z zachowaniem zgód RODO).
Architektura voice agenta — jak to działa
Cykl jednego „turnu” w rozmowie:
- Użytkownik mówi → audio leci do Scribe (STT) → tekst w 100–200 ms.
- Tekst trafia do LLM (np. GPT-4o) z system promptem → odpowiedź w 300–500 ms.
- Odpowiedź trafia do Flash v2.5 (TTS) → audio w ~75 ms (pierwszy chunk).
- Audio leci do użytkownika przez WebRTC, telefon lub aplikację.
Całość powinna zająć poniżej 800 ms — to czas, w którym człowiek nie wyczuwa opóźnienia w rozmowie. ElevenLabs ma tę architekturę wbudowaną — nie musisz orkiestrować trzech serwisów samodzielnie.
Krok 1 — utworzenie agenta w panelu
- Zaloguj się na elevenlabs.io i przejdź do zakładki Conversational AI → Agents.
- Kliknij Create Agent.
- Nadaj nazwę (np. „Recepcja Klinika Dental Smart”).
- Wybierz głos — dla polskiego sprawdź Bella PL, Antoni PL lub własny klon.
- Wybierz model TTS: Flash v2.5 (rekomendowany do real-time).
Krok 2 — system prompt po polsku
System prompt definiuje osobowość i zadania agenta. Wskazówki:
- Pisz po polsku — LLM lepiej generuje polskie odpowiedzi z polskim promptem.
- Trzymaj krótkie odpowiedzi (max 2–3 zdania) — człowiek nie słucha monologów.
- Dodaj zasady eskalacji („jeśli klient zapyta o cenę zabiegu, przekież do recepcji”).
- Wyklucz nielegalne tematy („nie udzielaj porad medycznych”).
Przykładowy prompt:
Jesteś recepcjonistką w klinice stomatologicznej Dental Smart.
Mówisz po polsku, formalnie ale ciepło.
Odpowiedzi maks. 2 zdania.
Godziny pracy: pn–pt 8:00–20:00.
Jeśli pacjent chce umówić wizytę, zapytaj o imię, nazwisko i preferowany termin.
Nigdy nie udzielaj porad medycznych.
W przypadku bólu nagłego: „Proszę zadzwonić pod numer alarmowy 112 lub przyjechać do nas.”Krok 3 — integracje (Twilio, Salesforce, Gmail, MCP)
Voice agent jest użyteczny dopiero, gdy ma dostęp do narzędzi. ElevenLabs udostępnia gotowe integracje:
| Integracja | Use case |
|---|---|
| Twilio | Telefonia — numer PL, odbieranie połączeń 24/7 |
| Salesforce | CRM — zapis kontaktu, status leada, notatka z rozmowy |
| Gmail | Wysyłka potwierdzenia mailowego po rozmowie |
| MCP (Model Context Protocol) | Dostęp do dowolnego narzędzia — baza danych, kalendarz, API zewnętrzne |
| Webhooks | Wywołanie dowolnego URL po zakończeniu rozmowy |
| WebRTC | Osadzenie agenta na stronie WWW jako widget |
Więcej o MCP w tym artykule.
Krok 4 — test rozmowy
W panelu kliknij Test Agent — otworzy się mikrofon w przeglądarce (WebRTC). Powiedz „Dzień dobry, chciałbym umówić wizytę” i sprawdź:
- Czy agent odpowiada po polsku z naturalnym akcentem?
- Czy latencja jest komfortowa (poniżej 1 s)?
- Czy nie przerywa, gdy mówisz dłużej?
- Czy poprawnie eskaluje, gdy zapytasz o cenę?
Krok 5 — produkcja: numer telefonu i deployment
- W zakładce Phone Numbers kup numer PL przez integrację z Twilio (~3 USD/mc).
- Przypisz numer do agenta.
- Ustaw godziny dyżuru (24/7 lub określone).
- Włącz nagrywanie rozmów (uwaga: zgoda na RODO!).
- Test z prawdziwego telefonu — zadzwoń i sprawdź jak brzmi przez sieć GSM.
Cennik Conversational AI
| Komponent | Koszt |
|---|---|
| Rozmowa (TTS + STT + LLM) | 0,08 USD/min |
| Numer telefonu Twilio (PL) | ~3 USD/mc + ~0,015 USD/min połączenia |
| Hosting agenta | Wliczony w plan ElevenLabs |
| Minimalny plan | Starter (5 USD/mc) |
Godzina rozmowy = ok. 4,80 USD. Dla porównania: konsultant call center w Polsce kosztuje 25–40 zł/godz. Voice agent jest ~3–4× tańszy, dostępny 24/7, bez przerw i urlopów. Pełen cennik ElevenLabs i porównanie planów.
Dobre praktyki dla polskich voice agentów
- Rozpocznij od powitania — „Dzień dobry, rozmawia Pani z asystentem AI klinki Dental Smart. W czym mogę pomóc?”
- Ujawnij, że to AI — wymagane prawem w UE od 2025 (AI Act).
- Daj opcję przekazania do człowieka — „Połącz mnie z konsultantem” powinno działać.
- Trzymaj kontekst krótko — max 10 ostatnich tur (Flash v2.5 ma okno kontekstowe).
- Loguj rozmowy — do analizy jakości i audit trail (z zgodą RODO).
- Testuj na akcentach — śląskim, góralskim, kresowym.
- Plan awaryjny — gdy LLM zwraca błąd, agent mówi „Przepraszam, przełączę do konsultanta”.
Conversational AI vs klasyczne IVR
| Cecha | Voice agent (AI) | Klasyczne IVR |
|---|---|---|
| Sposob interakcji | Naturalna mowa | Wybieranie cyfr (1, 2, 3) |
| Czas obsługi | 30–60 s | 2–3 minuty |
| Frustracja użytkownika | Niska | Wysoka |
| Koszt wdrożenia | Godziny | Tygodnie |
| Aktualizacja scenariusza | Edycja system promptu | Pełen redeployment |
FAQ — Conversational AI od ElevenLabs
Tak, model Flash v2.5 obsługuje polski natywnie.
0,08 USD za minutę rozmowy.
Tak — Salesforce i Gmail oraz MCP.
Dla większości użytkowników — tak, w krótkich rozmowach.
Całkowita latencja wynosi ok. 600–800 ms.
Tak, przy poprawnym wdrożeniu.
Zbuduj swojego pierwszego agenta
Plan Starter (5 USD/mc) wystarczy, żeby przetestować voice agenta na małej skali. Wejdź na elevenlabs.io, załóż konto i zbuduj polskiego agenta w 15 minut. Więcej o produkcie w tym artykule.
