Conversational AI od ElevenLabs — poradnik voice agenta po polsku (2026)

Conversational AI od ElevenLabs to platforma do budowania głosowych agentów, którzy prowadzą dwukierunkowe rozmowy w czasie rzeczywistym. Bazuje na modelu Flash v2.5 z latencją ~75 ms, obsługuje polski natywnie, ma gotowe integracje z Twilio (telefonia), Salesforce, Gmail i protokołem MCP. Cennik: 0,08 USD za minutę rozmowy. W tym poradniku zbudujemy polskiego voice agenta od zera w 15 minut.

Voice agent zastępuje konsultanta call center — działa 24/7, mówi po polsku, integruje się z CRM.

Czym jest głosowy agent AI

Voice agent (agent głosowy) to system AI, który potrafi słuchać i mówić w czasie rzeczywistym. Łączy trzy komponenty: rozpoznawanie mowy (STT, model Scribe), duży model językowy (LLM — GPT-4, Claude lub Gemini), oraz syntezę mowy (TTS, Flash v2.5). Wszystko musi zadziałać w mniej niż 800 ms, żeby rozmowa nie brzmiała „robotycznie”.

Przykładowe zastosowania:

Bot na infolinii — odbiera połączenia, kwalifikuje, przekazuje do konsultanta.
Konsultant w sklepie online — odpowiada na pytania o produkty po polsku.
Rezerwacja wizyt — lekarz, fryzjer, mechanik samochodowy.
Voice agent w grze — NPC, który odpowiada na pytania gracza.
Asystent w aplikacji — wewnętrzny tool dla pracowników.
Bot windykacyjny — przypomnienia o płatnościach.
Cold calling — wstępna kwalifikacja leadów (z zachowaniem zgód RODO).

Architektura voice agenta — jak to działa

Cykl jednego „turnu” w rozmowie:

Użytkownik mówi → audio leci do Scribe (STT) → tekst w 100–200 ms.
Tekst trafia do LLM (np. GPT-4o) z system promptem → odpowiedź w 300–500 ms.
Odpowiedź trafia do Flash v2.5 (TTS) → audio w ~75 ms (pierwszy chunk).
Audio leci do użytkownika przez WebRTC, telefon lub aplikację.

Całość powinna zająć poniżej 800 ms — to czas, w którym człowiek nie wyczuwa opóźnienia w rozmowie. ElevenLabs ma tę architekturę wbudowaną — nie musisz orkiestrować trzech serwisów samodzielnie.

Krok 1 — utworzenie agenta w panelu

Zaloguj się na elevenlabs.io i przejdź do zakładki Conversational AI → Agents.
Kliknij Create Agent.
Nadaj nazwę (np. „Recepcja Klinika Dental Smart”).
Wybierz głos — dla polskiego sprawdź Bella PL, Antoni PL lub własny klon.
Wybierz model TTS: Flash v2.5 (rekomendowany do real-time).

Krok 2 — system prompt po polsku

System prompt definiuje osobowość i zadania agenta. Wskazówki:

Pisz po polsku — LLM lepiej generuje polskie odpowiedzi z polskim promptem.
Trzymaj krótkie odpowiedzi (max 2–3 zdania) — człowiek nie słucha monologów.
Dodaj zasady eskalacji („jeśli klient zapyta o cenę zabiegu, przekież do recepcji”).
Wyklucz nielegalne tematy („nie udzielaj porad medycznych”).

Przykładowy prompt:

Jesteś recepcjonistką w klinice stomatologicznej Dental Smart.
Mówisz po polsku, formalnie ale ciepło.
Odpowiedzi maks. 2 zdania.
Godziny pracy: pn–pt 8:00–20:00.
Jeśli pacjent chce umówić wizytę, zapytaj o imię, nazwisko i preferowany termin.
Nigdy nie udzielaj porad medycznych.
W przypadku bólu nagłego: „Proszę zadzwonić pod numer alarmowy 112 lub przyjechać do nas.”

Krok 3 — integracje (Twilio, Salesforce, Gmail, MCP)

Voice agent jest użyteczny dopiero, gdy ma dostęp do narzędzi. ElevenLabs udostępnia gotowe integracje:

Integracja	Use case
Twilio	Telefonia — numer PL, odbieranie połączeń 24/7
Salesforce	CRM — zapis kontaktu, status leada, notatka z rozmowy
Gmail	Wysyłka potwierdzenia mailowego po rozmowie
MCP (Model Context Protocol)	Dostęp do dowolnego narzędzia — baza danych, kalendarz, API zewnętrzne
Webhooks	Wywołanie dowolnego URL po zakończeniu rozmowy
WebRTC	Osadzenie agenta na stronie WWW jako widget

Więcej o MCP w tym artykule.

Krok 4 — test rozmowy

W panelu kliknij Test Agent — otworzy się mikrofon w przeglądarce (WebRTC). Powiedz „Dzień dobry, chciałbym umówić wizytę” i sprawdź:

Czy agent odpowiada po polsku z naturalnym akcentem?
Czy latencja jest komfortowa (poniżej 1 s)?
Czy nie przerywa, gdy mówisz dłużej?
Czy poprawnie eskaluje, gdy zapytasz o cenę?

Krok 5 — produkcja: numer telefonu i deployment

W zakładce Phone Numbers kup numer PL przez integrację z Twilio (~3 USD/mc).
Przypisz numer do agenta.
Ustaw godziny dyżuru (24/7 lub określone).
Włącz nagrywanie rozmów (uwaga: zgoda na RODO!).
Test z prawdziwego telefonu — zadzwoń i sprawdź jak brzmi przez sieć GSM.

Cennik Conversational AI

Komponent	Koszt
Rozmowa (TTS + STT + LLM)	0,08 USD/min
Numer telefonu Twilio (PL)	~3 USD/mc + ~0,015 USD/min połączenia
Hosting agenta	Wliczony w plan ElevenLabs
Minimalny plan	Starter (5 USD/mc)

Godzina rozmowy = ok. 4,80 USD. Dla porównania: konsultant call center w Polsce kosztuje 25–40 zł/godz. Voice agent jest ~3–4× tańszy, dostępny 24/7, bez przerw i urlopów. Pełen cennik ElevenLabs i porównanie planów.

Dobre praktyki dla polskich voice agentów

Rozpocznij od powitania — „Dzień dobry, rozmawia Pani z asystentem AI klinki Dental Smart. W czym mogę pomóc?”
Ujawnij, że to AI — wymagane prawem w UE od 2025 (AI Act).
Daj opcję przekazania do człowieka — „Połącz mnie z konsultantem” powinno działać.
Trzymaj kontekst krótko — max 10 ostatnich tur (Flash v2.5 ma okno kontekstowe).
Loguj rozmowy — do analizy jakości i audit trail (z zgodą RODO).
Testuj na akcentach — śląskim, góralskim, kresowym.
Plan awaryjny — gdy LLM zwraca błąd, agent mówi „Przepraszam, przełączę do konsultanta”.

Conversational AI vs klasyczne IVR

Cecha	Voice agent (AI)	Klasyczne IVR
Sposob interakcji	Naturalna mowa	Wybieranie cyfr (1, 2, 3)
Czas obsługi	30–60 s	2–3 minuty
Frustracja użytkownika	Niska	Wysoka
Koszt wdrożenia	Godziny	Tygodnie
Aktualizacja scenariusza	Edycja system promptu	Pełen redeployment

FAQ — Conversational AI od ElevenLabs

Czy voice agent obsługuje polski?

Tak, model Flash v2.5 obsługuje polski natywnie.

Ile kosztuje rozmowa z voice agentem?

0,08 USD za minutę rozmowy.

Czy mogę zintegrować z moim CRM?

Tak — Salesforce i Gmail oraz MCP.

Czy voice agent przejdzie test Turinga?

Dla większości użytkowników — tak, w krótkich rozmowach.

Jaka jest latencja rozmowy?

Całkowita latencja wynosi ok. 600–800 ms.

Czy voice agent jest zgodny z RODO?

Tak, przy poprawnym wdrożeniu.

Zbuduj swojego pierwszego agenta

Plan Starter (5 USD/mc) wystarczy, żeby przetestować voice agenta na małej skali. Wejdź na elevenlabs.io, załóż konto i zbuduj polskiego agenta w 15 minut. Więcej o produkcie w tym artykule.

Uwaga!

Conversational AI od ElevenLabs — jak zbudować polskiego voice agenta (2026)