Uwaga!

Chcesz otrzymywać nowinki, ciekawostki i poradniki dotyczące ElevenLabs i narzędzi AI prosto na swój adres email? Koniecznie zapisz się do naszego newslettera!





Zamknij to okno
Conversational AI od ElevenLabs — głosowi agenci w czasie rzeczywistym

Conversational AI od ElevenLabs — jak zbudować polskiego voice agenta (2026)

Conversational AI od ElevenLabs to platforma do budowania głosowych agentów, którzy prowadzą dwukierunkowe rozmowy w czasie rzeczywistym. Bazuje na modelu Flash v2.5 z latencją ~75 ms, obsługuje polski natywnie, ma gotowe integracje z Twilio (telefonia), Salesforce, Gmail i protokołem MCP. Cennik: 0,08 USD za minutę rozmowy. W tym poradniku zbudujemy polskiego voice agenta od zera w 15 minut.

Voice agent w call center — konsultant ze słuchawkami i sztuczną inteligencją w tle
Voice agent zastępuje konsultanta call center — działa 24/7, mówi po polsku, integruje się z CRM.

Czym jest głosowy agent AI

Voice agent (agent głosowy) to system AI, który potrafi słuchać i mówić w czasie rzeczywistym. Łączy trzy komponenty: rozpoznawanie mowy (STT, model Scribe), duży model językowy (LLM — GPT-4, Claude lub Gemini), oraz syntezę mowy (TTS, Flash v2.5). Wszystko musi zadziałać w mniej niż 800 ms, żeby rozmowa nie brzmiała „robotycznie”.

Przykładowe zastosowania:

  • Bot na infolinii — odbiera połączenia, kwalifikuje, przekazuje do konsultanta.
  • Konsultant w sklepie online — odpowiada na pytania o produkty po polsku.
  • Rezerwacja wizyt — lekarz, fryzjer, mechanik samochodowy.
  • Voice agent w grze — NPC, który odpowiada na pytania gracza.
  • Asystent w aplikacji — wewnętrzny tool dla pracowników.
  • Bot windykacyjny — przypomnienia o płatnościach.
  • Cold calling — wstępna kwalifikacja leadów (z zachowaniem zgód RODO).

Architektura voice agenta — jak to działa

Cykl jednego „turnu” w rozmowie:

  1. Użytkownik mówi → audio leci do Scribe (STT) → tekst w 100–200 ms.
  2. Tekst trafia do LLM (np. GPT-4o) z system promptem → odpowiedź w 300–500 ms.
  3. Odpowiedź trafia do Flash v2.5 (TTS) → audio w ~75 ms (pierwszy chunk).
  4. Audio leci do użytkownika przez WebRTC, telefon lub aplikację.

Całość powinna zająć poniżej 800 ms — to czas, w którym człowiek nie wyczuwa opóźnienia w rozmowie. ElevenLabs ma tę architekturę wbudowaną — nie musisz orkiestrować trzech serwisów samodzielnie.

Krok 1 — utworzenie agenta w panelu

  1. Zaloguj się na elevenlabs.io i przejdź do zakładki Conversational AIAgents.
  2. Kliknij Create Agent.
  3. Nadaj nazwę (np. „Recepcja Klinika Dental Smart”).
  4. Wybierz głos — dla polskiego sprawdź Bella PL, Antoni PL lub własny klon.
  5. Wybierz model TTS: Flash v2.5 (rekomendowany do real-time).

Krok 2 — system prompt po polsku

System prompt definiuje osobowość i zadania agenta. Wskazówki:

  • Pisz po polsku — LLM lepiej generuje polskie odpowiedzi z polskim promptem.
  • Trzymaj krótkie odpowiedzi (max 2–3 zdania) — człowiek nie słucha monologów.
  • Dodaj zasady eskalacji („jeśli klient zapyta o cenę zabiegu, przekież do recepcji”).
  • Wyklucz nielegalne tematy („nie udzielaj porad medycznych”).

Przykładowy prompt:

Jesteś recepcjonistką w klinice stomatologicznej Dental Smart.
Mówisz po polsku, formalnie ale ciepło.
Odpowiedzi maks. 2 zdania.
Godziny pracy: pn–pt 8:00–20:00.
Jeśli pacjent chce umówić wizytę, zapytaj o imię, nazwisko i preferowany termin.
Nigdy nie udzielaj porad medycznych.
W przypadku bólu nagłego: „Proszę zadzwonić pod numer alarmowy 112 lub przyjechać do nas.”

Krok 3 — integracje (Twilio, Salesforce, Gmail, MCP)

Voice agent jest użyteczny dopiero, gdy ma dostęp do narzędzi. ElevenLabs udostępnia gotowe integracje:

IntegracjaUse case
TwilioTelefonia — numer PL, odbieranie połączeń 24/7
SalesforceCRM — zapis kontaktu, status leada, notatka z rozmowy
GmailWysyłka potwierdzenia mailowego po rozmowie
MCP (Model Context Protocol)Dostęp do dowolnego narzędzia — baza danych, kalendarz, API zewnętrzne
WebhooksWywołanie dowolnego URL po zakończeniu rozmowy
WebRTCOsadzenie agenta na stronie WWW jako widget

Więcej o MCP w tym artykule.

Krok 4 — test rozmowy

W panelu kliknij Test Agent — otworzy się mikrofon w przeglądarce (WebRTC). Powiedz „Dzień dobry, chciałbym umówić wizytę” i sprawdź:

  • Czy agent odpowiada po polsku z naturalnym akcentem?
  • Czy latencja jest komfortowa (poniżej 1 s)?
  • Czy nie przerywa, gdy mówisz dłużej?
  • Czy poprawnie eskaluje, gdy zapytasz o cenę?

Krok 5 — produkcja: numer telefonu i deployment

  1. W zakładce Phone Numbers kup numer PL przez integrację z Twilio (~3 USD/mc).
  2. Przypisz numer do agenta.
  3. Ustaw godziny dyżuru (24/7 lub określone).
  4. Włącz nagrywanie rozmów (uwaga: zgoda na RODO!).
  5. Test z prawdziwego telefonu — zadzwoń i sprawdź jak brzmi przez sieć GSM.

Cennik Conversational AI

KomponentKoszt
Rozmowa (TTS + STT + LLM)0,08 USD/min
Numer telefonu Twilio (PL)~3 USD/mc + ~0,015 USD/min połączenia
Hosting agentaWliczony w plan ElevenLabs
Minimalny planStarter (5 USD/mc)

Godzina rozmowy = ok. 4,80 USD. Dla porównania: konsultant call center w Polsce kosztuje 25–40 zł/godz. Voice agent jest ~3–4× tańszy, dostępny 24/7, bez przerw i urlopów. Pełen cennik ElevenLabs i porównanie planów.

Dobre praktyki dla polskich voice agentów

  • Rozpocznij od powitania — „Dzień dobry, rozmawia Pani z asystentem AI klinki Dental Smart. W czym mogę pomóc?”
  • Ujawnij, że to AI — wymagane prawem w UE od 2025 (AI Act).
  • Daj opcję przekazania do człowieka — „Połącz mnie z konsultantem” powinno działać.
  • Trzymaj kontekst krótko — max 10 ostatnich tur (Flash v2.5 ma okno kontekstowe).
  • Loguj rozmowy — do analizy jakości i audit trail (z zgodą RODO).
  • Testuj na akcentach — śląskim, góralskim, kresowym.
  • Plan awaryjny — gdy LLM zwraca błąd, agent mówi „Przepraszam, przełączę do konsultanta”.

Conversational AI vs klasyczne IVR

CechaVoice agent (AI)Klasyczne IVR
Sposob interakcjiNaturalna mowaWybieranie cyfr (1, 2, 3)
Czas obsługi30–60 s2–3 minuty
Frustracja użytkownikaNiskaWysoka
Koszt wdrożeniaGodzinyTygodnie
Aktualizacja scenariuszaEdycja system promptuPełen redeployment

FAQ — Conversational AI od ElevenLabs

Czy voice agent obsługuje polski?

Tak, model Flash v2.5 obsługuje polski natywnie.

Ile kosztuje rozmowa z voice agentem?

0,08 USD za minutę rozmowy.

Czy mogę zintegrować z moim CRM?

Tak — Salesforce i Gmail oraz MCP.

Czy voice agent przejdzie test Turinga?

Dla większości użytkowników — tak, w krótkich rozmowach.

Jaka jest latencja rozmowy?

Całkowita latencja wynosi ok. 600–800 ms.

Czy voice agent jest zgodny z RODO?

Tak, przy poprawnym wdrożeniu.

Zbuduj swojego pierwszego agenta

Plan Starter (5 USD/mc) wystarczy, żeby przetestować voice agenta na małej skali. Wejdź na elevenlabs.io, załóż konto i zbuduj polskiego agenta w 15 minut. Więcej o produkcie w tym artykule.