Uwaga!

Chcesz otrzymywać nowinki, ciekawostki i poradniki dotyczące ElevenLabs i narzędzi AI prosto na swój adres email? Koniecznie zapisz się do naszego newslettera!





Zamknij to okno
ElevenLabs API — kod i fala dźwiękowa, interfejs programistyczny do syntezy głosu

ElevenLabs API — jak zacząć, endpointy i przykłady kodu (2026)

ElevenLabs API to interfejs REST, który pozwala wpiąć syntezę głosu AI prosto w aplikację — text-to-speech, klonowanie głosu, transkrypcję (Scribe), dubbing, efekty dźwiękowe i agentów głosowych. Autoryzujesz się kluczem (`xi-api-key`), wysyłasz tekst, dostajesz audio. Obsługuje 70+ języków (w tym polski) i modele od najszybszego Flash v2.5 (~75 ms) po najbardziej ekspresyjny Eleven v3. Poniżej: jak zdobyć klucz i pierwszy działający request w curl i Pythonie.

Co potrafi ElevenLabs API

FunkcjaEndpoint (skrót)Zastosowanie
Text to Speech/v1/text-to-speechZamiana tekstu na mowę
Speech to Text (Scribe)/v1/speech-to-textTranskrypcja nagrań
Voice Cloning/v1/voices/addKlonowanie głosu z próbki
Dubbing/v1/dubbingTłumaczenie audio/wideo
Sound Effects/v1/sound-generationGenerowanie efektów dźwiękowych
Conversational AI/v1/convaiAgenci głosowi (real-time)
Integracja ElevenLabs API — połączenie aplikacji z syntezą głosu przez API

Jak zacząć — klucz API krok po kroku

  1. Załóż konto na elevenlabs.io (darmowy plan wystarczy do testów).
  2. Wejdź w ustawienia konta → sekcja API Keys.
  3. Kliknij Create API Key i skopiuj klucz (zaczyna się od sk_).
  4. Trzymaj klucz po stronie serwera — nigdy w kodzie front-endu ani w repo.

Pierwszy request — przykład curl

Najprostsze wywołanie text-to-speech — wysyłasz tekst, zapisujesz MP3:

curl -X POST "https://api.elevenlabs.io/v1/text-to-speech/JBFqnCBsd6RMkjVDRZzb" 
  -H "xi-api-key: TWOJ_KLUCZ" 
  -H "Content-Type: application/json" 
  -d '{"text":"Cześć! To jest test polskiego głosu AI.","model_id":"eleven_multilingual_v2"}' 
  --output mowa.mp3

Fragment JBFqnCBsd6RMkjVDRZzb to ID głosu — podmień na wybrany z biblioteki lub własny sklonowany głos.

Przykład w Pythonie (oficjalny SDK)

Zainstaluj pip install elevenlabs, a potem:

from elevenlabs import ElevenLabs, save

client = ElevenLabs(api_key="TWOJ_KLUCZ")

audio = client.text_to_speech.convert(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_multilingual_v2",
    text="Cześć! To jest test polskiego głosu AI.",
)

save(audio, "mowa.mp3")

Dostępny jest też SDK dla Node.js (@elevenlabs/elevenlabs-js) oraz pełna dokumentacja REST dla innych języków.

Modele i latencja przez API

model_idProfilNajlepszy do
eleven_v3Najwyższa ekspresja (alpha)Audiobooki, treści emocjonalne
eleven_multilingual_v2Stabilna, naturalna narracjaLektor, e-learning
eleven_flash_v2_5Latencja ~75 msAgenci głosowi, real-time
eleven_turbo_v2_5Balans jakość / kosztAplikacje interaktywne

Do rozmów na żywo wybierz Flash; do narracji — Multilingual v2 lub v3. Więcej o budowie asystentów: Conversational AI.

Cennik API — ile to kosztuje

API rozliczane jest w ramach limitu znaków/kredytów Twojego planu, a po przekroczeniu możesz włączyć Usage-Based Billing. Orientacyjnie:

  • Eleven v3 / Multilingual v2: ok. 0,30 USD / 1 000 znaków
  • Flash v2.5 / Turbo v2.5: ok. 0,15 USD / 1 000 znaków (50% taniej)
  • Scribe (STT): ok. 0,40 USD / godzina audio

Pełne progi planów i przeliczenia w PLN: cennik ElevenLabs.

Limity i dobre praktyki

  • Trzymaj klucz na serwerze — nigdy w przeglądarce; użyj backendu jako proxy.
  • Streaming — do real-time użyj endpointu streamującego (niższe odczuwalne opóźnienie).
  • Concurrency — liczba równoległych żądań zależy od planu; wyższe plany = więcej.
  • Buforuj powtarzalne audio — nie generuj wciąż tego samego tekstu; zapisuj pliki.
  • Obsługuj błędy 429 — przy przekroczeniu limitu zastosuj retry z backoffem.

Przykładowe wdrożenia

  • Agenci głosowi i infolinie — naturalne rozmowy w czasie rzeczywistym (Flash v2.5).
  • Aplikacje i multimedia — lektor, dubbing, audiobooki generowane w locie.
  • Gry — dynamiczne dialogi i narracje postaci.
  • Dostępność — odczyt treści dla osób niedowidzących.
  • IoT i urządzenia głosowe — synteza mowy w inteligentnym domu czy aucie.

FAQ — ElevenLabs API

Jak zdobyć klucz API ElevenLabs?

Załóż konto na elevenlabs.io, wejdź w ustawienia konta, sekcja API Keys, i kliknij Create API Key. Klucz (zaczyna się od sk_) trzymaj po stronie serwera, nigdy w kodzie front-endu.

Czy ElevenLabs API jest darmowe?

Możesz testować API w darmowym planie w ramach limitu znaków (z ograniczeniami, nie do produkcji). Do zastosowań komercyjnych potrzebujesz planu płatnego, a po przekroczeniu limitu — Usage-Based Billing.

Jakiego modelu użyć do rozmów w czasie rzeczywistym?

Do real-time (agenci głosowi, infolinie) użyj eleven_flash_v2_5 z latencją około 75 ms. Do narracji i audiobooków lepszy jest eleven_multilingual_v2 lub eleven_v3.

Czy API obsługuje język polski?

Tak, API obsługuje 70+ języków, w tym polski natywnie. Wystarczy ustawić odpowiedni model (np. eleven_multilingual_v2) i wysłać polski tekst.

Jakie SDK są dostępne?

Oficjalne SDK to Python (pip install elevenlabs) i Node.js (@elevenlabs/elevenlabs-js). Pozostałe języki korzystają bezpośrednio z REST API przez HTTP.

Zacznij od darmowego klucza i pierwszego requestu na elevenlabs.io. A jeśli dopiero poznajesz platformę — zacznij od czym jest ElevenLabs.

To nieoficjalny serwis partnera ElevenLabs. Oficjalna strona producenta to elevenlabs.io.