ElevenLabs API — jak zacząć, endpointy i przykłady kodu (2026)

ElevenLabs API to interfejs REST, który pozwala wpiąć syntezę głosu AI prosto w aplikację — text-to-speech, klonowanie głosu, transkrypcję (Scribe), dubbing, efekty dźwiękowe i agentów głosowych. Autoryzujesz się kluczem (`xi-api-key`), wysyłasz tekst, dostajesz audio. Obsługuje 70+ języków (w tym polski) i modele od najszybszego Flash v2.5 (~75 ms) po najbardziej ekspresyjny Eleven v3. Poniżej: jak zdobyć klucz i pierwszy działający request w curl i Pythonie.

Co potrafi ElevenLabs API

Funkcja	Endpoint (skrót)	Zastosowanie
Text to Speech	`/v1/text-to-speech`	Zamiana tekstu na mowę
Speech to Text (Scribe)	`/v1/speech-to-text`	Transkrypcja nagrań
Voice Cloning	`/v1/voices/add`	Klonowanie głosu z próbki
Dubbing	`/v1/dubbing`	Tłumaczenie audio/wideo
Sound Effects	`/v1/sound-generation`	Generowanie efektów dźwiękowych
Conversational AI	`/v1/convai`	Agenci głosowi (real-time)

Jak zacząć — klucz API krok po kroku

Załóż konto na elevenlabs.io (darmowy plan wystarczy do testów).
Wejdź w ustawienia konta → sekcja API Keys.
Kliknij Create API Key i skopiuj klucz (zaczyna się od sk_).
Trzymaj klucz po stronie serwera — nigdy w kodzie front-endu ani w repo.

Pierwszy request — przykład curl

Najprostsze wywołanie text-to-speech — wysyłasz tekst, zapisujesz MP3:

curl -X POST "https://api.elevenlabs.io/v1/text-to-speech/JBFqnCBsd6RMkjVDRZzb" 
  -H "xi-api-key: TWOJ_KLUCZ" 
  -H "Content-Type: application/json" 
  -d '{"text":"Cześć! To jest test polskiego głosu AI.","model_id":"eleven_multilingual_v2"}' 
  --output mowa.mp3

Fragment JBFqnCBsd6RMkjVDRZzb to ID głosu — podmień na wybrany z biblioteki lub własny sklonowany głos.

Przykład w Pythonie (oficjalny SDK)

Zainstaluj pip install elevenlabs, a potem:

from elevenlabs import ElevenLabs, save

client = ElevenLabs(api_key="TWOJ_KLUCZ")

audio = client.text_to_speech.convert(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_multilingual_v2",
    text="Cześć! To jest test polskiego głosu AI.",
)

save(audio, "mowa.mp3")

Dostępny jest też SDK dla Node.js (@elevenlabs/elevenlabs-js) oraz pełna dokumentacja REST dla innych języków.

Modele i latencja przez API

`model_id`	Profil	Najlepszy do
`eleven_v3`	Najwyższa ekspresja (alpha)	Audiobooki, treści emocjonalne
`eleven_multilingual_v2`	Stabilna, naturalna narracja	Lektor, e-learning
`eleven_flash_v2_5`	Latencja ~75 ms	Agenci głosowi, real-time
`eleven_turbo_v2_5`	Balans jakość / koszt	Aplikacje interaktywne

Do rozmów na żywo wybierz Flash; do narracji — Multilingual v2 lub v3. Więcej o budowie asystentów: Conversational AI.

Cennik API — ile to kosztuje

API rozliczane jest w ramach limitu znaków/kredytów Twojego planu, a po przekroczeniu możesz włączyć Usage-Based Billing. Orientacyjnie:

Eleven v3 / Multilingual v2: ok. 0,30 USD / 1 000 znaków
Flash v2.5 / Turbo v2.5: ok. 0,15 USD / 1 000 znaków (50% taniej)
Scribe (STT): ok. 0,40 USD / godzina audio

Pełne progi planów i przeliczenia w PLN: cennik ElevenLabs.

Limity i dobre praktyki

Trzymaj klucz na serwerze — nigdy w przeglądarce; użyj backendu jako proxy.
Streaming — do real-time użyj endpointu streamującego (niższe odczuwalne opóźnienie).
Concurrency — liczba równoległych żądań zależy od planu; wyższe plany = więcej.
Buforuj powtarzalne audio — nie generuj wciąż tego samego tekstu; zapisuj pliki.
Obsługuj błędy 429 — przy przekroczeniu limitu zastosuj retry z backoffem.

Przykładowe wdrożenia

Agenci głosowi i infolinie — naturalne rozmowy w czasie rzeczywistym (Flash v2.5).
Aplikacje i multimedia — lektor, dubbing, audiobooki generowane w locie.
Gry — dynamiczne dialogi i narracje postaci.
Dostępność — odczyt treści dla osób niedowidzących.
IoT i urządzenia głosowe — synteza mowy w inteligentnym domu czy aucie.

FAQ — ElevenLabs API

Jak zdobyć klucz API ElevenLabs?

Załóż konto na elevenlabs.io, wejdź w ustawienia konta, sekcja API Keys, i kliknij Create API Key. Klucz (zaczyna się od sk_) trzymaj po stronie serwera, nigdy w kodzie front-endu.

Czy ElevenLabs API jest darmowe?

Możesz testować API w darmowym planie w ramach limitu znaków (z ograniczeniami, nie do produkcji). Do zastosowań komercyjnych potrzebujesz planu płatnego, a po przekroczeniu limitu — Usage-Based Billing.

Jakiego modelu użyć do rozmów w czasie rzeczywistym?

Do real-time (agenci głosowi, infolinie) użyj eleven_flash_v2_5 z latencją około 75 ms. Do narracji i audiobooków lepszy jest eleven_multilingual_v2 lub eleven_v3.

Czy API obsługuje język polski?

Tak, API obsługuje 70+ języków, w tym polski natywnie. Wystarczy ustawić odpowiedni model (np. eleven_multilingual_v2) i wysłać polski tekst.

Jakie SDK są dostępne?

Oficjalne SDK to Python (pip install elevenlabs) i Node.js (@elevenlabs/elevenlabs-js). Pozostałe języki korzystają bezpośrednio z REST API przez HTTP.

Zacznij od darmowego klucza i pierwszego requestu na elevenlabs.io. A jeśli dopiero poznajesz platformę — zacznij od czym jest ElevenLabs.

To nieoficjalny serwis partnera ElevenLabs. Oficjalna strona producenta to elevenlabs.io.

Uwaga!