ElevenLabs API to interfejs REST, który pozwala wpiąć syntezę głosu AI prosto w aplikację — text-to-speech, klonowanie głosu, transkrypcję (Scribe), dubbing, efekty dźwiękowe i agentów głosowych. Autoryzujesz się kluczem (`xi-api-key`), wysyłasz tekst, dostajesz audio. Obsługuje 70+ języków (w tym polski) i modele od najszybszego Flash v2.5 (~75 ms) po najbardziej ekspresyjny Eleven v3. Poniżej: jak zdobyć klucz i pierwszy działający request w curl i Pythonie.
Co potrafi ElevenLabs API
| Funkcja | Endpoint (skrót) | Zastosowanie |
|---|---|---|
| Text to Speech | /v1/text-to-speech | Zamiana tekstu na mowę |
| Speech to Text (Scribe) | /v1/speech-to-text | Transkrypcja nagrań |
| Voice Cloning | /v1/voices/add | Klonowanie głosu z próbki |
| Dubbing | /v1/dubbing | Tłumaczenie audio/wideo |
| Sound Effects | /v1/sound-generation | Generowanie efektów dźwiękowych |
| Conversational AI | /v1/convai | Agenci głosowi (real-time) |

Jak zacząć — klucz API krok po kroku
- Załóż konto na elevenlabs.io (darmowy plan wystarczy do testów).
- Wejdź w ustawienia konta → sekcja API Keys.
- Kliknij Create API Key i skopiuj klucz (zaczyna się od
sk_). - Trzymaj klucz po stronie serwera — nigdy w kodzie front-endu ani w repo.
Pierwszy request — przykład curl
Najprostsze wywołanie text-to-speech — wysyłasz tekst, zapisujesz MP3:
curl -X POST "https://api.elevenlabs.io/v1/text-to-speech/JBFqnCBsd6RMkjVDRZzb"
-H "xi-api-key: TWOJ_KLUCZ"
-H "Content-Type: application/json"
-d '{"text":"Cześć! To jest test polskiego głosu AI.","model_id":"eleven_multilingual_v2"}'
--output mowa.mp3Fragment JBFqnCBsd6RMkjVDRZzb to ID głosu — podmień na wybrany z biblioteki lub własny sklonowany głos.
Przykład w Pythonie (oficjalny SDK)
Zainstaluj pip install elevenlabs, a potem:
from elevenlabs import ElevenLabs, save
client = ElevenLabs(api_key="TWOJ_KLUCZ")
audio = client.text_to_speech.convert(
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_multilingual_v2",
text="Cześć! To jest test polskiego głosu AI.",
)
save(audio, "mowa.mp3")Dostępny jest też SDK dla Node.js (@elevenlabs/elevenlabs-js) oraz pełna dokumentacja REST dla innych języków.
Modele i latencja przez API
model_id | Profil | Najlepszy do |
|---|---|---|
eleven_v3 | Najwyższa ekspresja (alpha) | Audiobooki, treści emocjonalne |
eleven_multilingual_v2 | Stabilna, naturalna narracja | Lektor, e-learning |
eleven_flash_v2_5 | Latencja ~75 ms | Agenci głosowi, real-time |
eleven_turbo_v2_5 | Balans jakość / koszt | Aplikacje interaktywne |
Do rozmów na żywo wybierz Flash; do narracji — Multilingual v2 lub v3. Więcej o budowie asystentów: Conversational AI.
Cennik API — ile to kosztuje
API rozliczane jest w ramach limitu znaków/kredytów Twojego planu, a po przekroczeniu możesz włączyć Usage-Based Billing. Orientacyjnie:
- Eleven v3 / Multilingual v2: ok. 0,30 USD / 1 000 znaków
- Flash v2.5 / Turbo v2.5: ok. 0,15 USD / 1 000 znaków (50% taniej)
- Scribe (STT): ok. 0,40 USD / godzina audio
Pełne progi planów i przeliczenia w PLN: cennik ElevenLabs.
Limity i dobre praktyki
- Trzymaj klucz na serwerze — nigdy w przeglądarce; użyj backendu jako proxy.
- Streaming — do real-time użyj endpointu streamującego (niższe odczuwalne opóźnienie).
- Concurrency — liczba równoległych żądań zależy od planu; wyższe plany = więcej.
- Buforuj powtarzalne audio — nie generuj wciąż tego samego tekstu; zapisuj pliki.
- Obsługuj błędy 429 — przy przekroczeniu limitu zastosuj retry z backoffem.
Przykładowe wdrożenia
- Agenci głosowi i infolinie — naturalne rozmowy w czasie rzeczywistym (Flash v2.5).
- Aplikacje i multimedia — lektor, dubbing, audiobooki generowane w locie.
- Gry — dynamiczne dialogi i narracje postaci.
- Dostępność — odczyt treści dla osób niedowidzących.
- IoT i urządzenia głosowe — synteza mowy w inteligentnym domu czy aucie.
FAQ — ElevenLabs API
Załóż konto na elevenlabs.io, wejdź w ustawienia konta, sekcja API Keys, i kliknij Create API Key. Klucz (zaczyna się od sk_) trzymaj po stronie serwera, nigdy w kodzie front-endu.
Możesz testować API w darmowym planie w ramach limitu znaków (z ograniczeniami, nie do produkcji). Do zastosowań komercyjnych potrzebujesz planu płatnego, a po przekroczeniu limitu — Usage-Based Billing.
Do real-time (agenci głosowi, infolinie) użyj eleven_flash_v2_5 z latencją około 75 ms. Do narracji i audiobooków lepszy jest eleven_multilingual_v2 lub eleven_v3.
Tak, API obsługuje 70+ języków, w tym polski natywnie. Wystarczy ustawić odpowiedni model (np. eleven_multilingual_v2) i wysłać polski tekst.
Oficjalne SDK to Python (pip install elevenlabs) i Node.js (@elevenlabs/elevenlabs-js). Pozostałe języki korzystają bezpośrednio z REST API przez HTTP.
Zacznij od darmowego klucza i pierwszego requestu na elevenlabs.io. A jeśli dopiero poznajesz platformę — zacznij od czym jest ElevenLabs.
To nieoficjalny serwis partnera ElevenLabs. Oficjalna strona producenta to elevenlabs.io.
