Przejdź do treści

Przewodnik · 06

Polski TTS 2026, jak wybrać silnik dla voicebota

Jakość polskiego TTS (text-to-speech) bezpośrednio decyduje, czy rozmówca powie „rozmawiałem z robotem” czy „rozmawiałem z asystentem”. W 2026 r. rynek TTS zmienia się co kwartał. Konkretne liczby (latencje, cenniki, listy głosów, wspierane języki) znajdziesz tylko u dostawców, i to one są źródłem prawdy. Ten przewodnik nie próbuje konkurować z dokumentacją producentów; zamiast tego podaje Ci kryteria, których ignorowanie boli w produkcji, kategorie silników warte rozróżnienia i praktyczny test, który zajmie dwie godziny i da Ci własne dane. Decyzję, który silnik trafi do Twojego wdrożenia, zapisujemy w umowie powierzenia (DPA) z imiennym wskazaniem dostawcy i wariantu, zgodnie z tym, co sprawdzi się w Twoim briefie.

Autorzy · Artem Lisovtsov, Serhii Ivanchatenko, Nazar Kravtsov

Opublikowano 17 kwietnia 2026· aktualizacja 14 maja 2026

przewodnik · 068 min
kluczowe fakty
FAKT · 01Jakość polskiego TTS ocenia się po czterech kryteriach: brzmienie (MOS, Mean Opinion Score wg ITU-T P.85), naturalność intonacji (rytm, pauzy), latencja streamowana oraz odporność na dziwne wejścia (daty, kwoty, numery telefonów, skróty). Żadne pojedyncze kryterium samo z siebie nie wystarcza: silnik może mieć wysoki MOS i słabo wymawiać polskie końcówki.
FAKT · 02Wspierane języki silnika weryfikuj bezpośrednio w dokumentacji producenta w dniu wyboru: lista języków jest dynamiczna (nowe są dodawane, stare deprecjonowane) i publiczne artykuły porównawcze szybko się dezaktualizują. Dla polskiego w 2026 r. nie każda popularna platforma voice AI ma wsparcie, sprawdź obsługę języka polskiego (pl-PL) wprost u dostawcy.
FAKT · 03Cenniki dostawców TTS zmieniają się często: w latach 2024 i 2025 najpopularniejsze platformy klasy premium przeszły kilka restrukturyzacji (zmiany tierów, credit-based, podniesienie minimum). Budżetowanie na podstawie cennika sprzed kwartału jest ryzykowne. Weryfikuj u dostawcy przed podpisaniem umowy.
6 rozdziałów

Kluczowe fakty · TL;DR

5 faktów
  1. FAKT · 01

    Jakość polskiego TTS ocenia się po czterech kryteriach: brzmienie (MOS, Mean Opinion Score wg ITU-T P.85), naturalność intonacji (rytm, pauzy), latencja streamowana oraz odporność na dziwne wejścia (daty, kwoty, numery telefonów, skróty). Żadne pojedyncze kryterium samo z siebie nie wystarcza: silnik może mieć wysoki MOS i słabo wymawiać polskie końcówki.

    źródło · ITU-T Recommendation P.85

  2. FAKT · 02

    Wspierane języki silnika weryfikuj bezpośrednio w dokumentacji producenta w dniu wyboru: lista języków jest dynamiczna (nowe są dodawane, stare deprecjonowane) i publiczne artykuły porównawcze szybko się dezaktualizują. Dla polskiego w 2026 r. nie każda popularna platforma voice AI ma wsparcie, sprawdź obsługę języka polskiego (pl-PL) wprost u dostawcy.

  3. FAKT · 03

    Cenniki dostawców TTS zmieniają się często: w latach 2024 i 2025 najpopularniejsze platformy klasy premium przeszły kilka restrukturyzacji (zmiany tierów, credit-based, podniesienie minimum). Budżetowanie na podstawie cennika sprzed kwartału jest ryzykowne. Weryfikuj u dostawcy przed podpisaniem umowy.

  4. FAKT · 04

    Praktyczny test (1–2 h): przygotuj 10 zdań ze swojej domeny (typowe imiona klientów, kwoty, daty, skróty branżowe) i wygeneruj próbkę u każdego dostawcy na darmowym tierze. Własny test na Twoich tekstach bije publiczne benchmarki: wysoki MOS na benchmarku nie gwarantuje, że silnik poprawnie wymówi nazwę Twojej kliniki.

  5. FAKT · 05

    Konkretnego dostawcę TTS przypisanego do Twojego wdrożenia zapisujemy w umowie powierzenia (art. 28 ust. 2 RODO). To decyzja w briefie, nie uniwersalna rekomendacja. Kryteria: branża klienta, wymóg jakości brzmienia vs cena, istniejący stos klienta, wolumen rozmów, wymagania zgodności (hosting EU, zero retention, SCC przy transferze do USA).

§ 01

Jak oceniać jakość polskiego TTS

Ocena TTS-u opiera się na czterech wymiarach, które trzeba rozróżnić, bo dają odmienne wnioski:

(1) Jakość brzmienia (MOS, Mean Opinion Score, skala 1–5). Standardowy benchmark oparty na subiektywnej ocenie przez panel słuchaczy. Publikowane wartości są wskazówką porównawczą, nie gwarancją brzmienia na Twoich tekstach. Te same silniki potrafią różnić się między wersjami, regionami i konfiguracjami. Traktuj cudze benchmarki jako punkt wyjścia. Własny test na dziesięciu zdaniach z Twojej domeny daje wynik, na który możesz się powołać w briefie.

(2) Naturalność intonacji. MOS nie mierzy dobrze rytmu i pauz, a te decydują o tym, czy rozmowa „płynie”. W praktyce testuje się na konkretnych zdaniach z akcentami regionalnymi, skrótami (np. „ul. Al. Solidarności”), liczbami (PESEL wymawiany cyframi, kwoty „dwieście złotych pięćdziesiąt groszy”), datami. Silniki różnią się znacząco i różnice są słyszalne od pierwszego testu.

(3) Latencja: czas od wysłania tekstu do pierwszego dźwięku (time-to-first-byte, TTFB). W streamowaniu TTS różnica między nowoczesnym a starszym silnikiem jest słyszalna: rozmówca wyczuwa „pauzę” i traci płynność rozmowy. Konkretne liczby zmieniają się z wersjami i konfiguracjami; mierz na swoim pipelinie, nie w oderwaniu od dialog engine.

(4) Odporność na nietypowe wejścia. Co się dzieje, gdy agent ma powiedzieć `2026-04-17 o godzinie 14:30` lub `+48 888 78 48 78`? Słabe silniki wymawiają literalnie „myślnik 2026 myślnik…”. Dobre poprawnie interpretują format.

Praktyczny test, który rekomendujemy każdemu: przygotuj dziesięć zdań ze swojej domeny (branża, typowe nazwiska klientów, kwoty, daty, skróty) i poproś każdego kandydata o tę samą próbkę. Różnica między silnikami jest słyszalna. Dwie godziny testu dają Ci lepszy sygnał niż godzina czytania cudzych benchmarków.

§ 02

Cztery kategorie silników TTS, jak rozumieć rynek

Zamiast wymieniać marki (które zmieniają cennik, warianty i palety głosów co kwartał), warto znać cztery kategorie silników. Każda optymalizuje pod inną kombinację jakość / latencja / koszt / zgodność i do każdej przypisana jest inna sytuacja briefingowa.

Kategoria A, premium brand voice. Silniki nastawione na najwyższą jakość brzmienia, bogatą ekspresję emocjonalną, cloning głosu (stwórz własny głos firmy). Najbardziej wybierane tam, gdzie brzmienie agenta jest elementem marki: medycyna estetyczna, hotele premium, kancelarie adwokackie, marki luxe. Typowo droższe niż inne kategorie; część dostawców oferuje wariant low-latency kosztem kompromisu jakości dla voicebotów telefonicznych.

Kategoria B, enterprise cloud (ekosystem korporacyjny). Silniki wbudowane w duże platformy chmurowe. Wartość: jednolity stos, jedna umowa DPA, jeden rachunek, SLA klasy enterprise, dostępność w europejskich regionach dla zgodności RODO. Jakość i ekspresja zwykle niższe niż kategoria A, ale stabilność i compliance wyraźnie lepsze. Typowy wybór dla sektorów regulowanych (banki, ubezpieczenia, sektor publiczny) oraz firm już zakorzenionych w jednym ekosystemie chmurowym.

Kategoria C, speech-to-speech (realtime). Nowsza architektura: model przyjmuje audio i generuje audio bez osobnego kroku TTS. Zyskuje krótsza pętla rozmowy (mniej etapów między słowem klienta a odpowiedzią agenta), traci wybór głosów (paleta jest węższa) i budżet (cennik per minuta zwykle wyraźnie wyższy niż klasyczny pipeline ASR → LLM → TTS). Przydatna tam, gdzie latencja jest krytyczna i akceptujesz kompromis palety głosów: typowo prototypowanie, asystenci wewnętrzni, scenariusze o bardzo wysokiej interaktywności.

Kategoria D, open-source self-hosted. Modele community-driven uruchamiane na własnej infrastrukturze (kilka projektów open-weights z poprawnym wsparciem polskiego). Jakość orientacyjnie poniżej kategorii A i B dla polskiego, ale koszt per znak istotnie niższy (płacisz tylko za VPS / GPU + energię). Bariera operacyjna wysoka: monitoring, aktualizacje, disaster recovery. W praktyce 2026 r. ma sens dla firm z własnym zespołem DevOps i bardzo wysokim wolumenem, albo dla sektorów z wyśrubowanymi wymogami data residency, gdzie żaden chmurowy silnik nie spełnia kryteriów.

Wsparcie dla polskiego (pl-PL) nie jest dane w żadnej z tych kategorii. Silniki w obrębie jednej kategorii różnią się znacząco paletą języków: niektóre popularne platformy voice AI nie mają polskiego w ogóle, a publikowane artykuły porównawcze dezaktualizują się szybciej niż pojawiają w druku. Obecność pl-PL weryfikuj bezpośrednio w dokumentacji dostawcy w dniu wyboru.

§ 03

Praktyczny test dziesięciu zdań, własne dane zamiast cudzych benchmarków

Publiczne benchmarki MOS są średnio użyteczne, ale nie mówią, czy silnik poprawnie wymówi nazwę Twojej kliniki, Twój adres, imię trudnego klienta. Test na własnych zdaniach jest tańszy (darmowe tiery wszystkich dojrzałych dostawców) i daje sygnał, na który możesz się powołać.

Zdania 1–2: standardowe powitanie i pożegnanie („Dzień dobry, tu voicebot kliniki X. W czym mogę pomóc?”).

Zdania 3–4: trudne polskie odmiany (dopełniacz, celownik, narzędnik), ze średnio popularnymi imionami („Pani Małgorzaty Kwapisz nie ma w systemie. Czy mogę dopisać ją do kolejki?”).

Zdanie 5: kwota z groszami („Koszt konsultacji to sto pięćdziesiąt złotych, płatność w gabinecie.”).

Zdanie 6: data i godzina („Najbliższy wolny termin to piątek, dwudziestego czwartego kwietnia o czternastej trzydzieści.”).

Zdanie 7: numer telefonu wymawiany cyfra po cyfrze („Proszę zapisać numer: czterdzieści osiem, osiemset osiemdziesiąt osiem, siedemdziesiąt osiem, czterdzieści osiem, siedemdziesiąt osiem.”).

Zdanie 8: skrót i nazwa własna branżowa („Zgodnie z art. 9 RODO, przetwarzanie danych medycznych wymaga odrębnej zgody.”).

Zdanie 9: zdanie emocjonalne, pytanie i empatyczne potwierdzenie („Czy wszystko w porządku? Rozumiem, że to mogła być pilna sprawa.”).

Zdanie 10: dłuższa wypowiedź mieszająca elementy, 20–30 sekund ciągłego mówienia. Na takim odcinku ujawnia się różnica między silnikiem dobrym a bardzo dobrym.

Po wygenerowaniu próbek u każdego kandydata odsłuchaj je z trzema osobami (Ty, ktoś z zespołu, ktoś „z zewnątrz”) i oceń po trzech kryteriach: czy brzmi naturalnie, czy są błędy wymowy, czy rytm i pauzy nie męczą. Czas całego testu: 1–2 godziny, koszt zwykle mieści się w darmowych tierach. Wynik: lista 2–3 silników do dalszej rozmowy w briefie.

§ 04

Ekonomika TTS w budżecie voicebota

W typowym polskim wdrożeniu SMB koszt TTS jest zwykle najniższym składnikiem rachunku chmurowego: istotnie niższym niż LLM i telefonia razem wzięte. Wyjątkiem są silniki kategorii A (premium brand voice), gdzie cennik potrafi być rzędu wielokrotnie wyższy niż kategoria B (enterprise cloud). Kategoria C (speech-to-speech) ma inny model cenowy: per minuta rozmowy, nie per znak, i zwykle wyraźnie wyższy per minutę niż klasyczny pipeline.

Praktyczny wniosek: optymalizacja TTS kosztem jakości rzadko się opłaca. Przy typowym wolumenie polskiego SMB różnica między silnikiem „dobrym” a „bardzo dobrym” to mała pozycja w stosunku do retainera opieki miesięcznej, nie warto o nią walczyć kosztem brzmienia.

Zmienność cenników to realne ryzyko. W ostatnich 2 latach dostawcy TTS klasy premium przechodzili kolejne restrukturyzacje cennikowe (zmiany credit-based, podniesienie minimum, redefinicja tierów). Budżetowanie na podstawie cennika sprzed kwartału jest ryzykowne. Zawsze weryfikuj u dostawcy przed podpisaniem umowy.

Dla orientacji budżetowej podajemy konkretne liczby w briefie po zebraniu Twoich wymagań (wolumen minut, wymagana jakość, priorytet latencji, wymogi zgodności). Liczby cennikowe w artykułach, w tym w tym przewodniku, dezaktualizują się szybciej niż pojawiają w druku. Jedyne wiarygodne cenniki to te z dokumentacji dostawcy w dniu podpisywania DPA.

§ 05

Wymogi zgodności: hosting EU, zero retention, SCC

Dla sektorów regulowanych w Polsce (medycyna, kancelarie, finanse, sektor publiczny) wybór silnika TTS to również decyzja zgodnościowa, nie tylko jakościowa. Trzy elementy do weryfikacji u KAŻDEGO rozważanego dostawcy:

Hosting w regionach UE. Silnik TTS otrzymuje tekst rozmowy i odpowiada audio: to przetwarzanie danych osobowych w rozumieniu RODO. Transfer poza UE wymaga dodatkowych zabezpieczeń (SCC). Część dostawców oferuje regiony UE wprost; część tylko w planach enterprise; część nie oferuje w ogóle dla polskiego głosu. Weryfikuj wprost w dniu wyboru.

Zero data retention / no-training. Tryb, w którym dostawca nie przechowuje wysyłanego tekstu i nie używa go do trenowania modeli. Standardem u dojrzałych dostawców enterprise, ale nie zawsze domyślnym, trzeba aktywnie wybrać w konfiguracji lub umowie. Konieczne dla klinik (art. 9 RODO), kancelarii (tajemnica adwokacka) i sektora publicznego.

SCC przy transferze do USA. Jeśli silnik fizycznie hostowany jest w USA (nawet europejski dostawca bywa na infrastrukturze amerykańskiej), potrzebna jest umowa oparta na Standard Contractual Clauses zatwierdzonych decyzją wykonawczą Komisji 2021/914. Dla klinik i kancelarii zalecamy silnik z europejskim hostem; SCC jako środek zaradczy ma sens w innych sektorach.

W praktyce: w briefie najpierw kwalifikujemy silniki kategorii A / B / C / D pod kątem powyższych trzech kryteriów dla Twojej branży, DOPIERO POTEM porównujemy jakość. Silnik o najlepszym brzmieniu, który nie ma europejskiego hostu, jest dyskwalifikowany dla kliniki i nie trafia do DPA.

§ 06

Jak przebiega dobór silnika w Twoim briefie

Konkretnego dostawcę TTS (i każdego innego komponentu stosu: LLM, STT, telefonii) przypisujemy per projekt i zapisujemy z imienia w umowie powierzenia (art. 28 ust. 2 RODO). To decyzja w briefie, nie uniwersalna rekomendacja, i nie ujawniamy jej publicznie, bo indywidualnie dla klienta dobieramy najlepszą dla branży opcję wraz z jej umową DPA, regionem hostingu, trybem retention i cennikiem na moment podpisania.

Proces briefu trwa zwykle 1–2 spotkań: (1) zbieramy Twoje wymagania jakościowe (próbki brzmienia z Twojej domeny), latencyjne (oczekiwany TTFB), zgodnościowe (region hostingu, retencja, tajemnica branżowa) oraz budżetowe (oczekiwany koszt na minutę), (2) kwalifikujemy 2–3 warianty z różnych kategorii spełniające Twoje kryteria zgodności, (3) prezentujemy próbki brzmienia na Twoich dziesięciu zdaniach, (4) wybierasz z rekomendacji lub wskazujesz preferencję, a my zapisujemy decyzję w DPA z imienną nazwą dostawcy, regionem hostingu i trybem retencji.

Co to oznacza praktycznie: publicznie nie odpowiadamy na pytanie „jakiego silnika używacie”, bo uczciwa odpowiedź brzmi „zależy, którego klienta pytasz”. W Twoim konkretnym wdrożeniu odpowiedź jest dokładna, imienna i spisana w DPA, do którego masz dostęp jako strona umowy.

Czego nie obejmuje pakiet: zmian cennika dostawcy po podpisaniu umowy. Jeśli w trakcie trwania umowy dostawca podnosi ceny, podwyżka przechodzi na Twój rachunek, ale nigdy ukradkiem: informujemy z 30-dniowym wyprzedzeniem i raz w roku oferujemy w ramach pakietu migrację na inny silnik (3–5 dni roboczych, bez dodatkowej opłaty).

01pyt · p06

Dlaczego nie podajecie konkretnych silników ani cen w tym przewodniku?

odp.

Bo konkretny dostawca, wariant, region hostingu i cennik zależą od Twojej branży, wymogów zgodności i aktualnych ofert rynkowych, a publikacja domyślnej rekomendacji sugerowałaby, że jest jedno dobre rozwiązanie dla wszystkich. Cenniki i warianty silników TTS zmieniają się co kwartał; przewodnik z konkretnymi liczbami dezaktualizuje się szybciej niż czas jego napisania. W Twoim briefie kwalifikujemy opcje z czterech kategorii pod kątem Twoich kryteriów i wybieramy z imienia, zapis trafia do umowy powierzenia.

02pyt · p06

Czy rozmówca odróżni silnik kategorii premium od kategorii enterprise cloud na słuch?

odp.

Średnio tak, ale nie zawsze. Różnica w jakości jest słyszalna przy dłuższych wypowiedziach (10+ sekund) i przy ekspresyjnych zdaniach (emocje, pytania, przypomnienia). Przy krótkich, rzeczowych wypowiedziach („Umówiłem wizytę na piątek, 12:00”) różnica zanika i dla tego typu ruchu tańsza kategoria wystarczy. Zrób test 10 zdań ze swojej domeny, usłyszysz, czy różnica jest dla Ciebie istotna.

03pyt · p06

Jak mogę przetestować różne silniki przed wyborem?

odp.

Każdy poważny dostawca ma darmowy tier, trial lub kredyt na start. Przygotuj dziesięć zdań ze swojej domeny (patrz sekcja 3 tego przewodnika), wygeneruj próbki u każdego kandydata spełniającego Twoje kryteria zgodności i porównaj je w zespole. Czas: 1–2 godziny. Koszt: zwykle zero, darmowe tiery wystarczają na test porównawczy.

04pyt · p06

Czy polski TTS rozpoznaje poprawnie polskie imiona i nazwiska?

odp.

W 2026 r. większość popularnych imion (Jan, Anna, Piotr, Katarzyna) tak. Rzadkie nazwiska (Rzeszowicz, Świątkiewicz) bywają niepoprawnie wymawiane. Rozwiązanie: słownik wymowy (SSML `<phoneme>` lub tabela odwzorowań w dialog engine), który nakłada poprawną wymowę na listę klientów Twojej firmy. Zrób to raz, działa na całe wdrożenie.

05pyt · p06

Co z wymową kwot, dat, numerów telefonów?

odp.

Nowoczesne silniki (wszystkich czterech kategorii) w różnym stopniu interpretują formaty („50,00 zł” → „pięćdziesiąt złotych”, „2026-04-17” → „siedemnastego kwietnia dwa tysiące dwudziestego szóstego roku”). Część robi to dobrze, część wymaga konwersji po stronie dialog engine (zamiany liczby na tekst przed wysłaniem do TTS). Test 10 zdań ujawnia, który silnik potrzebuje Twojej pomocy, a który da radę sam.

06pyt · p06

Czy hosting TTS w USA narusza RODO?

odp.

Sam hosting poza UE nie narusza RODO, ale wymaga dodatkowych zabezpieczeń. Standard: (a) Standard Contractual Clauses (SCC, decyzja wykonawcza KE 2021/914) w umowie powierzenia, (b) tryb zero data retention u dostawcy (jeśli dostępny), (c) dla branż szczególnie wrażliwych (medycyna, kancelarie, sektor publiczny), wybór silnika hostowanego wyłącznie w UE. Dla klinik i kancelarii zalecamy europejski host; SCC jako środek zaradczy ma sens w innych sektorach.

07pyt · p06

Jaki jest realny koszt TTS w pakiecie voicebota?

odp.

Przy typowym wolumenie polskiego SMB (około 10 000 minut rozmów miesięcznie) koszt TTS jest zwykle najniższym składnikiem rachunku chmurowego, niższym niż LLM i telefonia. W pakietach LITE i GROWTH koszt TTS wliczamy w opiekę miesięczną. W pakiecie ENTERPRISE lub przy dużych wolumenach koszty silnika kategorii premium bywają przenoszone na klienta z pełną przejrzystością: zawsze widzisz, ile kosztuje surowy rachunek dostawcy, a ile nasza marża.

08pyt · p06

Czy można zmienić silnik TTS po wdrożeniu?

odp.

Tak. Migracja silnika to zwykle 3–5 dni roboczych (rekonfiguracja, testy regresyjne, ewentualne dostosowanie słownika wymowy). Typowe powody migracji: jakość nie spełnia oczekiwań, dostawca podnosi cennik, nowy silnik lepiej radzi sobie z Twoją branżą. U nas migracja jest w pakiecie (bez dodatkowej opłaty) raz w roku.

09pyt · p06

Jaki silnik TTS, LLM i STT przypisujecie do wdrożenia?

odp.

Konkretnego dostawcę każdego komponentu stosu przypisujemy per projekt i zapisujemy z imienia w umowie powierzenia (art. 28 ust. 2 RODO), to decyzja w Twoim briefie, nie publiczna domyślna rekomendacja. Dobieramy z priorytetem: hosting EU, tryb zero-retention, zgodność z Twoją branżą. Publicznie komunikujemy zasady doboru; imiona dostawców trafiają do DPA, do którego masz dostęp jako strona umowy.

Co dalej

Koniec teorii. Zobacz demo dla Twojej branży.

Zostaw kontakt, a w 1–2 dni robocze odpowiadamy z linkiem do hostowanego demo voicebota przygotowanego pod Twoją branżę. Bez kont, bez logowania, bez karty.

Branże i raporty

Zobacz, jak to działa w praktyce.

01 · poz.