Przejdź do treści

Biblioteka R · 05 / 05R05 · technologia

Polski TTS, test produkcyjny 2026

Najlepszy TTS na demo nie zawsze jest najlepszy w produkcji. Polski głos w telefonii musi wymawiać nazwiska, skróty, godziny, liczby, ceny i nazwy lokalne bez efektu sztuczności, w budżecie 250–400 ms TTFB, przy kompresji G.711. Ten raport zawiera listę 30 zdań w 9 kategoriach, ramy pomiaru MOS, branżowe profile głosu i listę pułapek licencyjno-rezydencyjnych.

10 min czytaniapublikacja 2026-04-23aktualizacja 2026-05-06wydawca Syntalith sp. z o.o.
raport · technologia10 min
trzy zdania
TL;DR · 01Polski TTS w 2025–2026 r. jest na poziomie MOS 4,5–4,8 dla najlepszych modeli komercyjnych (top kategoria 4,7+ w warunkach studyjnych). Demo różni się od produkcji o 0,3–0,5 punkta MOS w zależności od latencji, próbek i kontekstu.
TL;DR · 02Telefonia narzuca 8 lub 16 kHz sample rate. Top modele 2025–2026 schodzą do TTFB TTS 80–200 ms; pełna pętla voice-to-voice mieści się typowo w 600–1 200 ms. Najlepszy głos studio może być nieakceptowalny po downsampleu i kompresji G.711 SIP.
TL;DR · 03Polski język ujawnia problemy na: nazwiskach z polskimi znakami, odmianie liczebników, godzinach, skrótach (mgr, dr, hab.), nazwach lokalnych, fleksji. Test bez tych kategorii jest pozorny.
publikacja · 2026-04-23
MOS produkcyjny
4,5+

Skala 1–5. Top modele komercyjne 4,5–4,8 w warunkach studyjnych. Telefonia: −0,3 do −0,5.

Budżet TTFB TTS
80–400 ms

Od promptu do TTS do pierwszego dźwięku audio. Top modele 2025–2026 schodzą do 80–200 ms. Pełna pętla voice-to-voice 600–1 200 ms; powyżej 700 ms rozmowa traci naturalność (zgodnie z branżowymi benchmarkami voice agentów 2025).

Sample rate telefonia
8 / 16 kHz

G.711 µ-law 8 kHz, G.722 16 kHz. Studio 24–48 kHz tracone w kompresji.

Lista testów
30 zdań / 9 kategorii

Nazwiska, liczby, godziny, skróty, fleksja, nazwy lokalne, pauzy, dialogi, paralingual.

WER po-TTS
< 2%

Word Error Rate na transkrypcji TTS przez ASR. Mierzy zrozumiałość, niezależnie od MOS.

Trzy zdania, jeśli nie masz czasu

  1. 01Polski TTS w 2025–2026 r. jest na poziomie MOS 4,5–4,8 dla najlepszych modeli komercyjnych (top kategoria 4,7+ w warunkach studyjnych). Demo różni się od produkcji o 0,3–0,5 punkta MOS w zależności od latencji, próbek i kontekstu.
  2. 02Telefonia narzuca 8 lub 16 kHz sample rate. Top modele 2025–2026 schodzą do TTFB TTS 80–200 ms; pełna pętla voice-to-voice mieści się typowo w 600–1 200 ms. Najlepszy głos studio może być nieakceptowalny po downsampleu i kompresji G.711 SIP.
  3. 03Polski język ujawnia problemy na: nazwiskach z polskimi znakami, odmianie liczebników, godzinach, skrótach (mgr, dr, hab.), nazwach lokalnych, fleksji. Test bez tych kategorii jest pozorny.

01

Dlaczego polski głos to inna kategoria testu

Polszczyzna jest językiem fleksyjnym z silną odmianą rzeczowników, czasowników, liczebników i zaimków. „Drugi” wymawia się inaczej w „drugi pokój” (ten) i „drugi raz” (kolejność). Modele TTS trenowane głównie na angielskim radzą sobie tu nierówno, nawet jeśli ich angielska wersja jest top-tier.

Polskie znaki diakrytyczne (ą, ę, ć, ł, ń, ó, ś, ź, ż) bywają błędnie redukowane do podstawowej litery, szczególnie w nazwiskach. „Pączkowski” nie powinno brzmieć jak „Paczkowski”. „Świętokrzyski” nie powinno brzmieć jak „Swietokrzyski”.

Skróty zawodowe (dr, mgr, hab., prof.) wymagają rozwinięcia kontekstowego. Liczby godzin (8:30) najczęściej rozwijać do „ósma trzydzieści”, nie „osiem trzydzieści”. Numery telefonów grupują się dwucyframi (22 123 45 67), nie pełnymi liczbami.

02

Latencja w telefonii: budżet TTFB

Budżet latencji od końca wypowiedzi rozmówcy do pierwszego dźwięku odpowiedzi

Wykrycie końca wypowiedzi (VAD)

Budżet
80–150 ms
Notka
Zależy od modelu VAD, progu silence i charakteru rozmowy.

Przetworzenie modelu LLM (1–3 zdania)

Budżet
300–800 ms
Notka
Streaming pomaga, ale TTFB nie spada poniżej ~200 ms nawet w streamingu.

Pierwsze tokeny TTS (TTFB voice)

Budżet
80–200 ms
Notka
Najlepsze modele streamują od pierwszej fonemy, gorsze syntetyzują pełne zdanie.

Kodek + kompresja SIP

Budżet
30–80 ms
Notka
G.711 µ-law lub a-law, jitter buffer 20–40 ms.

Sieć (RTT operatora)

Budżet
20–100 ms
Notka
Polski operator: zwykle <50 ms. Międzynarodowe: 80–150 ms.

Suma TTFB voice

Budżet
510–1 330 ms
Notka
Realny zakres produkcji. Próg „naturalności” to ~700 ms, powyżej 1 200 ms rozmowa czuje się jak chat.

Każdy etap można optymalizować osobno. Najwięcej do zyskania jest w streamingu LLM (jeśli platforma wspiera) i w wyborze TTS z niskim TTFB voice (modele autoregresywne tu zwykle wygrywają z neural codec).

03

Lista 30 zdań testowych w 9 kategoriach

Przykłady zdań testowych dla polskiego TTS produkcyjnego

Nazwiska polskie

Przykładowe zdanie
„Czy mogę zapytać o doktora Pączkowskiego, prof. Wójcika lub mgr Mościckiej?”
Co testuje
Polskie znaki, akcent, skróty zawodowe

Liczebniki w odmianie

Przykładowe zdanie
„Mamy trzydziestu pięciu pacjentów w kolejce, na drugim piętrze.”
Co testuje
Forma męskoosobowa, dopełniacz, miejscownik

Godziny

Przykładowe zdanie
„Wizyta o ósmej trzydzieści w piątek, przeniesiona z czwartku siedemnastego.”
Co testuje
Konwersja 8:30, dat, dni tygodnia

Numery telefonów

Przykładowe zdanie
„Telefon kontaktowy: dwadzieścia dwa, sto dwadzieścia trzy, czterdzieści pięć, sześćdziesiąt siedem.”
Co testuje
Grupowanie cyfr, prefiks regionalny

Adresy

Przykładowe zdanie
„ulica Marszałkowska sto czterdzieści dwa A, mieszkanie pięć, Warszawa.”
Co testuje
Skrót „m.”, mieszanka cyfra-litera

Skróty zawodowe

Przykładowe zdanie
„Mgr Anna Kowalska-Nowak, lek. dent., spec. ortodonta.”
Co testuje
Rozwinięcie kontekstowe, akcenty na polskich słowach

Nazwy lokalne

Przykładowe zdanie
„Jak dojechać do Świętej Trójcy w Bytomiu, koło placu Krakowskiego?”
Co testuje
Toponimy, deklinacja, nazwy historyczne

Dialogi z pauzami

Przykładowe zdanie
„Hmm… rozumiem. Zaraz to sprawdzę. Proszę o chwilę cierpliwości.”
Co testuje
Naturalność pauz, znaczniki paralingual

Paralingualne

Przykładowe zdanie
„Przepraszam, czy mogłaby Pani powtórzyć? Trochę gorzej słyszałem.”
Co testuje
Ton emocjonalny, naturalność uprzejmości

Pełna lista 30 zdań w briefie technicznym (3–4 zdania per kategoria). Test musi być powtórzony w warunkach telefonii (G.711, jitter buffer 30 ms), nie tylko w studio.

04

Pomiar MOS, jak NIE robić cross-comparison

Pomiar dodatkowy: WER po-TTS. Transkrypcja TTS przez wzorcowy ASR (ten sam dla wszystkich kandydatów) i porównanie do tekstu wejściowego. Próg <2% w warunkach niekrytycznych. To pomiar obiektywny, niezależny od subiektywnych wrażeń panelu.

Pomiar trzeci: stabilność. 100 generacji tego samego zdania, czy głos się nie „rozjeżdża”. Modele autoregresywne mogą generować zauważalnie różne realizacje tego samego tekstu, modele neural codec są zwykle stabilniejsze.

Pomiar czwarty: naturalność dialogu (nie pojedyncze zdania). Voicebot, który brzmi dobrze w testach jednowierszowych, może męczyć w wielu turach, jeśli pauzy są nienaturalne lub akcent zdaniowy nie zmienia się z kontekstem.

05

Branżowe profile głosu

Profile głosu w produkcji, branża, charakterystyka, notka projektowa

Medycyna ogólna

Charakterystyka
spokojny, ciepły, średnie tempo
Przykładowy ton
„Dzień dobry, witam Panią”
Notka projektowa
Jasność wymowy nazwisk i leków, kontrolowana ekspresja

Stomatologia

Charakterystyka
przyjazny, energetyczny
Przykładowy ton
„Cześć, zapraszamy do nas”
Notka projektowa
Wyższe tempo, mniej formalny, dobry dla młodszych pacjentów

Finanse, ubezpieczenia

Charakterystyka
profesjonalny, neutralny
Przykładowy ton
„Dzień dobry, jak mogę pomóc?”
Notka projektowa
Wyraźne liczby, poprawna fleksja, niska ekspresja emocjonalna

Beauty, salony

Charakterystyka
ciepły, lekko emocjonalny
Przykładowy ton
„Witaj!”
Notka projektowa
Średnie tempo, brzmienie młodsze, większa swoboda w intonacji

Windykacja, finanse trudne

Charakterystyka
spokojny, formalny, rzeczowy
Przykładowy ton
„Dzień dobry, dzwonię w sprawie…”
Notka projektowa
Brak ekspresji, jasność daty i kwoty, neutralna intonacja

B2B, kancelaria

Charakterystyka
profesjonalny, lekko chłodny
Przykładowy ton
„Dzień dobry, dzwonię z…”
Notka projektowa
Wyraźne nazwy firm, NIP, terminy. Brak humoru.

Wybór głosu nie powinien być jednoosobową decyzją (np. CEO klienta). Test panelu z 5–10 rozmówcami z grupy docelowej znacząco poprawia trafność. Głos „lubi się” lub „nie lubi się” na poziomie podświadomym.

06

Obciążenia produkcyjne: stabilność, tryb awaryjny, koszt

Stabilność po 1 000–10 000 rozmów: czy głos się nie zmienia, czy nie pojawiają się efekty „dzwonienia”, glitchy, czy nie ma „flutter” intonacji. Najlepsze testy to zsynchronizowany sample co 100 rozmów, porównywany do referencji.

Tryb awaryjny: co się dzieje, gdy model TTS nie odpowiada w 500 ms. Powinien być zapasowy głos lokalny lub komunikat „chwilę proszę”. Brak takiego trybu oznacza pełną ciszę w słuchawce klienta, co jest sygnałem awarii i często prowadzi do rozłączenia.

Koszt produkcyjny: TTS premium polski w jakości produkcyjnej kosztuje 0,02–0,30 USD za 1 000 znaków. Dla rozmowy 2,3 min średnio 800 znaków po stronie bota, czyli 0,016–0,24 USD per rozmowa, czyli 0,07–0,99 PLN. Dla 4 000 rozmów miesięcznie to 280–3 960 PLN/mies za sam TTS.

Cache TTS jest istotny. Otwarcia rozmowy, komunikat zgodny z art. 50, większość częstych odpowiedzi można cache'ować na poziomie audio. To redukuje koszt o 40–70 procent w typowym scenariuszu rezerwacji.

07

Region przetwarzania, RODO i licencja głosu

Decyzja TTS zmienia region przetwarzania danych. Polski głos premium dostępny często tylko w regionach US/EU, nie w Polsce Centralnej. Dla branż z wymogiem rezydencji wyłącznie w Polsce trzeba użyć modeli starszych z regionalną dostępnością, modeli open weights na własnej infrastrukturze, albo dostawcy chmury z lokalnym data center w regionach UE.

Licencja głosu: większość komercyjnych głosów TTS jest licencjonowana per minuta użycia + ogólna umowa terms of service. Klonowanie głosu pacjenta lub pracownika wymaga osobnej zgody pisemnej (RODO + AI Act art. 50). Voiceprint pracownika użyty w voicebocie ujawniający firmę bez zgody może rodzić ryzyko sporu: głos jest traktowany jako dobro osobiste w ramach otwartego katalogu z art. 23 KC (przez analogię do ochrony wizerunku z art. 81 ustawy o prawie autorskim i prawach pokrewnych), a w razie identyfikowalności konkretnej osoby pojawia się też kwalifikacja jako dane osobowe (art. 4 ust. 1 RODO). Doktryna nie jest jednolita; każdą sprawę warto przejrzeć z prawnikiem przed produkcją.

Dla sektora publicznego w PL: rekomendacja to polski głos open source z lokalnym wdrożeniem albo polski głos w regionie UE z gwarancją EU residency. Komercyjne głosy TTS od dostawców zewnętrznych mogą wymagać dodatkowej DPIA i konsultacji z UODO.

EROD w opinii 28/2024 wskazuje, że model AI wytrenowany na danych osobowych może (case-by-case) sam zawierać dane osobowe; model dostrojony na nagraniach głosowych konkretnej osoby (klonowanie głosu) zwykle mieści się w tym ryzyku. Trening na takich danych bez podstawy prawnej narusza RODO. Voicebot komercyjny używający syntetycznego głosu bez klonowania pozostaje poza tym zakresem, ale to ocena indywidualna, nie reguła kategoryczna.

08

Czego nie kupować

  1. 01

    Głos wybrany z jednego marketingowego demo

    Bez 30-zdaniowego testu produkcyjnego. Demo przygotowywane jest w idealnych warunkach, produkcja nie.

  2. 02

    Głos bez gwarancji regionu UE

    Ryzyko dla branż wrażliwych (medycyna, finanse, sektor publiczny). Nawet awaryjne przekierowanie do USA tworzy problem.

  3. 03

    TTS z zamkniętą licencją bez prawa do produkcji komercyjnej

    Niektóre głosy są licencjonowane tylko do testów. Sprawdź terms of service przed setupem.

  4. 04

    Głos bez trybu awaryjnego w razie niedostępności

    Pełna cisza w słuchawce w razie awarii. Wymagaj zapasowego głosu lub komunikatu „chwilę proszę”.

  5. 05

    TTS rozliczany tylko per znak bez przelicznika

    Trudna prognoza kosztu miesięcznego. Wymagaj przelicznika znaków na minutę dla typowego scenariusza.

  6. 06

    Cross-comparison MOS z różnych źródeł

    Wartości MOS z różnych paneli i warunków nie są porównywalne. Wymagaj testu w jednym panelu.

  7. 07

    Rezygnacja z testu nazwisk i nazw lokalnych

    „Potem dodamy” oznacza, że w produkcji „doktor Pączkowski” brzmi jak „doktor Paczkowski”.

  8. 08

    Brak testu po telefonie

    Jakość studio różni się od jakości G.711 o 0,3–0,5 punkta MOS. Test musi być w docelowych warunkach.

  9. 09

    Klonowanie głosu pracownika bez umowy

    RODO + AI Act art. 50 + prawo cywilne. Bez pisemnej zgody to ryzyko prawne.

09

Metodyka i dziennik aktualizacji

Wartości MOS pochodzą z publicznych benchmarków (CodeSOTA Speech AI 2026, Artificial Analysis TTS, branżowe raporty porównawcze 2025) z zastrzeżeniem, że wartości z różnych paneli nie są wprost porównywalne. Budżet latencji wzięty z dokumentów ITU-T (P.85, G.711, G.722) i z literatury responsiveness benchmarks (MDPI 2025). Lista 30 zdań rozwijana w odbierze.ai od 2024 r. na podstawie obserwacji błędów produkcyjnych. Profile branżowe oparte na portfolio wdrożeń odbierze.ai (medycyna, beauty, finanse, B2B) bez ujawniania danych klientów.

Dziennik aktualizacji

  1. 2026-04-23Pierwsza wersja raportu
  2. 2026-05-06Pełna restrukturyzacja: tabela budżetu TTFB, lista 30 zdań w 9 kategoriach, profile branżowe, sekcja licencji i regionu, antywzorce

11

FAQ

01pyt · raport

Czy najdroższy TTS jest zawsze najlepszy?

odp.

Nie. W produkcji liczy się jakość w konkretnej branży, latencja, region przetwarzania, stabilność i koszt przy danym wolumenie. Najdroższy TTS w warunkach studio może mieć 4,8 MOS, w warunkach G.711 spada do 4,2–4,4. Średni TTS w tych samych warunkach może mieć 4,3–4,5, czyli porównywalnie.

02pyt · raport

Czy klonowanie głosu pracownika kliniki jest OK?

odp.

Wymaga pisemnej zgody pracownika + DPIA + zwykle aneksu do umowy o pracę. Voicebot mówiący głosem konkretnej osoby z zespołu kliniki dla pacjentów to zaawansowany scenariusz, w odbierze.ai stosujemy go rzadko i tylko z pełną dokumentacją.

03pyt · raport

Czy mogę użyć tego samego głosu dla 5 różnych klientów?

odp.

Zależy od licencji TTS. Niektóre są per-deploy, inne per-organization. W odbierze.ai dla pakietów white-label używamy głosów z licencją multi-tenant; standardowe wdrożenia mają osobny głos per klient, by uniknąć efektu „Wszystkie kliniki brzmią tak samo”.

04pyt · raport

Co z głosami open source dla sektora publicznego?

odp.

Możliwe, jeśli akceptujesz niższy MOS (4,0–4,3) w zamian za pełną kontrolę nad regionem przetwarzania (lokalne wdrożenie). Polskojęzyczne modele open weights w klasie produkcyjnej dostępne są z różną jakością i licencją; wymagają własnej infrastruktury i utrzymania. Dla sektora publicznego z wymogiem rezydencji wyłącznie w Polsce to często jedyna ścieżka, akceptowalna kosztowo dla wolumenów powyżej 30–50 tys. min/mies.

05pyt · raport

Jak długo testować głos przed produkcją?

odp.

Standardem w odbierze.ai jest 2-godzinny test produkcyjny: 30 zdań × 5–10 rozmówców × 2 warianty głosu, plus 100-rozmowowy test stabilności + WER po-TTS. Razem ~1–2 dni pracy. Skraca to znacząco ryzyko, że pacjent po starcie usłyszy „doktor Paczkowski”.

06pyt · raport

Czy mogę zmienić głos w trakcie umowy?

odp.

Tak, ale każda zmiana wymaga przejścia przez tę samą procedurę testową i akceptację scenariusza po stronie klienta. Zmiana głosu zmienia komunikat zgodny z art. 50 (technicznie, choć treść jest ta sama) i wymaga aktualizacji logu wersji. W praktyce klienci robią taki ruch po 6–12 mies. albo po dużej zmianie marki.

07pyt · raport

Co jeśli pacjent prosi „tym razem proszę o człowieka”?

odp.

Natychmiastowa eskalacja, niezależnie od scenariusza. Voicebot ma dziennikować takie żądanie (data, godzina, kontekst) i przekazać sprawę z notatką dla zespołu. Komunikat: „Już przekazuję sprawę do zespołu, proszę o chwilę cierpliwości”. Brak takiego mechanizmu to ryzyko dla art. 50 i dla relacji z pacjentem.