# Polski TTS, test produkcyjny 2026

> MOS 4,5+, TTFB 250–400 ms: jak przetestować polski TTS dla voicebota. 30 zdań w 9 kategoriach, profile branżowe, dane w UE, licencja głosu.

*Czas czytania: 10 minut · Opublikowano: 2026-04-23 · Ostatnia aktualizacja: 2026-05-06 · Kategoria: technologia*

Najlepszy TTS na demo nie zawsze jest najlepszy w produkcji. Polski głos w telefonii musi wymawiać nazwiska, skróty, godziny, liczby, ceny i nazwy lokalne bez efektu sztuczności, w budżecie 250–400 ms TTFB, przy kompresji G.711. Ten raport zawiera listę 30 zdań w 9 kategoriach, ramy pomiaru MOS, branżowe profile głosu i listę pułapek licencyjno-rezydencyjnych.

## TL;DR

- Polski TTS w 2025–2026 r. jest na poziomie MOS 4,5–4,8 dla najlepszych modeli komercyjnych (top kategoria 4,7+ w warunkach studyjnych). Demo różni się od produkcji o 0,3–0,5 punkta MOS w zależności od latencji, próbek i kontekstu.
- Telefonia narzuca 8 lub 16 kHz sample rate. Top modele 2025–2026 schodzą do TTFB TTS 80–200 ms; pełna pętla voice-to-voice mieści się typowo w 600–1 200 ms. Najlepszy głos studio może być nieakceptowalny po downsampleu i kompresji G.711 SIP.
- Polski język ujawnia problemy na: nazwiskach z polskimi znakami, odmianie liczebników, godzinach, skrótach (mgr, dr, hab.), nazwach lokalnych, fleksji. Test bez tych kategorii jest pozorny.

## Kluczowe liczby

| Pozycja | Wartość | Nota |
| --- | --- | --- |
| MOS produkcyjny | 4,5+ | Skala 1–5. Top modele komercyjne 4,5–4,8 w warunkach studyjnych. Telefonia: −0,3 do −0,5. |
| Budżet TTFB TTS | 80–400 ms | Od promptu do TTS do pierwszego dźwięku audio. Top modele 2025–2026 schodzą do 80–200 ms. Pełna pętla voice-to-voice 600–1 200 ms; powyżej 700 ms rozmowa traci naturalność (zgodnie z branżowymi benchmarkami voice agentów 2025). |
| Sample rate telefonia | 8 / 16 kHz | G.711 µ-law 8 kHz, G.722 16 kHz. Studio 24–48 kHz tracone w kompresji. |
| Lista testów | 30 zdań / 9 kategorii | Nazwiska, liczby, godziny, skróty, fleksja, nazwy lokalne, pauzy, dialogi, paralingual. |
| WER po-TTS | < 2% | Word Error Rate na transkrypcji TTS przez ASR. Mierzy zrozumiałość, niezależnie od MOS. |

## Dlaczego polski głos to inna kategoria testu

Polszczyzna jest językiem fleksyjnym z silną odmianą rzeczowników, czasowników, liczebników i zaimków. „Drugi” wymawia się inaczej w „drugi pokój” (ten) i „drugi raz” (kolejność). Modele TTS trenowane głównie na angielskim radzą sobie tu nierówno, nawet jeśli ich angielska wersja jest top-tier.

Polskie znaki diakrytyczne (ą, ę, ć, ł, ń, ó, ś, ź, ż) bywają błędnie redukowane do podstawowej litery, szczególnie w nazwiskach. „Pączkowski” nie powinno brzmieć jak „Paczkowski”. „Świętokrzyski” nie powinno brzmieć jak „Swietokrzyski”.

Skróty zawodowe (dr, mgr, hab., prof.) wymagają rozwinięcia kontekstowego. Liczby godzin (8:30) najczęściej rozwijać do „ósma trzydzieści”, nie „osiem trzydzieści”. Numery telefonów grupują się dwucyframi (22 123 45 67), nie pełnymi liczbami.

## Latencja w telefonii: budżet TTFB

**Budżet latencji od końca wypowiedzi rozmówcy do pierwszego dźwięku odpowiedzi**

| Etap | Budżet | Notka |
| --- | --- | --- |
| Wykrycie końca wypowiedzi (VAD) | 80–150 ms | Zależy od modelu VAD, progu silence i charakteru rozmowy. |
| Przetworzenie modelu LLM (1–3 zdania) | 300–800 ms | Streaming pomaga, ale TTFB nie spada poniżej ~200 ms nawet w streamingu. |
| Pierwsze tokeny TTS (TTFB voice) | 80–200 ms | Najlepsze modele streamują od pierwszej fonemy, gorsze syntetyzują pełne zdanie. |
| Kodek + kompresja SIP | 30–80 ms | G.711 µ-law lub a-law, jitter buffer 20–40 ms. |
| Sieć (RTT operatora) | 20–100 ms | Polski operator: zwykle <50 ms. Międzynarodowe: 80–150 ms. |
| Suma TTFB voice | 510–1 330 ms | Realny zakres produkcji. Próg „naturalności” to ~700 ms, powyżej 1 200 ms rozmowa czuje się jak chat. |

*Każdy etap można optymalizować osobno. Najwięcej do zyskania jest w streamingu LLM (jeśli platforma wspiera) i w wyborze TTS z niskim TTFB voice (modele autoregresywne tu zwykle wygrywają z neural codec).*

## Lista 30 zdań testowych w 9 kategoriach

**Przykłady zdań testowych dla polskiego TTS produkcyjnego**

| Kategoria | Przykładowe zdanie | Co testuje |
| --- | --- | --- |
| Nazwiska polskie | „Czy mogę zapytać o doktora Pączkowskiego, prof. Wójcika lub mgr Mościckiej?” | Polskie znaki, akcent, skróty zawodowe |
| Liczebniki w odmianie | „Mamy trzydziestu pięciu pacjentów w kolejce, na drugim piętrze.” | Forma męskoosobowa, dopełniacz, miejscownik |
| Godziny | „Wizyta o ósmej trzydzieści w piątek, przeniesiona z czwartku siedemnastego.” | Konwersja 8:30, dat, dni tygodnia |
| Numery telefonów | „Telefon kontaktowy: dwadzieścia dwa, sto dwadzieścia trzy, czterdzieści pięć, sześćdziesiąt siedem.” | Grupowanie cyfr, prefiks regionalny |
| Adresy | „ulica Marszałkowska sto czterdzieści dwa A, mieszkanie pięć, Warszawa.” | Skrót „m.”, mieszanka cyfra-litera |
| Skróty zawodowe | „Mgr Anna Kowalska-Nowak, lek. dent., spec. ortodonta.” | Rozwinięcie kontekstowe, akcenty na polskich słowach |
| Nazwy lokalne | „Jak dojechać do Świętej Trójcy w Bytomiu, koło placu Krakowskiego?” | Toponimy, deklinacja, nazwy historyczne |
| Dialogi z pauzami | „Hmm… rozumiem. Zaraz to sprawdzę. Proszę o chwilę cierpliwości.” | Naturalność pauz, znaczniki paralingual |
| Paralingualne | „Przepraszam, czy mogłaby Pani powtórzyć? Trochę gorzej słyszałem.” | Ton emocjonalny, naturalność uprzejmości |

*Pełna lista 30 zdań w briefie technicznym (3–4 zdania per kategoria). Test musi być powtórzony w warunkach telefonii (G.711, jitter buffer 30 ms), nie tylko w studio.*

## Pomiar MOS, jak NIE robić cross-comparison

> **Uwaga, Zasada ITU P.85: nie porównywać MOS z różnych źródeł.**
> MOS to skala subiektywna z silną zmiennością między panelami. Wartość 4,5 z jednego panelu nie może być porównywana 1:1 z 4,5 z innego (różne osoby, sprzęt, próbki, kontekst). Ogólna zasada metodologii MOS (rodzina ITU-T P.800/P.85): wyniki z różnych paneli nie są wprost porównywalne, każde porównanie wymaga jednego, kontrolowanego panelu.
> Realny test produkcyjny: ten sam panel rozmówców (5–10 osób), ten sam zestaw 30 zdań, te same warunki techniczne (kodek G.711, jitter <30 ms), karta oceny 1–5 dla naturalności i 1–5 dla zrozumiałości.
> 
> *Źródło: ITU-T Rec. P.85, MOS evaluation methodology*

Pomiar dodatkowy: WER po-TTS. Transkrypcja TTS przez wzorcowy ASR (ten sam dla wszystkich kandydatów) i porównanie do tekstu wejściowego. Próg <2% w warunkach niekrytycznych. To pomiar obiektywny, niezależny od subiektywnych wrażeń panelu.

Pomiar trzeci: stabilność. 100 generacji tego samego zdania, czy głos się nie „rozjeżdża”. Modele autoregresywne mogą generować zauważalnie różne realizacje tego samego tekstu, modele neural codec są zwykle stabilniejsze.

Pomiar czwarty: naturalność dialogu (nie pojedyncze zdania). Voicebot, który brzmi dobrze w testach jednowierszowych, może męczyć w wielu turach, jeśli pauzy są nienaturalne lub akcent zdaniowy nie zmienia się z kontekstem.

## Branżowe profile głosu

**Profile głosu w produkcji, branża, charakterystyka, notka projektowa**

| Branża | Charakterystyka | Przykładowy ton | Notka projektowa |
| --- | --- | --- | --- |
| Medycyna ogólna | spokojny, ciepły, średnie tempo | „Dzień dobry, witam Panią” | Jasność wymowy nazwisk i leków, kontrolowana ekspresja |
| Stomatologia | przyjazny, energetyczny | „Cześć, zapraszamy do nas” | Wyższe tempo, mniej formalny, dobry dla młodszych pacjentów |
| Finanse, ubezpieczenia | profesjonalny, neutralny | „Dzień dobry, jak mogę pomóc?” | Wyraźne liczby, poprawna fleksja, niska ekspresja emocjonalna |
| Beauty, salony | ciepły, lekko emocjonalny | „Witaj!” | Średnie tempo, brzmienie młodsze, większa swoboda w intonacji |
| Windykacja, finanse trudne | spokojny, formalny, rzeczowy | „Dzień dobry, dzwonię w sprawie…” | Brak ekspresji, jasność daty i kwoty, neutralna intonacja |
| B2B, kancelaria | profesjonalny, lekko chłodny | „Dzień dobry, dzwonię z…” | Wyraźne nazwy firm, NIP, terminy. Brak humoru. |

*Wybór głosu nie powinien być jednoosobową decyzją (np. CEO klienta). Test panelu z 5–10 rozmówcami z grupy docelowej znacząco poprawia trafność. Głos „lubi się” lub „nie lubi się” na poziomie podświadomym.*

## Obciążenia produkcyjne: stabilność, tryb awaryjny, koszt

Stabilność po 1 000–10 000 rozmów: czy głos się nie zmienia, czy nie pojawiają się efekty „dzwonienia”, glitchy, czy nie ma „flutter” intonacji. Najlepsze testy to zsynchronizowany sample co 100 rozmów, porównywany do referencji.

Tryb awaryjny: co się dzieje, gdy model TTS nie odpowiada w 500 ms. Powinien być zapasowy głos lokalny lub komunikat „chwilę proszę”. Brak takiego trybu oznacza pełną ciszę w słuchawce klienta, co jest sygnałem awarii i często prowadzi do rozłączenia.

Koszt produkcyjny: TTS premium polski w jakości produkcyjnej kosztuje 0,02–0,30 USD za 1 000 znaków. Dla rozmowy 2,3 min średnio 800 znaków po stronie bota, czyli 0,016–0,24 USD per rozmowa, czyli 0,07–0,99 PLN. Dla 4 000 rozmów miesięcznie to 280–3 960 PLN/mies za sam TTS.

Cache TTS jest istotny. Otwarcia rozmowy, komunikat zgodny z art. 50, większość częstych odpowiedzi można cache'ować na poziomie audio. To redukuje koszt o 40–70 procent w typowym scenariuszu rezerwacji.

## Region przetwarzania, RODO i licencja głosu

Decyzja TTS zmienia region przetwarzania danych. Polski głos premium dostępny często tylko w regionach US/EU, nie w Polsce Centralnej. Dla branż z wymogiem rezydencji wyłącznie w Polsce trzeba użyć modeli starszych z regionalną dostępnością, modeli open weights na własnej infrastrukturze, albo dostawcy chmury z lokalnym data center w regionach UE.

Licencja głosu: większość komercyjnych głosów TTS jest licencjonowana per minuta użycia + ogólna umowa terms of service. Klonowanie głosu pacjenta lub pracownika wymaga osobnej zgody pisemnej (RODO + AI Act art. 50). Voiceprint pracownika użyty w voicebocie ujawniający firmę bez zgody może rodzić ryzyko sporu: głos jest traktowany jako dobro osobiste w ramach otwartego katalogu z art. 23 KC (przez analogię do ochrony wizerunku z art. 81 ustawy o prawie autorskim i prawach pokrewnych), a w razie identyfikowalności konkretnej osoby pojawia się też kwalifikacja jako dane osobowe (art. 4 ust. 1 RODO). Doktryna nie jest jednolita; każdą sprawę warto przejrzeć z prawnikiem przed produkcją.

Dla sektora publicznego w PL: rekomendacja to polski głos open source z lokalnym wdrożeniem albo polski głos w regionie UE z gwarancją EU residency. Komercyjne głosy TTS od dostawców zewnętrznych mogą wymagać dodatkowej DPIA i konsultacji z UODO.

EROD w opinii 28/2024 wskazuje, że model AI wytrenowany na danych osobowych może (case-by-case) sam zawierać dane osobowe; model dostrojony na nagraniach głosowych konkretnej osoby (klonowanie głosu) zwykle mieści się w tym ryzyku. Trening na takich danych bez podstawy prawnej narusza RODO. Voicebot komercyjny używający syntetycznego głosu bez klonowania pozostaje poza tym zakresem, ale to ocena indywidualna, nie reguła kategoryczna.

## Czego nie kupować

- [avoid] Głos wybrany z jednego marketingowego demo. Bez 30-zdaniowego testu produkcyjnego. Demo przygotowywane jest w idealnych warunkach, produkcja nie.
- [avoid] Głos bez gwarancji regionu UE. Ryzyko dla branż wrażliwych (medycyna, finanse, sektor publiczny). Nawet awaryjne przekierowanie do USA tworzy problem.
- [avoid] TTS z zamkniętą licencją bez prawa do produkcji komercyjnej. Niektóre głosy są licencjonowane tylko do testów. Sprawdź terms of service przed setupem.
- [avoid] Głos bez trybu awaryjnego w razie niedostępności. Pełna cisza w słuchawce w razie awarii. Wymagaj zapasowego głosu lub komunikatu „chwilę proszę”.
- [avoid] TTS rozliczany tylko per znak bez przelicznika. Trudna prognoza kosztu miesięcznego. Wymagaj przelicznika znaków na minutę dla typowego scenariusza.
- [avoid] Cross-comparison MOS z różnych źródeł. Wartości MOS z różnych paneli i warunków nie są porównywalne. Wymagaj testu w jednym panelu.
- [avoid] Rezygnacja z testu nazwisk i nazw lokalnych. „Potem dodamy” oznacza, że w produkcji „doktor Pączkowski” brzmi jak „doktor Paczkowski”.
- [avoid] Brak testu po telefonie. Jakość studio różni się od jakości G.711 o 0,3–0,5 punkta MOS. Test musi być w docelowych warunkach.
- [avoid] Klonowanie głosu pracownika bez umowy. RODO + AI Act art. 50 + prawo cywilne. Bez pisemnej zgody to ryzyko prawne.

## Metodyka

Wartości MOS pochodzą z publicznych benchmarków (CodeSOTA Speech AI 2026, Artificial Analysis TTS, branżowe raporty porównawcze 2025) z zastrzeżeniem, że wartości z różnych paneli nie są wprost porównywalne. Budżet latencji wzięty z dokumentów ITU-T (P.85, G.711, G.722) i z literatury responsiveness benchmarks (MDPI 2025). Lista 30 zdań rozwijana w odbierze.ai od 2024 r. na podstawie obserwacji błędów produkcyjnych. Profile branżowe oparte na portfolio wdrożeń odbierze.ai (medycyna, beauty, finanse, B2B) bez ujawniania danych klientów.

## Historia zmian

- **2026-04-23**: Pierwsza wersja raportu
- **2026-05-06**: Pełna restrukturyzacja: tabela budżetu TTFB, lista 30 zdań w 9 kategoriach, profile branżowe, sekcja licencji i regionu, antywzorce

## FAQ

### Czy najdroższy TTS jest zawsze najlepszy?

Nie. W produkcji liczy się jakość w konkretnej branży, latencja, region przetwarzania, stabilność i koszt przy danym wolumenie. Najdroższy TTS w warunkach studio może mieć 4,8 MOS, w warunkach G.711 spada do 4,2–4,4. Średni TTS w tych samych warunkach może mieć 4,3–4,5, czyli porównywalnie.

### Czy klonowanie głosu pracownika kliniki jest OK?

Wymaga pisemnej zgody pracownika + DPIA + zwykle aneksu do umowy o pracę. Voicebot mówiący głosem konkretnej osoby z zespołu kliniki dla pacjentów to zaawansowany scenariusz, w odbierze.ai stosujemy go rzadko i tylko z pełną dokumentacją.

### Czy mogę użyć tego samego głosu dla 5 różnych klientów?

Zależy od licencji TTS. Niektóre są per-deploy, inne per-organization. W odbierze.ai dla pakietów white-label używamy głosów z licencją multi-tenant; standardowe wdrożenia mają osobny głos per klient, by uniknąć efektu „Wszystkie kliniki brzmią tak samo”.

### Co z głosami open source dla sektora publicznego?

Możliwe, jeśli akceptujesz niższy MOS (4,0–4,3) w zamian za pełną kontrolę nad regionem przetwarzania (lokalne wdrożenie). Polskojęzyczne modele open weights w klasie produkcyjnej dostępne są z różną jakością i licencją; wymagają własnej infrastruktury i utrzymania. Dla sektora publicznego z wymogiem rezydencji wyłącznie w Polsce to często jedyna ścieżka, akceptowalna kosztowo dla wolumenów powyżej 30–50 tys. min/mies.

### Jak długo testować głos przed produkcją?

Standardem w odbierze.ai jest 2-godzinny test produkcyjny: 30 zdań × 5–10 rozmówców × 2 warianty głosu, plus 100-rozmowowy test stabilności + WER po-TTS. Razem ~1–2 dni pracy. Skraca to znacząco ryzyko, że pacjent po starcie usłyszy „doktor Paczkowski”.

### Czy mogę zmienić głos w trakcie umowy?

Tak, ale każda zmiana wymaga przejścia przez tę samą procedurę testową i akceptację scenariusza po stronie klienta. Zmiana głosu zmienia komunikat zgodny z art. 50 (technicznie, choć treść jest ta sama) i wymaga aktualizacji logu wersji. W praktyce klienci robią taki ruch po 6–12 mies. albo po dużej zmianie marki.

### Co jeśli pacjent prosi „tym razem proszę o człowieka”?

Natychmiastowa eskalacja, niezależnie od scenariusza. Voicebot ma dziennikować takie żądanie (data, godzina, kontekst) i przekazać sprawę z notatką dla zespołu. Komunikat: „Już przekazuję sprawę do zespołu, proszę o chwilę cierpliwości”. Brak takiego mechanizmu to ryzyko dla art. 50 i dla relacji z pacjentem.

## Źródła

- [CodeSOTA, Speech AI Benchmarks 2026](https://www.codesota.com/speech)
- [ITU-T Rec. P.85, MOS evaluation methodology](https://www.itu.int/rec/T-REC-P.85)
- [VoiceMOS Challenge 2023, evaluation tutorial INTERSPEECH 2025](https://voicemos-challenge-2023.github.io/speech-synthesis-evaluation/IS2025_tutorial.pdf)
- [Artificial Analysis, TTS evaluation framework](https://artificialanalysis.ai/text-to-speech)
- [EROD, opinia 28/2024 ws. modeli AI (klonowanie głosu)](https://www.edpb.europa.eu/our-work-tools/our-documents/opinion-board-art-64/opinion-282024-certain-data-protection-aspects_en)
- [EUR-Lex, AI Act 2024/1689 (art. 4, art. 50)](https://eur-lex.europa.eu/eli/reg/2024/1689/oj)
- [Ustawa o prawie autorskim i prawach pokrewnych (art. 81, ochrona wizerunku)](https://lexlege.pl/ustawa-o-prawie-autorskim-i-prawach-pokrewnych/art-81/)
- [Kodeks cywilny art. 23 (dobra osobiste)](https://arslege.pl/dobra-osobiste/k9/a1002/)
- [UODO, stanowisko ws. głosu jako biometrii (2024)](https://uodo.gov.pl/pl/138/3691)
- [ITU-T G.711, telephony codec](https://www.itu.int/rec/T-REC-G.711)
- [MDPI, Benchmarking Responsiveness of Open-Source TTS (2025)](https://www.mdpi.com/2073-431X/14/10/406)
- [Wikipedia, Voice activity detection (overview techniczny)](https://en.wikipedia.org/wiki/Voice_activity_detection)
- [IJERT, Performance Evaluation for Voice over LTE using G.711 (E2E delay 120 ms)](https://www.ijert.org/performance-evaluation-for-voice-over-lte-by-using-g.711-as-a-codec)

Strona oryginalna: https://odbierze.ai/raporty/polski-tts-test-produkcyjny-2026.
