Trzy zdania, jeśli nie masz czasu
- 01Polski TTS w 2025–2026 r. jest na poziomie MOS 4,5–4,8 dla najlepszych modeli komercyjnych (top kategoria 4,7+ w warunkach studyjnych). Demo różni się od produkcji o 0,3–0,5 punkta MOS w zależności od latencji, próbek i kontekstu.
- 02Telefonia narzuca 8 lub 16 kHz sample rate. Top modele 2025–2026 schodzą do TTFB TTS 80–200 ms; pełna pętla voice-to-voice mieści się typowo w 600–1 200 ms. Najlepszy głos studio może być nieakceptowalny po downsampleu i kompresji G.711 SIP.
- 03Polski język ujawnia problemy na: nazwiskach z polskimi znakami, odmianie liczebników, godzinach, skrótach (mgr, dr, hab.), nazwach lokalnych, fleksji. Test bez tych kategorii jest pozorny.
01
Dlaczego polski głos to inna kategoria testu
Polszczyzna jest językiem fleksyjnym z silną odmianą rzeczowników, czasowników, liczebników i zaimków. „Drugi” wymawia się inaczej w „drugi pokój” (ten) i „drugi raz” (kolejność). Modele TTS trenowane głównie na angielskim radzą sobie tu nierówno, nawet jeśli ich angielska wersja jest top-tier.
Polskie znaki diakrytyczne (ą, ę, ć, ł, ń, ó, ś, ź, ż) bywają błędnie redukowane do podstawowej litery, szczególnie w nazwiskach. „Pączkowski” nie powinno brzmieć jak „Paczkowski”. „Świętokrzyski” nie powinno brzmieć jak „Swietokrzyski”.
Skróty zawodowe (dr, mgr, hab., prof.) wymagają rozwinięcia kontekstowego. Liczby godzin (8:30) najczęściej rozwijać do „ósma trzydzieści”, nie „osiem trzydzieści”. Numery telefonów grupują się dwucyframi (22 123 45 67), nie pełnymi liczbami.
02
Latencja w telefonii: budżet TTFB
| Etap | Budżet | Notka |
|---|---|---|
| Wykrycie końca wypowiedzi (VAD) | 80–150 ms | Zależy od modelu VAD, progu silence i charakteru rozmowy. |
| Przetworzenie modelu LLM (1–3 zdania) | 300–800 ms | Streaming pomaga, ale TTFB nie spada poniżej ~200 ms nawet w streamingu. |
| Pierwsze tokeny TTS (TTFB voice) | 80–200 ms | Najlepsze modele streamują od pierwszej fonemy, gorsze syntetyzują pełne zdanie. |
| Kodek + kompresja SIP | 30–80 ms | G.711 µ-law lub a-law, jitter buffer 20–40 ms. |
| Sieć (RTT operatora) | 20–100 ms | Polski operator: zwykle <50 ms. Międzynarodowe: 80–150 ms. |
| Suma TTFB voice | 510–1 330 ms | Realny zakres produkcji. Próg „naturalności” to ~700 ms, powyżej 1 200 ms rozmowa czuje się jak chat. |
Wykrycie końca wypowiedzi (VAD)
- Budżet
- 80–150 ms
- Notka
- Zależy od modelu VAD, progu silence i charakteru rozmowy.
Przetworzenie modelu LLM (1–3 zdania)
- Budżet
- 300–800 ms
- Notka
- Streaming pomaga, ale TTFB nie spada poniżej ~200 ms nawet w streamingu.
Pierwsze tokeny TTS (TTFB voice)
- Budżet
- 80–200 ms
- Notka
- Najlepsze modele streamują od pierwszej fonemy, gorsze syntetyzują pełne zdanie.
Kodek + kompresja SIP
- Budżet
- 30–80 ms
- Notka
- G.711 µ-law lub a-law, jitter buffer 20–40 ms.
Sieć (RTT operatora)
- Budżet
- 20–100 ms
- Notka
- Polski operator: zwykle <50 ms. Międzynarodowe: 80–150 ms.
Suma TTFB voice
- Budżet
- 510–1 330 ms
- Notka
- Realny zakres produkcji. Próg „naturalności” to ~700 ms, powyżej 1 200 ms rozmowa czuje się jak chat.
Każdy etap można optymalizować osobno. Najwięcej do zyskania jest w streamingu LLM (jeśli platforma wspiera) i w wyborze TTS z niskim TTFB voice (modele autoregresywne tu zwykle wygrywają z neural codec).
03
Lista 30 zdań testowych w 9 kategoriach
| Kategoria | Przykładowe zdanie | Co testuje |
|---|---|---|
| Nazwiska polskie | „Czy mogę zapytać o doktora Pączkowskiego, prof. Wójcika lub mgr Mościckiej?” | Polskie znaki, akcent, skróty zawodowe |
| Liczebniki w odmianie | „Mamy trzydziestu pięciu pacjentów w kolejce, na drugim piętrze.” | Forma męskoosobowa, dopełniacz, miejscownik |
| Godziny | „Wizyta o ósmej trzydzieści w piątek, przeniesiona z czwartku siedemnastego.” | Konwersja 8:30, dat, dni tygodnia |
| Numery telefonów | „Telefon kontaktowy: dwadzieścia dwa, sto dwadzieścia trzy, czterdzieści pięć, sześćdziesiąt siedem.” | Grupowanie cyfr, prefiks regionalny |
| Adresy | „ulica Marszałkowska sto czterdzieści dwa A, mieszkanie pięć, Warszawa.” | Skrót „m.”, mieszanka cyfra-litera |
| Skróty zawodowe | „Mgr Anna Kowalska-Nowak, lek. dent., spec. ortodonta.” | Rozwinięcie kontekstowe, akcenty na polskich słowach |
| Nazwy lokalne | „Jak dojechać do Świętej Trójcy w Bytomiu, koło placu Krakowskiego?” | Toponimy, deklinacja, nazwy historyczne |
| Dialogi z pauzami | „Hmm… rozumiem. Zaraz to sprawdzę. Proszę o chwilę cierpliwości.” | Naturalność pauz, znaczniki paralingual |
| Paralingualne | „Przepraszam, czy mogłaby Pani powtórzyć? Trochę gorzej słyszałem.” | Ton emocjonalny, naturalność uprzejmości |
Nazwiska polskie
- Przykładowe zdanie
- „Czy mogę zapytać o doktora Pączkowskiego, prof. Wójcika lub mgr Mościckiej?”
- Co testuje
- Polskie znaki, akcent, skróty zawodowe
Liczebniki w odmianie
- Przykładowe zdanie
- „Mamy trzydziestu pięciu pacjentów w kolejce, na drugim piętrze.”
- Co testuje
- Forma męskoosobowa, dopełniacz, miejscownik
Godziny
- Przykładowe zdanie
- „Wizyta o ósmej trzydzieści w piątek, przeniesiona z czwartku siedemnastego.”
- Co testuje
- Konwersja 8:30, dat, dni tygodnia
Numery telefonów
- Przykładowe zdanie
- „Telefon kontaktowy: dwadzieścia dwa, sto dwadzieścia trzy, czterdzieści pięć, sześćdziesiąt siedem.”
- Co testuje
- Grupowanie cyfr, prefiks regionalny
Adresy
- Przykładowe zdanie
- „ulica Marszałkowska sto czterdzieści dwa A, mieszkanie pięć, Warszawa.”
- Co testuje
- Skrót „m.”, mieszanka cyfra-litera
Skróty zawodowe
- Przykładowe zdanie
- „Mgr Anna Kowalska-Nowak, lek. dent., spec. ortodonta.”
- Co testuje
- Rozwinięcie kontekstowe, akcenty na polskich słowach
Nazwy lokalne
- Przykładowe zdanie
- „Jak dojechać do Świętej Trójcy w Bytomiu, koło placu Krakowskiego?”
- Co testuje
- Toponimy, deklinacja, nazwy historyczne
Dialogi z pauzami
- Przykładowe zdanie
- „Hmm… rozumiem. Zaraz to sprawdzę. Proszę o chwilę cierpliwości.”
- Co testuje
- Naturalność pauz, znaczniki paralingual
Paralingualne
- Przykładowe zdanie
- „Przepraszam, czy mogłaby Pani powtórzyć? Trochę gorzej słyszałem.”
- Co testuje
- Ton emocjonalny, naturalność uprzejmości
Pełna lista 30 zdań w briefie technicznym (3–4 zdania per kategoria). Test musi być powtórzony w warunkach telefonii (G.711, jitter buffer 30 ms), nie tylko w studio.
04
Pomiar MOS, jak NIE robić cross-comparison
Pomiar dodatkowy: WER po-TTS. Transkrypcja TTS przez wzorcowy ASR (ten sam dla wszystkich kandydatów) i porównanie do tekstu wejściowego. Próg <2% w warunkach niekrytycznych. To pomiar obiektywny, niezależny od subiektywnych wrażeń panelu.
Pomiar trzeci: stabilność. 100 generacji tego samego zdania, czy głos się nie „rozjeżdża”. Modele autoregresywne mogą generować zauważalnie różne realizacje tego samego tekstu, modele neural codec są zwykle stabilniejsze.
Pomiar czwarty: naturalność dialogu (nie pojedyncze zdania). Voicebot, który brzmi dobrze w testach jednowierszowych, może męczyć w wielu turach, jeśli pauzy są nienaturalne lub akcent zdaniowy nie zmienia się z kontekstem.
05
Branżowe profile głosu
| Branża | Charakterystyka | Przykładowy ton | Notka projektowa |
|---|---|---|---|
| Medycyna ogólna | spokojny, ciepły, średnie tempo | „Dzień dobry, witam Panią” | Jasność wymowy nazwisk i leków, kontrolowana ekspresja |
| Stomatologia | przyjazny, energetyczny | „Cześć, zapraszamy do nas” | Wyższe tempo, mniej formalny, dobry dla młodszych pacjentów |
| Finanse, ubezpieczenia | profesjonalny, neutralny | „Dzień dobry, jak mogę pomóc?” | Wyraźne liczby, poprawna fleksja, niska ekspresja emocjonalna |
| Beauty, salony | ciepły, lekko emocjonalny | „Witaj!” | Średnie tempo, brzmienie młodsze, większa swoboda w intonacji |
| Windykacja, finanse trudne | spokojny, formalny, rzeczowy | „Dzień dobry, dzwonię w sprawie…” | Brak ekspresji, jasność daty i kwoty, neutralna intonacja |
| B2B, kancelaria | profesjonalny, lekko chłodny | „Dzień dobry, dzwonię z…” | Wyraźne nazwy firm, NIP, terminy. Brak humoru. |
Medycyna ogólna
- Charakterystyka
- spokojny, ciepły, średnie tempo
- Przykładowy ton
- „Dzień dobry, witam Panią”
- Notka projektowa
- Jasność wymowy nazwisk i leków, kontrolowana ekspresja
Stomatologia
- Charakterystyka
- przyjazny, energetyczny
- Przykładowy ton
- „Cześć, zapraszamy do nas”
- Notka projektowa
- Wyższe tempo, mniej formalny, dobry dla młodszych pacjentów
Finanse, ubezpieczenia
- Charakterystyka
- profesjonalny, neutralny
- Przykładowy ton
- „Dzień dobry, jak mogę pomóc?”
- Notka projektowa
- Wyraźne liczby, poprawna fleksja, niska ekspresja emocjonalna
Beauty, salony
- Charakterystyka
- ciepły, lekko emocjonalny
- Przykładowy ton
- „Witaj!”
- Notka projektowa
- Średnie tempo, brzmienie młodsze, większa swoboda w intonacji
Windykacja, finanse trudne
- Charakterystyka
- spokojny, formalny, rzeczowy
- Przykładowy ton
- „Dzień dobry, dzwonię w sprawie…”
- Notka projektowa
- Brak ekspresji, jasność daty i kwoty, neutralna intonacja
B2B, kancelaria
- Charakterystyka
- profesjonalny, lekko chłodny
- Przykładowy ton
- „Dzień dobry, dzwonię z…”
- Notka projektowa
- Wyraźne nazwy firm, NIP, terminy. Brak humoru.
Wybór głosu nie powinien być jednoosobową decyzją (np. CEO klienta). Test panelu z 5–10 rozmówcami z grupy docelowej znacząco poprawia trafność. Głos „lubi się” lub „nie lubi się” na poziomie podświadomym.
06
Obciążenia produkcyjne: stabilność, tryb awaryjny, koszt
Stabilność po 1 000–10 000 rozmów: czy głos się nie zmienia, czy nie pojawiają się efekty „dzwonienia”, glitchy, czy nie ma „flutter” intonacji. Najlepsze testy to zsynchronizowany sample co 100 rozmów, porównywany do referencji.
Tryb awaryjny: co się dzieje, gdy model TTS nie odpowiada w 500 ms. Powinien być zapasowy głos lokalny lub komunikat „chwilę proszę”. Brak takiego trybu oznacza pełną ciszę w słuchawce klienta, co jest sygnałem awarii i często prowadzi do rozłączenia.
Koszt produkcyjny: TTS premium polski w jakości produkcyjnej kosztuje 0,02–0,30 USD za 1 000 znaków. Dla rozmowy 2,3 min średnio 800 znaków po stronie bota, czyli 0,016–0,24 USD per rozmowa, czyli 0,07–0,99 PLN. Dla 4 000 rozmów miesięcznie to 280–3 960 PLN/mies za sam TTS.
Cache TTS jest istotny. Otwarcia rozmowy, komunikat zgodny z art. 50, większość częstych odpowiedzi można cache'ować na poziomie audio. To redukuje koszt o 40–70 procent w typowym scenariuszu rezerwacji.
07
Region przetwarzania, RODO i licencja głosu
Decyzja TTS zmienia region przetwarzania danych. Polski głos premium dostępny często tylko w regionach US/EU, nie w Polsce Centralnej. Dla branż z wymogiem rezydencji wyłącznie w Polsce trzeba użyć modeli starszych z regionalną dostępnością, modeli open weights na własnej infrastrukturze, albo dostawcy chmury z lokalnym data center w regionach UE.
Licencja głosu: większość komercyjnych głosów TTS jest licencjonowana per minuta użycia + ogólna umowa terms of service. Klonowanie głosu pacjenta lub pracownika wymaga osobnej zgody pisemnej (RODO + AI Act art. 50). Voiceprint pracownika użyty w voicebocie ujawniający firmę bez zgody może rodzić ryzyko sporu: głos jest traktowany jako dobro osobiste w ramach otwartego katalogu z art. 23 KC (przez analogię do ochrony wizerunku z art. 81 ustawy o prawie autorskim i prawach pokrewnych), a w razie identyfikowalności konkretnej osoby pojawia się też kwalifikacja jako dane osobowe (art. 4 ust. 1 RODO). Doktryna nie jest jednolita; każdą sprawę warto przejrzeć z prawnikiem przed produkcją.
Dla sektora publicznego w PL: rekomendacja to polski głos open source z lokalnym wdrożeniem albo polski głos w regionie UE z gwarancją EU residency. Komercyjne głosy TTS od dostawców zewnętrznych mogą wymagać dodatkowej DPIA i konsultacji z UODO.
EROD w opinii 28/2024 wskazuje, że model AI wytrenowany na danych osobowych może (case-by-case) sam zawierać dane osobowe; model dostrojony na nagraniach głosowych konkretnej osoby (klonowanie głosu) zwykle mieści się w tym ryzyku. Trening na takich danych bez podstawy prawnej narusza RODO. Voicebot komercyjny używający syntetycznego głosu bez klonowania pozostaje poza tym zakresem, ale to ocena indywidualna, nie reguła kategoryczna.
08
Czego nie kupować
- 01unikać
Głos wybrany z jednego marketingowego demo
Bez 30-zdaniowego testu produkcyjnego. Demo przygotowywane jest w idealnych warunkach, produkcja nie.
- 02unikać
Głos bez gwarancji regionu UE
Ryzyko dla branż wrażliwych (medycyna, finanse, sektor publiczny). Nawet awaryjne przekierowanie do USA tworzy problem.
- 03unikać
TTS z zamkniętą licencją bez prawa do produkcji komercyjnej
Niektóre głosy są licencjonowane tylko do testów. Sprawdź terms of service przed setupem.
- 04unikać
Głos bez trybu awaryjnego w razie niedostępności
Pełna cisza w słuchawce w razie awarii. Wymagaj zapasowego głosu lub komunikatu „chwilę proszę”.
- 05unikać
TTS rozliczany tylko per znak bez przelicznika
Trudna prognoza kosztu miesięcznego. Wymagaj przelicznika znaków na minutę dla typowego scenariusza.
- 06unikać
Cross-comparison MOS z różnych źródeł
Wartości MOS z różnych paneli i warunków nie są porównywalne. Wymagaj testu w jednym panelu.
- 07unikać
Rezygnacja z testu nazwisk i nazw lokalnych
„Potem dodamy” oznacza, że w produkcji „doktor Pączkowski” brzmi jak „doktor Paczkowski”.
- 08unikać
Brak testu po telefonie
Jakość studio różni się od jakości G.711 o 0,3–0,5 punkta MOS. Test musi być w docelowych warunkach.
- 09unikać
Klonowanie głosu pracownika bez umowy
RODO + AI Act art. 50 + prawo cywilne. Bez pisemnej zgody to ryzyko prawne.
09
Metodyka i dziennik aktualizacji
Wartości MOS pochodzą z publicznych benchmarków (CodeSOTA Speech AI 2026, Artificial Analysis TTS, branżowe raporty porównawcze 2025) z zastrzeżeniem, że wartości z różnych paneli nie są wprost porównywalne. Budżet latencji wzięty z dokumentów ITU-T (P.85, G.711, G.722) i z literatury responsiveness benchmarks (MDPI 2025). Lista 30 zdań rozwijana w odbierze.ai od 2024 r. na podstawie obserwacji błędów produkcyjnych. Profile branżowe oparte na portfolio wdrożeń odbierze.ai (medycyna, beauty, finanse, B2B) bez ujawniania danych klientów.
Dziennik aktualizacji
- 2026-04-23Pierwsza wersja raportu
- 2026-05-06Pełna restrukturyzacja: tabela budżetu TTFB, lista 30 zdań w 9 kategoriach, profile branżowe, sekcja licencji i regionu, antywzorce
10
Źródła i odniesienia
- 01CodeSOTA, Speech AI Benchmarks 2026
- 02ITU-T Rec. P.85, MOS evaluation methodology
- 03VoiceMOS Challenge 2023, evaluation tutorial INTERSPEECH 2025
- 04Artificial Analysis, TTS evaluation framework
- 05EROD, opinia 28/2024 ws. modeli AI (klonowanie głosu)
- 06EUR-Lex, AI Act 2024/1689 (art. 4, art. 50)
- 07Ustawa o prawie autorskim i prawach pokrewnych (art. 81, ochrona wizerunku)
- 08Kodeks cywilny art. 23 (dobra osobiste)
- 09UODO, stanowisko ws. głosu jako biometrii (2024)
- 10ITU-T G.711, telephony codec
- 11MDPI, Benchmarking Responsiveness of Open-Source TTS (2025)
- 12Wikipedia, Voice activity detection (overview techniczny)
- 13IJERT, Performance Evaluation for Voice over LTE using G.711 (E2E delay 120 ms)
11
FAQ
01pyt · raportCzy najdroższy TTS jest zawsze najlepszy?
Nie. W produkcji liczy się jakość w konkretnej branży, latencja, region przetwarzania, stabilność i koszt przy danym wolumenie. Najdroższy TTS w warunkach studio może mieć 4,8 MOS, w warunkach G.711 spada do 4,2–4,4. Średni TTS w tych samych warunkach może mieć 4,3–4,5, czyli porównywalnie.
02pyt · raportCzy klonowanie głosu pracownika kliniki jest OK?
Wymaga pisemnej zgody pracownika + DPIA + zwykle aneksu do umowy o pracę. Voicebot mówiący głosem konkretnej osoby z zespołu kliniki dla pacjentów to zaawansowany scenariusz, w odbierze.ai stosujemy go rzadko i tylko z pełną dokumentacją.
03pyt · raportCzy mogę użyć tego samego głosu dla 5 różnych klientów?
Zależy od licencji TTS. Niektóre są per-deploy, inne per-organization. W odbierze.ai dla pakietów white-label używamy głosów z licencją multi-tenant; standardowe wdrożenia mają osobny głos per klient, by uniknąć efektu „Wszystkie kliniki brzmią tak samo”.
04pyt · raportCo z głosami open source dla sektora publicznego?
Możliwe, jeśli akceptujesz niższy MOS (4,0–4,3) w zamian za pełną kontrolę nad regionem przetwarzania (lokalne wdrożenie). Polskojęzyczne modele open weights w klasie produkcyjnej dostępne są z różną jakością i licencją; wymagają własnej infrastruktury i utrzymania. Dla sektora publicznego z wymogiem rezydencji wyłącznie w Polsce to często jedyna ścieżka, akceptowalna kosztowo dla wolumenów powyżej 30–50 tys. min/mies.
05pyt · raportJak długo testować głos przed produkcją?
Standardem w odbierze.ai jest 2-godzinny test produkcyjny: 30 zdań × 5–10 rozmówców × 2 warianty głosu, plus 100-rozmowowy test stabilności + WER po-TTS. Razem ~1–2 dni pracy. Skraca to znacząco ryzyko, że pacjent po starcie usłyszy „doktor Paczkowski”.
06pyt · raportCzy mogę zmienić głos w trakcie umowy?
Tak, ale każda zmiana wymaga przejścia przez tę samą procedurę testową i akceptację scenariusza po stronie klienta. Zmiana głosu zmienia komunikat zgodny z art. 50 (technicznie, choć treść jest ta sama) i wymaga aktualizacji logu wersji. W praktyce klienci robią taki ruch po 6–12 mies. albo po dużej zmianie marki.
07pyt · raportCo jeśli pacjent prosi „tym razem proszę o człowieka”?
Natychmiastowa eskalacja, niezależnie od scenariusza. Voicebot ma dziennikować takie żądanie (data, godzina, kontekst) i przekazać sprawę z notatką dla zespołu. Komunikat: „Już przekazuję sprawę do zespołu, proszę o chwilę cierpliwości”. Brak takiego mechanizmu to ryzyko dla art. 50 i dla relacji z pacjentem.