Jak oceniać jakość polskiego TTS
Ocena TTS-u opiera się na czterech wymiarach, które trzeba rozróżnić, bo dają odmienne wnioski:
(1) Jakość brzmienia (MOS, Mean Opinion Score, skala 1–5). Standardowy benchmark oparty na subiektywnej ocenie przez panel słuchaczy. Publikowane wartości są wskazówką porównawczą, nie gwarancją brzmienia na Twoich tekstach. Te same silniki potrafią różnić się między wersjami, regionami i konfiguracjami. Traktuj cudze benchmarki jako punkt wyjścia. Własny test na dziesięciu zdaniach z Twojej domeny daje wynik, na który możesz się powołać w briefie.
(2) Naturalność intonacji. MOS nie mierzy dobrze rytmu i pauz, a te decydują o tym, czy rozmowa „płynie”. W praktyce testuje się na konkretnych zdaniach z akcentami regionalnymi, skrótami (np. „ul. Al. Solidarności”), liczbami (PESEL wymawiany cyframi, kwoty „dwieście złotych pięćdziesiąt groszy”), datami. Silniki różnią się znacząco i różnice są słyszalne od pierwszego testu.
(3) Latencja: czas od wysłania tekstu do pierwszego dźwięku (time-to-first-byte, TTFB). W streamowaniu TTS różnica między nowoczesnym a starszym silnikiem jest słyszalna: rozmówca wyczuwa „pauzę” i traci płynność rozmowy. Konkretne liczby zmieniają się z wersjami i konfiguracjami; mierz na swoim pipelinie, nie w oderwaniu od dialog engine.
(4) Odporność na nietypowe wejścia. Co się dzieje, gdy agent ma powiedzieć `2026-04-17 o godzinie 14:30` lub `+48 888 78 48 78`? Słabe silniki wymawiają literalnie „myślnik 2026 myślnik…”. Dobre poprawnie interpretują format.
Praktyczny test, który rekomendujemy każdemu: przygotuj dziesięć zdań ze swojej domeny (branża, typowe nazwiska klientów, kwoty, daty, skróty) i poproś każdego kandydata o tę samą próbkę. Różnica między silnikami jest słyszalna. Dwie godziny testu dają Ci lepszy sygnał niż godzina czytania cudzych benchmarków.
Cztery kategorie silników TTS, jak rozumieć rynek
Zamiast wymieniać marki (które zmieniają cennik, warianty i palety głosów co kwartał), warto znać cztery kategorie silników. Każda optymalizuje pod inną kombinację jakość / latencja / koszt / zgodność i do każdej przypisana jest inna sytuacja briefingowa.
Kategoria A, premium brand voice. Silniki nastawione na najwyższą jakość brzmienia, bogatą ekspresję emocjonalną, cloning głosu (stwórz własny głos firmy). Najbardziej wybierane tam, gdzie brzmienie agenta jest elementem marki: medycyna estetyczna, hotele premium, kancelarie adwokackie, marki luxe. Typowo droższe niż inne kategorie; część dostawców oferuje wariant low-latency kosztem kompromisu jakości dla voicebotów telefonicznych.
Kategoria B, enterprise cloud (ekosystem korporacyjny). Silniki wbudowane w duże platformy chmurowe. Wartość: jednolity stos, jedna umowa DPA, jeden rachunek, SLA klasy enterprise, dostępność w europejskich regionach dla zgodności RODO. Jakość i ekspresja zwykle niższe niż kategoria A, ale stabilność i compliance wyraźnie lepsze. Typowy wybór dla sektorów regulowanych (banki, ubezpieczenia, sektor publiczny) oraz firm już zakorzenionych w jednym ekosystemie chmurowym.
Kategoria C, speech-to-speech (realtime). Nowsza architektura: model przyjmuje audio i generuje audio bez osobnego kroku TTS. Zyskuje krótsza pętla rozmowy (mniej etapów między słowem klienta a odpowiedzią agenta), traci wybór głosów (paleta jest węższa) i budżet (cennik per minuta zwykle wyraźnie wyższy niż klasyczny pipeline ASR → LLM → TTS). Przydatna tam, gdzie latencja jest krytyczna i akceptujesz kompromis palety głosów: typowo prototypowanie, asystenci wewnętrzni, scenariusze o bardzo wysokiej interaktywności.
Kategoria D, open-source self-hosted. Modele community-driven uruchamiane na własnej infrastrukturze (kilka projektów open-weights z poprawnym wsparciem polskiego). Jakość orientacyjnie poniżej kategorii A i B dla polskiego, ale koszt per znak istotnie niższy (płacisz tylko za VPS / GPU + energię). Bariera operacyjna wysoka: monitoring, aktualizacje, disaster recovery. W praktyce 2026 r. ma sens dla firm z własnym zespołem DevOps i bardzo wysokim wolumenem, albo dla sektorów z wyśrubowanymi wymogami data residency, gdzie żaden chmurowy silnik nie spełnia kryteriów.
Wsparcie dla polskiego (pl-PL) nie jest dane w żadnej z tych kategorii. Silniki w obrębie jednej kategorii różnią się znacząco paletą języków: niektóre popularne platformy voice AI nie mają polskiego w ogóle, a publikowane artykuły porównawcze dezaktualizują się szybciej niż pojawiają w druku. Obecność pl-PL weryfikuj bezpośrednio w dokumentacji dostawcy w dniu wyboru.
Praktyczny test dziesięciu zdań, własne dane zamiast cudzych benchmarków
Publiczne benchmarki MOS są średnio użyteczne, ale nie mówią, czy silnik poprawnie wymówi nazwę Twojej kliniki, Twój adres, imię trudnego klienta. Test na własnych zdaniach jest tańszy (darmowe tiery wszystkich dojrzałych dostawców) i daje sygnał, na który możesz się powołać.
Zdania 1–2: standardowe powitanie i pożegnanie („Dzień dobry, tu voicebot kliniki X. W czym mogę pomóc?”).
Zdania 3–4: trudne polskie odmiany (dopełniacz, celownik, narzędnik), ze średnio popularnymi imionami („Pani Małgorzaty Kwapisz nie ma w systemie. Czy mogę dopisać ją do kolejki?”).
Zdanie 5: kwota z groszami („Koszt konsultacji to sto pięćdziesiąt złotych, płatność w gabinecie.”).
Zdanie 6: data i godzina („Najbliższy wolny termin to piątek, dwudziestego czwartego kwietnia o czternastej trzydzieści.”).
Zdanie 7: numer telefonu wymawiany cyfra po cyfrze („Proszę zapisać numer: czterdzieści osiem, osiemset osiemdziesiąt osiem, siedemdziesiąt osiem, czterdzieści osiem, siedemdziesiąt osiem.”).
Zdanie 8: skrót i nazwa własna branżowa („Zgodnie z art. 9 RODO, przetwarzanie danych medycznych wymaga odrębnej zgody.”).
Zdanie 9: zdanie emocjonalne, pytanie i empatyczne potwierdzenie („Czy wszystko w porządku? Rozumiem, że to mogła być pilna sprawa.”).
Zdanie 10: dłuższa wypowiedź mieszająca elementy, 20–30 sekund ciągłego mówienia. Na takim odcinku ujawnia się różnica między silnikiem dobrym a bardzo dobrym.
Po wygenerowaniu próbek u każdego kandydata odsłuchaj je z trzema osobami (Ty, ktoś z zespołu, ktoś „z zewnątrz”) i oceń po trzech kryteriach: czy brzmi naturalnie, czy są błędy wymowy, czy rytm i pauzy nie męczą. Czas całego testu: 1–2 godziny, koszt zwykle mieści się w darmowych tierach. Wynik: lista 2–3 silników do dalszej rozmowy w briefie.
Ekonomika TTS w budżecie voicebota
W typowym polskim wdrożeniu SMB koszt TTS jest zwykle najniższym składnikiem rachunku chmurowego: istotnie niższym niż LLM i telefonia razem wzięte. Wyjątkiem są silniki kategorii A (premium brand voice), gdzie cennik potrafi być rzędu wielokrotnie wyższy niż kategoria B (enterprise cloud). Kategoria C (speech-to-speech) ma inny model cenowy: per minuta rozmowy, nie per znak, i zwykle wyraźnie wyższy per minutę niż klasyczny pipeline.
Praktyczny wniosek: optymalizacja TTS kosztem jakości rzadko się opłaca. Przy typowym wolumenie polskiego SMB różnica między silnikiem „dobrym” a „bardzo dobrym” to mała pozycja w stosunku do retainera opieki miesięcznej, nie warto o nią walczyć kosztem brzmienia.
Zmienność cenników to realne ryzyko. W ostatnich 2 latach dostawcy TTS klasy premium przechodzili kolejne restrukturyzacje cennikowe (zmiany credit-based, podniesienie minimum, redefinicja tierów). Budżetowanie na podstawie cennika sprzed kwartału jest ryzykowne. Zawsze weryfikuj u dostawcy przed podpisaniem umowy.
Dla orientacji budżetowej podajemy konkretne liczby w briefie po zebraniu Twoich wymagań (wolumen minut, wymagana jakość, priorytet latencji, wymogi zgodności). Liczby cennikowe w artykułach, w tym w tym przewodniku, dezaktualizują się szybciej niż pojawiają w druku. Jedyne wiarygodne cenniki to te z dokumentacji dostawcy w dniu podpisywania DPA.
Wymogi zgodności: hosting EU, zero retention, SCC
Dla sektorów regulowanych w Polsce (medycyna, kancelarie, finanse, sektor publiczny) wybór silnika TTS to również decyzja zgodnościowa, nie tylko jakościowa. Trzy elementy do weryfikacji u KAŻDEGO rozważanego dostawcy:
Hosting w regionach UE. Silnik TTS otrzymuje tekst rozmowy i odpowiada audio: to przetwarzanie danych osobowych w rozumieniu RODO. Transfer poza UE wymaga dodatkowych zabezpieczeń (SCC). Część dostawców oferuje regiony UE wprost; część tylko w planach enterprise; część nie oferuje w ogóle dla polskiego głosu. Weryfikuj wprost w dniu wyboru.
Zero data retention / no-training. Tryb, w którym dostawca nie przechowuje wysyłanego tekstu i nie używa go do trenowania modeli. Standardem u dojrzałych dostawców enterprise, ale nie zawsze domyślnym, trzeba aktywnie wybrać w konfiguracji lub umowie. Konieczne dla klinik (art. 9 RODO), kancelarii (tajemnica adwokacka) i sektora publicznego.
SCC przy transferze do USA. Jeśli silnik fizycznie hostowany jest w USA (nawet europejski dostawca bywa na infrastrukturze amerykańskiej), potrzebna jest umowa oparta na Standard Contractual Clauses zatwierdzonych decyzją wykonawczą Komisji 2021/914. Dla klinik i kancelarii zalecamy silnik z europejskim hostem; SCC jako środek zaradczy ma sens w innych sektorach.
W praktyce: w briefie najpierw kwalifikujemy silniki kategorii A / B / C / D pod kątem powyższych trzech kryteriów dla Twojej branży, DOPIERO POTEM porównujemy jakość. Silnik o najlepszym brzmieniu, który nie ma europejskiego hostu, jest dyskwalifikowany dla kliniki i nie trafia do DPA.
Jak przebiega dobór silnika w Twoim briefie
Konkretnego dostawcę TTS (i każdego innego komponentu stosu: LLM, STT, telefonii) przypisujemy per projekt i zapisujemy z imienia w umowie powierzenia (art. 28 ust. 2 RODO). To decyzja w briefie, nie uniwersalna rekomendacja, i nie ujawniamy jej publicznie, bo indywidualnie dla klienta dobieramy najlepszą dla branży opcję wraz z jej umową DPA, regionem hostingu, trybem retention i cennikiem na moment podpisania.
Proces briefu trwa zwykle 1–2 spotkań: (1) zbieramy Twoje wymagania jakościowe (próbki brzmienia z Twojej domeny), latencyjne (oczekiwany TTFB), zgodnościowe (region hostingu, retencja, tajemnica branżowa) oraz budżetowe (oczekiwany koszt na minutę), (2) kwalifikujemy 2–3 warianty z różnych kategorii spełniające Twoje kryteria zgodności, (3) prezentujemy próbki brzmienia na Twoich dziesięciu zdaniach, (4) wybierasz z rekomendacji lub wskazujesz preferencję, a my zapisujemy decyzję w DPA z imienną nazwą dostawcy, regionem hostingu i trybem retencji.
Co to oznacza praktycznie: publicznie nie odpowiadamy na pytanie „jakiego silnika używacie”, bo uczciwa odpowiedź brzmi „zależy, którego klienta pytasz”. W Twoim konkretnym wdrożeniu odpowiedź jest dokładna, imienna i spisana w DPA, do którego masz dostęp jako strona umowy.
Czego nie obejmuje pakiet: zmian cennika dostawcy po podpisaniu umowy. Jeśli w trakcie trwania umowy dostawca podnosi ceny, podwyżka przechodzi na Twój rachunek, ale nigdy ukradkiem: informujemy z 30-dniowym wyprzedzeniem i raz w roku oferujemy w ramach pakietu migrację na inny silnik (3–5 dni roboczych, bez dodatkowej opłaty).
Linki