Polski TTS, test produkcyjny 2026

Q: Czy najdroższy TTS jest zawsze najlepszy?

Nie. W produkcji liczy się jakość w konkretnej branży, latencja, region przetwarzania, stabilność i koszt przy danym wolumenie. Najdroższy TTS w warunkach studio może mieć 4,8 MOS, w warunkach G.711 spada do 4,2–4,4. Średni TTS w tych samych warunkach może mieć 4,3–4,5, czyli porównywalnie.

Q: Czy klonowanie głosu pracownika kliniki jest OK?

Wymaga pisemnej zgody pracownika + DPIA + zwykle aneksu do umowy o pracę. Voicebot mówiący głosem konkretnej osoby z zespołu kliniki dla pacjentów to zaawansowany scenariusz, w odbierze.ai stosujemy go rzadko i tylko z pełną dokumentacją.

Q: Czy mogę użyć tego samego głosu dla 5 różnych klientów?

Zależy od licencji TTS. Niektóre są per-deploy, inne per-organization. W odbierze.ai dla pakietów white-label używamy głosów z licencją multi-tenant; standardowe wdrożenia mają osobny głos per klient, by uniknąć efektu „Wszystkie kliniki brzmią tak samo”.

Q: Co z głosami open source dla sektora publicznego?

Możliwe, jeśli akceptujesz niższy MOS (4,0–4,3) w zamian za pełną kontrolę nad regionem przetwarzania (lokalne wdrożenie). Polskojęzyczne modele open weights w klasie produkcyjnej dostępne są z różną jakością i licencją; wymagają własnej infrastruktury i utrzymania. Dla sektora publicznego z wymogiem rezydencji wyłącznie w Polsce to często jedyna ścieżka, akceptowalna kosztowo dla wolumenów powyżej 30–50 tys. min/mies.

Q: Jak długo testować głos przed produkcją?

Standardem w odbierze.ai jest 2-godzinny test produkcyjny: 30 zdań × 5–10 rozmówców × 2 warianty głosu, plus 100-rozmowowy test stabilności + WER po-TTS. Razem ~1–2 dni pracy. Skraca to znacząco ryzyko, że pacjent po starcie usłyszy „doktor Paczkowski”.

Q: Czy mogę zmienić głos w trakcie umowy?

Tak, ale każda zmiana wymaga przejścia przez tę samą procedurę testową i akceptację scenariusza po stronie klienta. Zmiana głosu zmienia komunikat zgodny z art. 50 (technicznie, choć treść jest ta sama) i wymaga aktualizacji logu wersji. W praktyce klienci robią taki ruch po 6–12 mies. albo po dużej zmianie marki.

Q: Co jeśli pacjent prosi „tym razem proszę o człowieka”?

Natychmiastowa eskalacja, niezależnie od scenariusza. Voicebot ma dziennikować takie żądanie (data, godzina, kontekst) i przekazać sprawę z notatką dla zespołu. Komunikat: „Już przekazuję sprawę do zespołu, proszę o chwilę cierpliwości”. Brak takiego mechanizmu to ryzyko dla art. 50 i dla relacji z pacjentem.

Najlepszy TTS na demo nie zawsze jest najlepszy w produkcji. Polski głos w telefonii musi wymawiać nazwiska, skróty, godziny, liczby, ceny i nazwy lokalne bez efektu sztuczności, w budżecie 250–400 ms TTFB, przy kompresji G.711. Ten raport zawiera listę 30 zdań w 9 kategoriach, ramy pomiaru MOS, branżowe profile głosu i listę pułapek licencyjno-rezydencyjnych.

Czytaj raport Umów rozmowę

10 min czytaniapublikacja 2026-04-23aktualizacja 2026-05-06autorzy Artem Lisovtsov, Serhii Ivanchatenko, Nazar Kravtsovwydawca Syntalith sp. z o.o.

raport · technologia10 min

trzy zdania

TL;DR · 01Polski TTS w 2025–2026 r. jest na poziomie MOS 4,5–4,8 dla najlepszych modeli komercyjnych (top kategoria 4,7+ w warunkach studyjnych). Demo różni się od produkcji o 0,3–0,5 punkta MOS w zależności od latencji, próbek i kontekstu.

TL;DR · 02Telefonia narzuca 8 lub 16 kHz sample rate. Top modele 2025–2026 schodzą do TTFB TTS 80–200 ms; pełna pętla voice-to-voice mieści się typowo w 600–1 200 ms. Najlepszy głos studio może być nieakceptowalny po downsampleu i kompresji G.711 SIP.

TL;DR · 03Polski język ujawnia problemy na: nazwiskach z polskimi znakami, odmianie liczebników, godzinach, skrótach (mgr, dr, hab.), nazwach lokalnych, fleksji. Test bez tych kategorii jest pozorny.

publikacja · 2026-04-23

MOS produkcyjny: 4,5+
Budżet TTFB TTS: 80–400 ms
Sample rate telefonia: 8 / 16 kHz
Lista testów: 30 zdań / 9 kategorii
WER po-TTS: < 2%

Trzy zdania, jeśli nie masz czasu

01Polski TTS w 2025–2026 r. jest na poziomie MOS 4,5–4,8 dla najlepszych modeli komercyjnych (top kategoria 4,7+ w warunkach studyjnych). Demo różni się od produkcji o 0,3–0,5 punkta MOS w zależności od latencji, próbek i kontekstu.
02Telefonia narzuca 8 lub 16 kHz sample rate. Top modele 2025–2026 schodzą do TTFB TTS 80–200 ms; pełna pętla voice-to-voice mieści się typowo w 600–1 200 ms. Najlepszy głos studio może być nieakceptowalny po downsampleu i kompresji G.711 SIP.
03Polski język ujawnia problemy na: nazwiskach z polskimi znakami, odmianie liczebników, godzinach, skrótach (mgr, dr, hab.), nazwach lokalnych, fleksji. Test bez tych kategorii jest pozorny.

Dlaczego polski głos to inna kategoria testu

Polszczyzna jest językiem fleksyjnym z silną odmianą rzeczowników, czasowników, liczebników i zaimków. „Drugi” wymawia się inaczej w „drugi pokój” (ten) i „drugi raz” (kolejność). Modele TTS trenowane głównie na angielskim radzą sobie tu nierówno, nawet jeśli ich angielska wersja jest top-tier.

Polskie znaki diakrytyczne (ą, ę, ć, ł, ń, ó, ś, ź, ż) bywają błędnie redukowane do podstawowej litery, szczególnie w nazwiskach. „Pączkowski” nie powinno brzmieć jak „Paczkowski”. „Świętokrzyski” nie powinno brzmieć jak „Swietokrzyski”.

Skróty zawodowe (dr, mgr, hab., prof.) wymagają rozwinięcia kontekstowego. Liczby godzin (8:30) najczęściej rozwijać do „ósma trzydzieści”, nie „osiem trzydzieści”. Numery telefonów grupują się dwucyframi (22 123 45 67), nie pełnymi liczbami.

Latencja w telefonii: budżet TTFB

Budżet latencji od końca wypowiedzi rozmówcy do pierwszego dźwięku odpowiedzi

Etap	Budżet	Notka
Wykrycie końca wypowiedzi (VAD)	80–150 ms	Zależy od modelu VAD, progu silence i charakteru rozmowy.
Przetworzenie modelu LLM (1–3 zdania)	300–800 ms	Streaming pomaga, ale TTFB nie spada poniżej ~200 ms nawet w streamingu.
Pierwsze tokeny TTS (TTFB voice)	80–200 ms	Najlepsze modele streamują od pierwszej fonemy, gorsze syntetyzują pełne zdanie.
Kodek + kompresja SIP	30–80 ms	G.711 µ-law lub a-law, jitter buffer 20–40 ms.
Sieć (RTT operatora)	20–100 ms	Polski operator: zwykle <50 ms. Międzynarodowe: 80–150 ms.
Suma TTFB voice	510–1 330 ms	Realny zakres produkcji. Próg „naturalności” to ~700 ms, powyżej 1 200 ms rozmowa czuje się jak chat.

Wykrycie końca wypowiedzi (VAD)

Budżet: 80–150 ms
Notka: Zależy od modelu VAD, progu silence i charakteru rozmowy.

Przetworzenie modelu LLM (1–3 zdania)

Budżet: 300–800 ms
Notka: Streaming pomaga, ale TTFB nie spada poniżej ~200 ms nawet w streamingu.

Pierwsze tokeny TTS (TTFB voice)

Budżet: 80–200 ms
Notka: Najlepsze modele streamują od pierwszej fonemy, gorsze syntetyzują pełne zdanie.

Kodek + kompresja SIP

Budżet: 30–80 ms
Notka: G.711 µ-law lub a-law, jitter buffer 20–40 ms.

Sieć (RTT operatora)

Budżet: 20–100 ms
Notka: Polski operator: zwykle <50 ms. Międzynarodowe: 80–150 ms.

Suma TTFB voice

Budżet: 510–1 330 ms
Notka: Realny zakres produkcji. Próg „naturalności” to ~700 ms, powyżej 1 200 ms rozmowa czuje się jak chat.

Każdy etap można optymalizować osobno. Najwięcej do zyskania jest w streamingu LLM (jeśli platforma wspiera) i w wyborze TTS z niskim TTFB voice (modele autoregresywne tu zwykle wygrywają z neural codec).

Lista 30 zdań testowych w 9 kategoriach

Przykłady zdań testowych dla polskiego TTS produkcyjnego

Kategoria	Przykładowe zdanie	Co testuje
Nazwiska polskie	„Czy mogę zapytać o doktora Pączkowskiego, prof. Wójcika lub mgr Mościckiej?”	Polskie znaki, akcent, skróty zawodowe
Liczebniki w odmianie	„Mamy trzydziestu pięciu pacjentów w kolejce, na drugim piętrze.”	Forma męskoosobowa, dopełniacz, miejscownik
Godziny	„Wizyta o ósmej trzydzieści w piątek, przeniesiona z czwartku siedemnastego.”	Konwersja 8:30, dat, dni tygodnia
Numery telefonów	„Telefon kontaktowy: dwadzieścia dwa, sto dwadzieścia trzy, czterdzieści pięć, sześćdziesiąt siedem.”	Grupowanie cyfr, prefiks regionalny
Adresy	„ulica Marszałkowska sto czterdzieści dwa A, mieszkanie pięć, Warszawa.”	Skrót „m.”, mieszanka cyfra-litera
Skróty zawodowe	„Mgr Anna Kowalska-Nowak, lek. dent., spec. ortodonta.”	Rozwinięcie kontekstowe, akcenty na polskich słowach
Nazwy lokalne	„Jak dojechać do Świętej Trójcy w Bytomiu, koło placu Krakowskiego?”	Toponimy, deklinacja, nazwy historyczne
Dialogi z pauzami	„Hmm… rozumiem. Zaraz to sprawdzę. Proszę o chwilę cierpliwości.”	Naturalność pauz, znaczniki paralingual
Paralingualne	„Przepraszam, czy mogłaby Pani powtórzyć? Trochę gorzej słyszałem.”	Ton emocjonalny, naturalność uprzejmości

Nazwiska polskie

Przykładowe zdanie: „Czy mogę zapytać o doktora Pączkowskiego, prof. Wójcika lub mgr Mościckiej?”
Co testuje: Polskie znaki, akcent, skróty zawodowe

Liczebniki w odmianie

Przykładowe zdanie: „Mamy trzydziestu pięciu pacjentów w kolejce, na drugim piętrze.”
Co testuje: Forma męskoosobowa, dopełniacz, miejscownik

Godziny

Przykładowe zdanie: „Wizyta o ósmej trzydzieści w piątek, przeniesiona z czwartku siedemnastego.”
Co testuje: Konwersja 8:30, dat, dni tygodnia

Numery telefonów

Przykładowe zdanie: „Telefon kontaktowy: dwadzieścia dwa, sto dwadzieścia trzy, czterdzieści pięć, sześćdziesiąt siedem.”
Co testuje: Grupowanie cyfr, prefiks regionalny

Adresy

Przykładowe zdanie: „ulica Marszałkowska sto czterdzieści dwa A, mieszkanie pięć, Warszawa.”
Co testuje: Skrót „m.”, mieszanka cyfra-litera

Skróty zawodowe

Przykładowe zdanie: „Mgr Anna Kowalska-Nowak, lek. dent., spec. ortodonta.”
Co testuje: Rozwinięcie kontekstowe, akcenty na polskich słowach

Nazwy lokalne

Przykładowe zdanie: „Jak dojechać do Świętej Trójcy w Bytomiu, koło placu Krakowskiego?”
Co testuje: Toponimy, deklinacja, nazwy historyczne

Dialogi z pauzami

Przykładowe zdanie: „Hmm… rozumiem. Zaraz to sprawdzę. Proszę o chwilę cierpliwości.”
Co testuje: Naturalność pauz, znaczniki paralingual

Paralingualne

Przykładowe zdanie: „Przepraszam, czy mogłaby Pani powtórzyć? Trochę gorzej słyszałem.”
Co testuje: Ton emocjonalny, naturalność uprzejmości

Pełna lista 30 zdań w briefie technicznym (3–4 zdania per kategoria). Test musi być powtórzony w warunkach telefonii (G.711, jitter buffer 30 ms), nie tylko w studio.

Pomiar MOS, jak NIE robić cross-comparison

Pomiar dodatkowy: WER po-TTS. Transkrypcja TTS przez wzorcowy ASR (ten sam dla wszystkich kandydatów) i porównanie do tekstu wejściowego. Próg <2% w warunkach niekrytycznych. To pomiar obiektywny, niezależny od subiektywnych wrażeń panelu.

Pomiar trzeci: stabilność. 100 generacji tego samego zdania, czy głos się nie „rozjeżdża”. Modele autoregresywne mogą generować zauważalnie różne realizacje tego samego tekstu, modele neural codec są zwykle stabilniejsze.

Pomiar czwarty: naturalność dialogu (nie pojedyncze zdania). Voicebot, który brzmi dobrze w testach jednowierszowych, może męczyć w wielu turach, jeśli pauzy są nienaturalne lub akcent zdaniowy nie zmienia się z kontekstem.

Branżowe profile głosu

Profile głosu w produkcji, branża, charakterystyka, notka projektowa

Branża	Charakterystyka	Przykładowy ton	Notka projektowa
Medycyna ogólna	spokojny, ciepły, średnie tempo	„Dzień dobry, witam Panią”	Jasność wymowy nazwisk i leków, kontrolowana ekspresja
Stomatologia	przyjazny, energetyczny	„Cześć, zapraszamy do nas”	Wyższe tempo, mniej formalny, dobry dla młodszych pacjentów
Finanse, ubezpieczenia	profesjonalny, neutralny	„Dzień dobry, jak mogę pomóc?”	Wyraźne liczby, poprawna fleksja, niska ekspresja emocjonalna
Beauty, salony	ciepły, lekko emocjonalny	„Witaj!”	Średnie tempo, brzmienie młodsze, większa swoboda w intonacji
Windykacja, finanse trudne	spokojny, formalny, rzeczowy	„Dzień dobry, dzwonię w sprawie…”	Brak ekspresji, jasność daty i kwoty, neutralna intonacja
B2B, kancelaria	profesjonalny, lekko chłodny	„Dzień dobry, dzwonię z…”	Wyraźne nazwy firm, NIP, terminy. Brak humoru.

Medycyna ogólna

Charakterystyka: spokojny, ciepły, średnie tempo
Przykładowy ton: „Dzień dobry, witam Panią”
Notka projektowa: Jasność wymowy nazwisk i leków, kontrolowana ekspresja

Stomatologia

Charakterystyka: przyjazny, energetyczny
Przykładowy ton: „Cześć, zapraszamy do nas”
Notka projektowa: Wyższe tempo, mniej formalny, dobry dla młodszych pacjentów

Finanse, ubezpieczenia

Charakterystyka: profesjonalny, neutralny
Przykładowy ton: „Dzień dobry, jak mogę pomóc?”
Notka projektowa: Wyraźne liczby, poprawna fleksja, niska ekspresja emocjonalna

Beauty, salony

Charakterystyka: ciepły, lekko emocjonalny
Przykładowy ton: „Witaj!”
Notka projektowa: Średnie tempo, brzmienie młodsze, większa swoboda w intonacji

Windykacja, finanse trudne

Charakterystyka: spokojny, formalny, rzeczowy
Przykładowy ton: „Dzień dobry, dzwonię w sprawie…”
Notka projektowa: Brak ekspresji, jasność daty i kwoty, neutralna intonacja

B2B, kancelaria

Charakterystyka: profesjonalny, lekko chłodny
Przykładowy ton: „Dzień dobry, dzwonię z…”
Notka projektowa: Wyraźne nazwy firm, NIP, terminy. Brak humoru.

Wybór głosu nie powinien być jednoosobową decyzją (np. CEO klienta). Test panelu z 5–10 rozmówcami z grupy docelowej znacząco poprawia trafność. Głos „lubi się” lub „nie lubi się” na poziomie podświadomym.

Obciążenia produkcyjne: stabilność, tryb awaryjny, koszt

Stabilność po 1 000–10 000 rozmów: czy głos się nie zmienia, czy nie pojawiają się efekty „dzwonienia”, glitchy, czy nie ma „flutter” intonacji. Najlepsze testy to zsynchronizowany sample co 100 rozmów, porównywany do referencji.

Tryb awaryjny: co się dzieje, gdy model TTS nie odpowiada w 500 ms. Powinien być zapasowy głos lokalny lub komunikat „chwilę proszę”. Brak takiego trybu oznacza pełną ciszę w słuchawce klienta, co jest sygnałem awarii i często prowadzi do rozłączenia.

Koszt produkcyjny: TTS premium polski w jakości produkcyjnej kosztuje 0,02–0,30 USD za 1 000 znaków. Dla rozmowy 2,3 min średnio 800 znaków po stronie bota, czyli 0,016–0,24 USD per rozmowa, czyli 0,07–0,99 PLN. Dla 4 000 rozmów miesięcznie to 280–3 960 PLN/mies za sam TTS.

Cache TTS jest istotny. Otwarcia rozmowy, komunikat zgodny z art. 50, większość częstych odpowiedzi można cache'ować na poziomie audio. To redukuje koszt o 40–70 procent w typowym scenariuszu rezerwacji.

Region przetwarzania, RODO i licencja głosu

Decyzja TTS zmienia region przetwarzania danych. Polski głos premium dostępny często tylko w regionach US/EU, nie w Polsce Centralnej. Dla branż z wymogiem rezydencji wyłącznie w Polsce trzeba użyć modeli starszych z regionalną dostępnością, modeli open weights na własnej infrastrukturze, albo dostawcy chmury z lokalnym data center w regionach UE.

Licencja głosu: większość komercyjnych głosów TTS jest licencjonowana per minuta użycia + ogólna umowa terms of service. Klonowanie głosu pacjenta lub pracownika wymaga osobnej zgody pisemnej (RODO + AI Act art. 50). Voiceprint pracownika użyty w voicebocie ujawniający firmę bez zgody może rodzić ryzyko sporu: głos jest traktowany jako dobro osobiste w ramach otwartego katalogu z art. 23 KC (przez analogię do ochrony wizerunku z art. 81 ustawy o prawie autorskim i prawach pokrewnych), a w razie identyfikowalności konkretnej osoby pojawia się też kwalifikacja jako dane osobowe (art. 4 ust. 1 RODO). Doktryna nie jest jednolita; każdą sprawę warto przejrzeć z prawnikiem przed produkcją.

Dla sektora publicznego w PL: rekomendacja to polski głos open source z lokalnym wdrożeniem albo polski głos w regionie UE z gwarancją EU residency. Komercyjne głosy TTS od dostawców zewnętrznych mogą wymagać dodatkowej DPIA i konsultacji z UODO.

EROD w opinii 28/2024 wskazuje, że model AI wytrenowany na danych osobowych może (case-by-case) sam zawierać dane osobowe; model dostrojony na nagraniach głosowych konkretnej osoby (klonowanie głosu) zwykle mieści się w tym ryzyku. Trening na takich danych bez podstawy prawnej narusza RODO. Voicebot komercyjny używający syntetycznego głosu bez klonowania pozostaje poza tym zakresem, ale to ocena indywidualna, nie reguła kategoryczna.

Czego nie kupować

01
Głos wybrany z jednego marketingowego demo
Bez 30-zdaniowego testu produkcyjnego. Demo przygotowywane jest w idealnych warunkach, produkcja nie.
unikać
02
Głos bez gwarancji regionu UE
Ryzyko dla branż wrażliwych (medycyna, finanse, sektor publiczny). Nawet awaryjne przekierowanie do USA tworzy problem.
unikać
03
TTS z zamkniętą licencją bez prawa do produkcji komercyjnej
Niektóre głosy są licencjonowane tylko do testów. Sprawdź terms of service przed setupem.
unikać
04
Głos bez trybu awaryjnego w razie niedostępności
Pełna cisza w słuchawce w razie awarii. Wymagaj zapasowego głosu lub komunikatu „chwilę proszę”.
unikać
05
TTS rozliczany tylko per znak bez przelicznika
Trudna prognoza kosztu miesięcznego. Wymagaj przelicznika znaków na minutę dla typowego scenariusza.
unikać
06
Cross-comparison MOS z różnych źródeł
Wartości MOS z różnych paneli i warunków nie są porównywalne. Wymagaj testu w jednym panelu.
unikać
07
Rezygnacja z testu nazwisk i nazw lokalnych
„Potem dodamy” oznacza, że w produkcji „doktor Pączkowski” brzmi jak „doktor Paczkowski”.
unikać
08
Brak testu po telefonie
Jakość studio różni się od jakości G.711 o 0,3–0,5 punkta MOS. Test musi być w docelowych warunkach.
unikać
09
Klonowanie głosu pracownika bez umowy
RODO + AI Act art. 50 + prawo cywilne. Bez pisemnej zgody to ryzyko prawne.
unikać

Metodyka i dziennik aktualizacji

Wartości MOS pochodzą z publicznych benchmarków (CodeSOTA Speech AI 2026, Artificial Analysis TTS, branżowe raporty porównawcze 2025) z zastrzeżeniem, że wartości z różnych paneli nie są wprost porównywalne. Budżet latencji wzięty z dokumentów ITU-T (P.85, G.711, G.722) i z literatury responsiveness benchmarks (MDPI 2025). Lista 30 zdań rozwijana w odbierze.ai od 2024 r. na podstawie obserwacji błędów produkcyjnych. Profile branżowe oparte na portfolio wdrożeń odbierze.ai (medycyna, beauty, finanse, B2B) bez ujawniania danych klientów.

Dziennik aktualizacji

2026-04-23Pierwsza wersja raportu
2026-05-06Pełna restrukturyzacja: tabela budżetu TTFB, lista 30 zdań w 9 kategoriach, profile branżowe, sekcja licencji i regionu, antywzorce

Źródła i odniesienia

FAQ

01pyt · raport

Czy najdroższy TTS jest zawsze najlepszy?

odp.

Nie. W produkcji liczy się jakość w konkretnej branży, latencja, region przetwarzania, stabilność i koszt przy danym wolumenie. Najdroższy TTS w warunkach studio może mieć 4,8 MOS, w warunkach G.711 spada do 4,2–4,4. Średni TTS w tych samych warunkach może mieć 4,3–4,5, czyli porównywalnie.

02pyt · raport

Czy klonowanie głosu pracownika kliniki jest OK?

odp.

Wymaga pisemnej zgody pracownika + DPIA + zwykle aneksu do umowy o pracę. Voicebot mówiący głosem konkretnej osoby z zespołu kliniki dla pacjentów to zaawansowany scenariusz, w odbierze.ai stosujemy go rzadko i tylko z pełną dokumentacją.

03pyt · raport

Czy mogę użyć tego samego głosu dla 5 różnych klientów?

odp.

Zależy od licencji TTS. Niektóre są per-deploy, inne per-organization. W odbierze.ai dla pakietów white-label używamy głosów z licencją multi-tenant; standardowe wdrożenia mają osobny głos per klient, by uniknąć efektu „Wszystkie kliniki brzmią tak samo”.

04pyt · raport

Co z głosami open source dla sektora publicznego?

odp.

Możliwe, jeśli akceptujesz niższy MOS (4,0–4,3) w zamian za pełną kontrolę nad regionem przetwarzania (lokalne wdrożenie). Polskojęzyczne modele open weights w klasie produkcyjnej dostępne są z różną jakością i licencją; wymagają własnej infrastruktury i utrzymania. Dla sektora publicznego z wymogiem rezydencji wyłącznie w Polsce to często jedyna ścieżka, akceptowalna kosztowo dla wolumenów powyżej 30–50 tys. min/mies.

05pyt · raport

Jak długo testować głos przed produkcją?

odp.

Standardem w odbierze.ai jest 2-godzinny test produkcyjny: 30 zdań × 5–10 rozmówców × 2 warianty głosu, plus 100-rozmowowy test stabilności + WER po-TTS. Razem ~1–2 dni pracy. Skraca to znacząco ryzyko, że pacjent po starcie usłyszy „doktor Paczkowski”.

06pyt · raport

Czy mogę zmienić głos w trakcie umowy?

odp.

Tak, ale każda zmiana wymaga przejścia przez tę samą procedurę testową i akceptację scenariusza po stronie klienta. Zmiana głosu zmienia komunikat zgodny z art. 50 (technicznie, choć treść jest ta sama) i wymaga aktualizacji logu wersji. W praktyce klienci robią taki ruch po 6–12 mies. albo po dużej zmianie marki.

07pyt · raport

Co jeśli pacjent prosi „tym razem proszę o człowieka”?

odp.

Natychmiastowa eskalacja, niezależnie od scenariusza. Voicebot ma dziennikować takie żądanie (data, godzina, kontekst) i przekazać sprawę z notatką dla zespołu. Komunikat: „Już przekazuję sprawę do zespołu, proszę o chwilę cierpliwości”. Brak takiego mechanizmu to ryzyko dla art. 50 i dla relacji z pacjentem.

Branże i przewodniki

Zastosuj te dane w praktyce.

01 · poz.

przewodnik8 min
Polski TTS 2026, jak wybrać silnik dla voicebota
Czytaj

Biblioteka R

Dalej w bibliotece odbierze.ai.

05 / 05Wszystkie raporty

PoprzedniR04 · AI Act

AI Act art. 50, checklista dla voicebotów

Od 2 sierpnia 2026 r. każdy voicebot w UE musi się przedstawić jako system AI. Inaczej organ może nałożyć karę do 15 mln EUR. Ten raport pokazuje treść komunikatu, podział odpowiedzialności provider/deployer i dowód operacyjny, który zadziała w razie kontroli. Audyt zgodności wdrożenia pod art. 50 dla pojedynczego scenariusza zajmuje 2–3 godziny.

11 min8 sekcje13 źródła

Wszystkie raporty

Polski TTS, test produkcyjny 2026

Dlaczego polski głos to inna kategoria testu

Latencja w telefonii: budżet TTFB

Lista 30 zdań testowych w 9 kategoriach

Pomiar MOS, jak NIE robić cross-comparison

Branżowe profile głosu

Obciążenia produkcyjne: stabilność, tryb awaryjny, koszt

Region przetwarzania, RODO i licencja głosu

Czego nie kupować

Metodyka i dziennik aktualizacji

Źródła i odniesienia

FAQ

Czy najdroższy TTS jest zawsze najlepszy?

Czy klonowanie głosu pracownika kliniki jest OK?

Czy mogę użyć tego samego głosu dla 5 różnych klientów?

Co z głosami open source dla sektora publicznego?

Jak długo testować głos przed produkcją?

Czy mogę zmienić głos w trakcie umowy?

Co jeśli pacjent prosi „tym razem proszę o człowieka”?

Polski TTS 2026, jak wybrać silnik dla voicebota

AI Act art. 50, checklista dla voicebotów