Неочевидные проблемы в Text‑to‑Speech, о которых редко говорят

Wait 5 sec.

Когда приходишь в Text-to-Speech из классического ML (или даже из CV/NLP), сначала кажется, что всё знакомо: датасет, модель, loss, валидация, поехали. А потом довольно быстро ловишь себя на мысли, что что-то тут не так. А что не так-то?