Flow Matching 训练的输入分布问题:从 VAE Latent 统计性质到归一化工程实践——以 VoxFlash-TTS 为例 - 刺猬的温驯

Wait 5 sec.

【摘要】摘要:本文从 OT-CFM 插值路径的统计性质出发,系统推导 Flow Matching 模型输入分布与输出速度场分布的均值和方差,分析 VAE KL 散度权重对 latent 点云分散程度的影响,并借鉴图像生成领域的 SNR 失配理论,从理论角度论证逐通道归一化对 Flow Matching 训练 阅读全文