适用于OpenUTAU for DiffSinger的多语言音素器
特点
- 音素输入模式;
- 音素分类与赋权;
- 自由增删字典文件与内容。
新增功能
- 中文合成场景下汉字亦可添加字典后缀识别;
- 输入歌词不存在于默认字典(Default)中时,将依次遍历其他字典找到能够对应上的为止;
- 如果输入歌词在所有字典中均找不到值则自动识别为Default字典下的 “la” 。
调整
- 音素输入模式触发机制由元辅音分隔符 “|” 改为歌词首位输入的音素模式识别符 “.” ,在 “.” 后直接输入以空格分离的音素就可以自动识别, “.” 与音素不需要以空格分隔,输入单个音素时默认以元音形式输入,多个音素将考虑时长权重;
- “+” 切分音符或创建倚音时不再影响音素时长;
- 修复部分歌词输入时辅音时长变为 0 的问题。
使用方法
- 将 DiffFonemizer.dll 置于 OpenUTAU 根目录下的 Plugins 子目录中;
- 将 Fconfig.zip 解压后置于歌手根目录中,形成 歌手文件夹 > Fconfig 的文件层级(Fconfig 与 dsdur 等文件夹位于同一层级);
- 启动 OpenUTAU 选择 DIFF F 音素器即可使用。
注意事项
- 音素分类与赋权文件(PhonesDefinition.csv)文件名不可修改;
- 音素分类与赋权文件(PhonesDefinition.csv)为标准 *.csv 文件,推荐于 Microsoft Excel 下编辑导出;
- 音素分类与赋权文件(PhonesDefinition.csv)内部结构为 音素名/(首要)音素属性/(次要)音素属性/时长权重 ,其中音素属性必须为以下几种名称,时长权重为大于 0.1 的浮点数,次要音素属性仅支持半元音为介母;
元音类:Vowel(单元音)、Diphthong(复合元音)、Breath(呼吸)、Silence(静音)、Mainvowel(韵腹);
辅音类:Liquid(流音)、Nasal(鼻音)、Fricative(擦音)、Aspirate(送气音)、Semivowel(半元音)、Coda(韵尾)、Stop(塞音)、Affricate(塞擦音);
次要音素属性专用类:Prenuclear(介母)。
- 所有字典文件(*.txt)均为以制表符(\t)分割的歌词音素序列,无标题行,推荐于 Microsoft Excel 下编辑导出;
- 请将默认启用的字典命名为 Default.txt ,文件名不可修改;
- 除默认字典外的其他字典均需满足 文本+识别后缀.txt 的命名规则,推荐文本输入易读的语言名,识别后缀为单个易于输入且不与其他字典冲突的字符。
下载地址
适用于SOFA的日语强制对齐微调模型
信息
模型名称:Japanese_Quadrilx
支持语种:日语
版本型号:0.1
公开日期:2024/07/09
模型用途:歌声数据集强制对齐
词典类型:日语罗马字(含有语种前缀“j:”)
数据总量:8小时(音素级标注)
超参配置:下载后查看文件./hparams.yaml
模型训练:復一
数据提供:下附
公开数据集
Ritsu Namine(波音リツ)
Kiritan Tohoku(東北きりたん)
Kurumi Oniku(御丹宮くるみ)
私有数据集
卷毛兔w
復一
次元遡腐鱼_Official
遊木濑yuKisei