在快速开展的AI范畴,技能打破与运用者实在的体会提高正引领着语音对话模型迈向新的高度。从开始的简略问答到现在杂乱多变的对话场景,人机交互正阅历着史无前例的深入革新。传统的练习数据已难以习惯当时的需求,现代交互要求体系不仅能了解言语的上下文,还需快速辨认用户的需求并作出恰当反应。
在此布景下,晴数才智联合中国科学院声学研究所,一起开源了“双工天然对话语音数据集_中文”,为语音对话模型供给更实在、细腻的练习数据。经过对每位说话者语音的独立剖析,该数据集让语音对话模型可以洞悉对话中的上下文改变、语调崎岖以及情感动摇,然后生成愈加天然、精确的回应。一起,双工别离数据让端到端模型的构建更为精准,反应速度更快。
晴数才智开发的多通道天然对话语音数据集,旨在处理当时语音对话模型面对的两大问题:一是如安在杂乱对话环境中精确捕捉并区别每位说话者的语音信息;二是怎么使AI模型更好地了解并习惯天然对话中的打断、交互等动态进程。
上图为双工语音交互模型架构图。双工语音交互模型(如 dGSLM [1]、Moshi [2]和SLIDE [3])打破了传统单工语音交互模型一问一答的死板呼应形式,完成了同步传闻以及在交互进程中天然的打断与插嘴。但是,这些模型的练习高度依靠双工天然对话语音数据。而此类数据的稀缺,尤其是在中文范畴,严峻约束了上述模型的功能提高。
为处理这样一些问题,咱们采取了立异的数据收集与处理战略。首要,经过独立收集每位说话者的音轨,并独自对每个说话人做分类标示,完好的保留了对话进程中天然的打断,交互等进程。其次,经过将每位说话者的音频别离,咱们也可以供给更明晰、更精准的练习数据,使模型更专心于了解和呼应天然说话的交互进程。
为了让咱们更直观地了解咱们的多通道数据,咱们特别选取了5小时的对话内容作为本次开源数据集。本数据可以适用于模型的微调或许测验运用(非商用)。
副言语标签:特别标示副言语信息,如口气、中止等,为深度情感剖析与交互体会晋级供给有力支撑。
除了中文双工对话数据开源之外,咱们相同开源了英语双工对话数据,对英语双工数据感兴趣的朋友,欢迎经过以下链接下载并运用,探究更多或许~