Facebook研究人员构建了一个数据集来训练个性化对话代理
Facebook的研究人员最近编制了一个包含500万个人物角色和7亿个基于人物角色的对话的数据集。该数据库可用于训练端到端对话系统,从而在计算机代理和人类之间产生更具吸引力和丰富的对话。
对话系统或会话代理(CA)是设计用于通过文本,语音,图形或其他方法以连贯的方式与人类通信的计算机系统。到目前为止,已经发现基于神经架构的对话系统(例如LSTM或存储器网络)在实现流畅的通信方面特别有前途,特别是在直接对话对话日志时。
“他们的主要优势之一是他们可以依靠现有对话的大型数据源来学习覆盖各种领域而无需任何专业知识,”研究人员在他们的论文中写道,该论文已预先发布在arXiv上。“然而,另一方面,他们也表现出有限的参与度,特别是在闲聊环境中:他们缺乏一致性,并且不会像(甚至部分)脚本聊天机器人那样利用主动参与策略。”
在最近的一项研究中,蒙特利尔学习算法研究所(MILA)和Facebook AI的另一组研究人员创建了一个名为PERSONA-CHAT 的数据集,其中包括与文本配置文件或人物角色相关联的代理之间的对话。他们发现,针对特定角色培训对话系统可以提高他们对互动的参与度。
“然而,PERSONA-CHAT数据集是使用基于Mechanical Turk的人工数据收集机制创建的,”研究人员在他们的论文中解释道。“因此,对话框和人物角色都不能完全代表真实的用户 - 机器人交互,数据集覆盖范围仍然有限,包含超过1k个不同的角色。”
为了解决以前编译的数据集的局限性,Facebook研究人员创建了一个新的,大规模的基于角色的对话数据集,由从在线平台Reddit中提取的对话组成。他们的研究通过使用更具代表性的互动,使他们的前辈的工作更进一步。
“在本文中,我们使用以前从Reddit中提取的对话构建了一个非常大规模的基于角色的对话数据集,”研究人员写道。“通过简单的启发式方法,我们创建了一个超过500万个角色的语料库,涵盖超过7亿个对话。”
为了评估其有效性,研究人员在他们新开发的数据集上训练了基于人物的端对端对话系统。受过数据集培训的系统能够进行更具吸引力的对话,优于其他在培训期间无法访问人物角色的会话代理。
有趣的是,他们的数据集导致了最先进的结果,即使对话系统只是在其上进行了预训练。将来,这些发现可能会导致更具吸引力的聊天机器人的发展,这些聊天机器人也可以个性化和训练以获得特定的角色。
研究人员写道:“我们表明,训练模型可以将答案与作者的角色和背景相结合,从而提高预测性能。” “由于预训练可以带来相当大的性能提升,未来的工作可以为各种对话系统微调这个模型。”