任务型对话数据集调研——其他
任务型对话数据集调研——其他
上回说到了任务型对话的数据集的构建方式主要有 machine-to-machine、human-to-machine 和 human-to-human 三种,并介绍了一下 human-to-human 数据集的代表 MultiWOZ 系列,那么今天就再讲一讲在任务型对话中的使用其他构造方法构造的常用的数据集。
1 SGD 数据集
SGD 数据集是 dstc8 大赛公布的数据集,由 Google 公司构建1,是目前规模最大的任务型对话数据集。它是一个基于 machine-to-machine 方法构建的数据集,首先通过脚本批量生成问答对,然后由人类进行复述,最后组合而成。这个数据集的特点是,在测试集和验证集中存在训练集没见过的 domain,所以非常考验模型的泛化能力。
数据信息:
- 数据规模:
- 训练集对话组数:16142
- 训练集对话轮数:329964
- Domain:
- train:16
- dev:16
- test:18
- Slot:共 214 个
2 DSTC 系列
上文说到 SGD 数据集来自于一个 dstc 大赛,这里我们再展开说说。对话系统技术挑战赛 DSTC(The Dialog System Technology Challenge)由微软、卡内基梅隆大学的科学家于2013年发起,旨在带动学术与工业界在对话技术上的提升,在对话领域具有极高的权威性和知名度。2
对于研究人员来说,这场大赛每次举办都会发布相应的数据集。DSTC 数据集由亚马逊众包平台构建,目前为止已经发布了 11 个版本的数据集。其中第一版数据集 DSTC1 于 2013 年开始发布,其中只含有 5 个槽,任务仅仅局限于公交线路查询。DSTC2/3 的内容变成了餐馆预定,而且用户的预定的餐馆会在对话过程中改变,更增加了对话状态跟踪的难度。DSTC4/5 的内容是旅游信息查询,扩大了领域,考验了系统在跨领域场景中的分析能力。DSTC6 则分为了端到端目标导向对话学习、端到端对话建模、对话中断检测三个部分。后续发布的 DSTC 数据集均面向对话系统比赛,每次都会分成不同的赛道。
3 CrossWOZ 数据集
由清华大学在 2020 年构建的 CrossWOZ 数据集是首个大规模的中文跨领域任务型对话数据集3。训练集包含了酒店、餐馆、景点、地铁和出租五个领域的超过 5,000 组对话。此外,该数据集提供了丰富的标注信息,并公开了基线方法和评估结果,为中文任务导向对话研究提供了重要的资源。
本人毕设就是在这个数据集上跑的,感觉噪声还是蛮严重的,可以期待重新标注一下。中文多轮对话站起来啊!
数据信息:
- 数据规模:
- 训练集对话组数:5012
- 训练集对话轮数:84692
- test set:500,development set:500
- Domain:5
- Slot:72
Rastogi A, Zang X, Sunkara S, et al. Towards scalable multi-domain conversational agents: The schema-guided dialogue dataset[C]//Proceedings of the AAAI conference on artificial intelligence. 2020, 34(05): 8689-8696.↩
Zhu Q, Huang K, Zhang Z, et al. Crosswoz: A large-scale chinese cross-domain task-oriented dialogue dataset[J]. Transactions of the Association for Computational Linguistics, 2020, 8: 281-295.↩