数据集概述
本数据集包含来自电商领域的客户与客服之间的多轮对话,覆盖多个电商场景,如手机、家电、服装、鞋袜、图书、电脑等。数据集记录了客户与客服的对话内容,以及对应的中文和英文分词信息,适用于自然语言处理(NLP)任务中的对话生成、情感分析、多语言模型训练等研究场景。
数据格式
数据以 xlsx
文件格式提供,每行记录一组客户与客服的对话内容及相关信息,字段说明如下:
id
:每条对话的唯一标识符,用于数据索引和管理。【中文】客户对话内容
:客户在对话中使用的原始中文内容。【中文】客服对话内容
:客服在对话中使用的原始中文内容。【中文】客户对话分词
:对客户中文内容进行分词后的结果,词之间以分隔符连接。【中文】客服对话分词
:对客服中文内容进行分词后的结果。【英语】客户对话内容
:客户在对话中对应的英文翻译内容。【英语】客服对话内容
:客服在对话中对应的英文翻译内容。【英语】客户对话分词
:对客户英文内容进行分词后的结果。【英语】客服对话分词
:对客服英文内容进行分词后的结果。对话id
:标识每组完整对话的唯一对话编号。
数据特点
- 场景多样:涵盖电商领域常见商品(如手机、家电、服装等),适用于多领域对话研究。
- 双语支持:同时提供中文和英文对话内容及分词信息,适合多语言任务。
- 结构化表示:分词字段支持特征提取和深度学习模型训练。
- 真实对话:数据来自实际电商场景,包含常见的客户提问和客服回答模式。
应用场景
- 对话生成模型训练:用于训练客户与客服对话生成模型,实现电商自动化客服。
- 情感分析:通过对话内容分析客户情绪,优化客户服务体验。
- 多语言对话翻译:适用于多语言对话翻译模型的训练与评估。
- 意图识别与问答系统:开发基于意图识别的问答系统,提高电商客服效率。
数据特点总结
本数据集为电商领域的客户服务智能化提供了高质量的语料支持,适用于多语言对话研究、自然语言生成任务以及情感分析场景。其多领域、多语言、多场景的特性,为构建智能客服系统和电商对话研究奠定了坚实的数据基础。
数据集总量:约2万组对话