发布时间:2024-11-18 13:50:59
本内容由, 集智官方收集发布,仅供参考学习,不代表集智官方赞同其观点或证实其内容的真实性准确性,请勿用于商业用途。
数据集概述
本数据集包含来自电商领域的客户与客服之间的多轮对话,覆盖多个电商场景,如手机、家电、服装、鞋袜、图书、电脑等。数据集记录了客户与客服的对话内容,以及对应的中文和英文分词信息,适用于自然语言处理(NLP)任务中的对话生成、情感分析、多语言模型训练等研究场景。
数据格式
数据以 xlsx
文件格式提供,每行记录一组客户与客服的对话内容及相关信息,字段说明如下:
id
:每条对话的唯一标识符,用于数据索引和管理。【中文】客户对话内容
:客户在对话中使用的原始中文内容。【中文】客服对话内容
:客服在对话中使用的原始中文内容。【中文】客户对话分词
:对客户中文内容进行分词后的结果,词之间以分隔符连接。【中文】客服对话分词
:对客服中文内容进行分词后的结果。【英语】客户对话内容
:客户在对话中对应的英文翻译内容。【英语】客服对话内容
:客服在对话中对应的英文翻译内容。【英语】客户对话分词
:对客户英文内容进行分词后的结果。【英语】客服对话分词
:对客服英文内容进行分词后的结果。对话id
:标识每组完整对话的唯一对话编号。数据特点
应用场景
数据特点总结
本数据集为电商领域的客户服务智能化提供了高质量的语料支持,适用于多语言对话研究、自然语言生成任务以及情感分析场景。其多领域、多语言、多场景的特性,为构建智能客服系统和电商对话研究奠定了坚实的数据基础。
数据集总量:约2万组对话
这种数据集通常包含带有标记的文本,其中标记了特定的信息实体或概念,如人物名称、组织机构、日期等。这些数据集用于训练模型从自由文本中提取关键信息。帮助模型理解文本的深层含义,并从中抽取有用的信息。