数据集介绍:
本数据集包含约8000条新闻资讯,旨在为自然语言处理(NLP)和文本分析提供多维度的信息支持。每条记录包括标题、中文分词、拼音、英文翻译与分词、以及新闻的情感属性(积极、消极或中性)。
字段包括:
- 标题:新闻的标题内容。
- 类型:新闻的分类类型(例如:政治、经济、科技等)。
- 中文分词:标题中的中文词汇分词结果,便于文本处理。
- 拼音:标题中文字符的拼音表示。
- 英文翻译:标题的英文翻译,便于跨语言处理。
- 英文分词:英文翻译的分词结果。
- 是否为热点:标明新闻是否为当前热点事件(如:是/否)。
- 属性:情感属性标注(消极、积极或中性),指示新闻的情感倾向。
- 关联词汇:与新闻标题相关的关键词汇,有助于识别新闻的主题或内容。
此外,数据集还标注了新闻是否为热点事件,并提供了相关联的关键词汇,适用于情感分析、热点新闻检测、跨语言翻译等研究和应用。
数据集读取:
数据集为.xlsx格式,方便使用pandas等库进行调用读取