本文由 简悦 SimpRead 转码, 原文地址 zhuanlan.zhihu.com
首发:AINLPer 微信公众号(获取分享干货!!)
编辑: ShuYini
校稿: ShuYini
时间: 2023-04-24
引言
命名实体识别是自然语言处理研究的重要方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。那么做命名实体识别就少不了数据集,经过一周的时间,终于把所有的能找到的数据集做了一下汇总,同时也分享给大家。说全网最全可能有点夸张,但真的尽力了。另外,在整理过程中,也着重参考了大佬的文章:刘聪 NLP:中文 NER 数据集整理。以下所有数据集,下载方式放在最后了,有需要可自取。
文娱 NER–Youku
文娱 NER 数据集主要是基于 youku 视频相关标题制作的,该数据集包括包括了 3 大类(娱乐明星名、影视名、音乐名)、9 小类实体类别(例如:动漫、电影、影视、综艺等),其中训练集 8001 条、验证集 1000 条、测试集 1001 条。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。最近 Github 更新时间是 2022 年。
关联论文:https://aclanthology.org/N19-1079.pdf
Github:https://github.com/allanj/ner_incomplete_annotation
电商 NER–Taobao
电商 NER 数据集主要基于 Taobao 电商数据制作的一个命名实体数据集,该数据集包括了 4 大类 (商品名称、商品型号、人名、地名)、9 小类实体类别(电脑、汽车、日用品等)。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。其中,训练数据集 6000 条,验证数据集 998 条,测试数据集 1000 条。最近 Github 更新时间是 2022 年。
关联论文:https://aclanthology.org/N19-1079.pdf
Github:https://github.com/allanj/ner_incomplete_annotation
简历 NER-- 新浪财经
该数据集基于新浪财经 (Sina Finance4) 收集了一个简历数据集,其中包括中国股票市场上市公司高管的简历。随机选择了 1027 份简历摘要,并使用 YEDDA 系统手动标注了 8 种命名实体[国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE)]。该本数据集包括训练集(3821)、验证集(463)、测试集(477),实体类型包括,文本比较规范,实体识别模型效果通常 F1 90% 以上。
关联论文:https://arxiv.org/pdf/1805.02023.pdf
Github:jiesutd/LatticeLSTM: Chinese NER using Lattice LSTM. Code for ACL 2018 paper. (github.com)
微博 - NER
该数据集是**「一个为 NER 标注的微博信息语料库」**。相较于 MSRA-NER 该数据更加的具体,其主要包括:人名(具体名字和泛指名字)、地址(具体地址和泛指地址)、行政区、组织机构(特定机构和泛指名称)。该语料库主要基于 2013 年 11 月至 2014 年 12 月期间从微博上采样的 1890 条信息标注完成(训练数据集 1350 条,开发数据集 270 条,测试数据集 270 条),在数量方面相较于 MSRA-NER 偏少。目前 Github 最近一次更新时间是在 2018 年。
关联论文:Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings
GitHub: https://github.com/hltcoe/golden-horse
人民日报 (1998/2014)-NER
该数据集同样是**「一个为 NER 标注数据集」**,本 NER 数据集由人民日报语料库 1998 版和 2014 版生成,包含了人名 (PER)、地名(LOC) 和机构名(ORG)3 类常见的实体类型。对于命名实体资料其主要包括:人名、地名和机构名。其中 1998 版本语料库训练数据集 2W + 条,开发数据集 2.3k + 条,测试数据集 4.6k + 条。目前该数据集 Github 最近一次更新时间是在 2018 年。另外关于该数据集的论文出处没有找到,有知道的小伙伴可以私信给我。
Github: https://github.com/zjy-ucas/ChineseNER
MSRA-NER
该数据集是 Microsoft Research Asia 「(MSRA) 推出的关于中文命名实体识别的数据集」,其中主要包括:地名、机构名和人名,采用的标签策略是 BIO。其中训练数据集含有 4.5 万个句子,3.6 万多个地名,2 万多个机构名,1.7 万多个人名;测试数据集大概是训练数据集的十分之一,其中含有 3.4k + 个句子,2.8k + 地名,1.3k + 组织名,1.9k + 人名。目前 Github 最近一次更新是在 2018 年。
GitHub:https://github.com/bytetopia/nlp_datasets
Boson-NER
Boson 提供的命名实体识别数据,采用 UTF-8 进行编码,每行为一个段落标注,共包括 2000 段落。数据集共包含 2000 个段落,实体类型有六种,主要包括:时间、地点、人名、组织名、公司名、产品名。该数据集查了出处网上都指向地址:https://bosonnlp.com/,但该网站好像已经访问不到了好在网上数据集还能找到。
CLUENER 细粒度 - NER
本数据是在清华大学开源的文本分类数据集 THUCTC 基础上,选出部分数据进行细粒度命名实体标注得到。其中训练集共计 10748 条,验证集共计 1343 条。,数据分为 10 个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene),其中训练集共计 10748 条,验证集共计 1343 条。
关联论文: https://arxiv.org/abs/2001.04351
Github:https://github.com/CLUEbenchmark/CLUENER2020
电子病历 - NER
该数据集是由全国知识图谱与语义计算大会 (CCKS) 公布的,它们在 2017 年到 2020 年举办了四次关于电子病历命名实体识别(简称 CNER Clinical Named Entity Recognition)的竞赛,即对于给定的一组电子病历纯文本文档,任务的目标是识别并抽取出与医学临床相关的实体,并将它们归类到预先定义好的类别(pre-defined categories),比如症状,药品,手术等。其中主要包括 CCKS2017-NER、CCKS2018-NER、CCKS2019-NER、CCKS2020-NER。具体 CCKS2017-NER 数据集,共 2229 条样本,5 种类别,为 symp、dise、chec、body 和 cure;CCKS2018-NER 数据集,共 797 条样本,5 种类别,为症状和体征、检查和检验、治疗、疾病和诊断、身体部位;CCKS2019-NER 数据集,共 1379 条样本,6 种类别,为解剖部位、手术、疾病和诊断、药物、实验室检验、影像检查;CCKS2020-NER,共计 1887 条样本,
2017 年:https://www.biendata.xyz/competition/CCKS2017_2/
2018 年:https://www.biendata.xyz/competition/CCKS2018_1/
2019 年:http://openkg.cn/dataset/yidu-s4k
2020 年:https://www.biendata.xyz/competition/ccks_2020_8/
github:https://github.com/hy-struggle/ccks_ner
军事装备试验鉴定 - NER
该数据集源于军事科学院系统工程研究院在 CCKS 2020 中组织关于军事装备试验鉴定的命名实体识别评测,其中训练集和测试集分别为 400 条,平均长度 150,最大长度 358。实体类型主要包括四大类:试验要素 (如:RS-24 弹道导弹、SPY-1D 相控阵雷达)、性能指标 (如测量精度、圆概率偏差、失效距离)、系统组成 (如中波红外导引头、助推器、整流罩)、任务场景 (如法国海军、导弹预警、恐怖袭击)。
Github:https://github.com/hy-struggle/ccks_ner
中文医学 CMeEE-NER
CMeEE 数据集出自,中文医疗信息处理挑战榜 CBLUE。数据集将医学文本命名实体划分为九大类,包括:疾病 (dis),临床表现 (sym),药物 (dru),医疗设备 (equ),医疗程序 (pro),身体 (bod),医学检验项目 (ite),微生物类 (mic),科室 (dep)。标注之前对文章进行自动分词处理,所有的医学实体均已正确切分,另外 CMeEE-V2 是对 CMeEE 的补充。
论文: https://arxiv.org/pdf/2106.08087.pdf
Github: https://github.com/CBLUEbenchmark/CBLUE
中国文学 - NER
该数据集基于中国文学文章进行标注制作,共计包含 726 篇文章。一共定义了 7 个实体:物件、任务、地址、事件、计量单位、组织、出处等。
关联论文:https://arxiv.org/pdf/1711.07010.pdf
Github:https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset
银行借贷 2021-NER
该数据集共 10000 条样本,4 种类别,为 BANK、COMMENTS_ADJ、COMMENTS_N 和 PRODUCT。
https://www.heywhale.com/mw/dataset/617969ec768f3b0017862990/file
任务对话 2018-NER
该数据集是 NLPCC2018 发布的比赛任务公布出来的,主要对应任务式对话任务 4,该数据集共 21352 条样本,15 种类别,为 language、origin、theme、custom_destination、style、phone_num、destination、contact_name、age、singer、song、instrument、toplist、scene 和 emotion。
Link:http://tcci.ccf.org.cn/conference/2018/taskdata.php
CCIR2021-NER
全国信息检索学术会议(CCIR) 由中国中文信息学会和中国计算机学会联合举办,则全国信息检索挑战杯(CCIR Cup)是由全国信息检索学术会议(CCIR)发起的技术评测比赛。数据集 CCIR2021 是该比赛发布的,旨在提高算法在中文命名实体识别方面鲁棒性,该数据数据集共 15723 条样本,4 种类别,分别为 LOC、GPE、ORG 和 PER。
https://www.datafountain.cn/competitions/510
瑞金 MCC2018-NER
该数据集是由上海瑞金医院与阿里云联合发起主办 AI 大赛上发布的,其主要任务是通过糖尿病相关的教科书、研究论文来进行糖尿病文献挖掘并构建糖尿病知识图谱。该数据集共计 3498 条样本,18 种类别,为 Level、Method、Disease、Drug、Frequency、Amount、Operation、Pathogenesis、Test_items、Anatomy、Symptom、Duration、Treatment、Test_Value、ADE、Class、Test 和 Reason。
中医药应用 2020-NER
该数据集主要是在 2020 年智慧中医药应用创新挑战赛中发布,该比赛主要由阿里和万科主办,旨在选出优秀的中医药人工智能大数据领域的应用创新解决方案。该数据集共 1255 条样本,13 种类别,为药物剂型、疾病分组、人群、药品分组、中药功效、症状、疾病、药物成分、药物性味、食物分组、食物、证候和药品。
商品标题 2022-NER
GAIIC2022 数据集主要出自 2022 全球人工智能技术创新大赛。主要背景是:京东商品标题包含了商品的大量关键信息,商品标题实体识别是 NLP 应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。共有标注训练样本:4 万条左右;无标注样本:100 万条。实体共有 52 种类型,均已经过脱敏处理,用数字代号 1 至 54 表示(不包含 27 和 45);其中 “O” 为非实体。标签中 “B” 代表一个实体的开始,“I”代表一个实体的中间或者结尾。“-”后的数字代号表示该字符的实体类型。
https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad/content/2
诊疗对话 2021-NER
在线问诊平台逐渐兴起,在线问诊是指医生通过对话和患者进行病情的交流、 疾病的诊断并且提供相关的医疗建议,医患对话理解旨在对问诊文本信息进行信息抽取,主要包括两个任务,分别是命名实体识别和症状检查识别。目前是从医患对话文本中识别出五类重要的医疗相关实体(Operation、Drug_Category、Medical_Examination、Symptom 和 Drug),数据包含 2000 多组对话,共 98452 条样本。
Link:http://www.fudan-disc.com/sharedtask/imcs21/index.html
FNED 数据集合 - NER
FNED 数据集包含 8 种事件类型,共计 1.3 万个具有事件信息的句子(每个句子中包含一个事件),数据来源于公开军事新闻网站(如新浪军事、凤凰军事和网易军事等),标注信息包含事件提及(触发词、事件类型和事件元素)、实体提及(实体)和关系提及(头实体、尾实体和关系类型),其中 8 种事件类型,7 种实体类型,8 种关系类型。
