中文医学NLP数据资源指南:从CBLUE到CMeKG,一份可用的公开数据集清单
中文医学NLP数据资源指南做中文医学自然语言处理最大的难处不是模型而是数据。英文医学领域有 MIMIC、i2b2、BioBERT 这样成熟的资源链中文这边却长期分散有的托管在评测平台、要注册和签署协议才能下载有的散落在个人 GitHub 仓库、规模和标注规范各不相同还有的早已失效却仍被到处引用。下面这份指南按任务类型梳理当前真实可访问的公开资源每个都已确认页面在线并标明获取方式你可以据此直接动手。综合基准先看 CBLUE如果你不确定从哪里起步先看中文医疗信息处理评测基准 CBLUE。它把多项中文医学语言理解任务收进同一个框架官方仓库列出的任务包括 CMeEE医学实体识别、CMeIE关系抽取、CHIP-CDN诊断标准化、CHIP-CTC临床试验筛选标准分类、CHIP-STS句子相似度以及 KUAKE 系列检索相关任务覆盖 NER、关系、归一化、分类、检索等多个方向。数据通过阿里云天池平台分发CBLUE 天池数据集页面 提供训练、验证、测试切分及评测脚本需登录天池账号后下载。具体任务数量与字段会随版本更新以官方页面为准。命名实体识别NERCBLUE 内的 CMeEE 是当前最常用的中文医学 NER 任务之一按官方说明覆盖疾病、身体部位、临床表现、医疗操作等多类实体具体类别与样本量以官方为准适合做实体识别基线。另一份经典数据是 Yidu-S4K医渡云结构化4K数据集来自 CCKS 2019 中文电子病历命名实体识别评测由医渡云团队基于真实病历分布标注包含实体识别与实体属性抽取两个子任务。该数据同样托管在天池原始授权限于评测使用下载前请阅读其使用条款。关系抽取与知识图谱关系抽取方向CBLUE 中的 CMeIE 提供面向疾病的中文医学关系抽取数据标注了多类实体间关系类型可直接用于三元组SPO抽取实验。知识图谱方向首选 CMeKG 中文医学知识图谱工具。该项目由相关高校与实验室联合研发仓库开放医学分词、实体识别、关系抽取三类工具的代码与使用方法模型文件因体积较大另行托管仓库内附下载说明。图谱本身覆盖疾病、药物、症状、诊疗技术等概念及其关系规模与在线服务以官方发布为准。问答与对话做医疗问答或检索式问答可用 cMedQA2 中文社区医疗问答数据集。官方说明其包含约 10.8 万个问题与 20 万余条回答并附训练/验证/测试候选切分已做匿名化处理采用 GPL-3.0 许可、限非商业研究使用仓库内 CSV 文件可直接下载。意图理解方向可用 CMID 中文医学意图数据集提供 4 类与 36 类两套意图标注JSON 格式同时给出原文、实体、分词与意图标签明确仅限科学研究使用需要时按仓库说明联系作者团队。对话场景可参考 中文医疗对话数据集按官方说明覆盖男科、内科、妇产科、肿瘤科、儿科、外科六个科室合计约 79 万条问答对以 CSV 形式按科室组织采用 MIT 许可可直接克隆使用。选择建议与常见坑做 NER优先用 CBLUE 的 CMeEE 起步它标注规范统一、有官方评测脚本便于横向对比需要更贴近真实电子病历的场景再补充 Yidu-S4K。做知识图谱从 CMeKG 入手它已把分词、识别、抽取串成可用工具链省去从零搭建图谱的成本。做问答或对话cMedQA2 适合检索式问答评测Toyhom 的对话数据适合生成式对话训练。几个反复出现的坑值得提前留意一是标注规范不统一不同来源对实体边界、关系类型的定义差异很大跨数据集混用前务必对齐标签体系二是授权与脱敏多数医学数据仅限科研、禁止商用部分要求注册评测平台或签署协议落地到产品前要确认许可边界三是繁简体与编码部分语料含繁体或异体字预处理阶段统一字符集可以避免后续踩坑。如果你需要快速判断某个具体任务下还有哪些可用资源、或某个数据集是否已迁移失效可以试试数聚天成 DeepSData 的数据集检索服务。我们用学术诚实的框架做检索命中就如实返回、没有就直说帮你少花时间在失效链接上把精力留给真正的建模工作。本文整理的数据集均以官方页面为准使用前请确认最新版本与许可条款。

相关新闻

空洞骑士模组管理终极指南:使用Scarab轻松管理100+游戏模组

空洞骑士模组管理终极指南:使用Scarab轻松管理100+游戏模组

空洞骑士模组管理终极指南:使用Scarab轻松管理100游戏模组 【免费下载链接】Scarab An installer for Hollow Knight mods written with Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab Scarab是一款基于Avalonia框架开发的空洞骑士模组管理…

2026/7/2 10:35:00阅读更多 →
为什么有些论文,一进入方法部分老师就开始“倾听模式”?

为什么有些论文,一进入方法部分老师就开始“倾听模式”?

很多学生认为,论文答辩最重要的是结论。实际上,对于大多数评审老师来说,真正决定论文质量的,往往不是结论,而是研究方法。因为结论可以不同,观点可以讨论,但研究方法如果站不住,整篇…

2026/7/2 10:35:00阅读更多 →
嵌入式系统精确计时方案与CS2200-CP应用解析

嵌入式系统精确计时方案与CS2200-CP应用解析

1. 精确计时系统的核心挑战与解决方案在嵌入式系统开发中,精确计时一直是个令人头疼的问题。我曾经为一个工业传感器项目调试时钟系统,发现即使使用号称高精度的外部晶振,实际计时误差仍然达到了每天2-3秒。这种误差在需要时间戳同步的数据采…

2026/7/2 10:30:00阅读更多 →
从笔记小白到效率高手:OneMore插件让OneNote生产力翻倍

从笔记小白到效率高手:OneMore插件让OneNote生产力翻倍

从笔记小白到效率高手:OneMore插件让OneNote生产力翻倍 【免费下载链接】OneMore A OneNote add-in with simple, yet powerful and useful features 项目地址: https://gitcode.com/gh_mirrors/on/OneMore 你是否还在为OneNote的功能限制而烦恼?…

2026/7/2 11:50:14阅读更多 →
Sunshine游戏串流服务器深度解析:5大架构设计与性能优化策略

Sunshine游戏串流服务器深度解析:5大架构设计与性能优化策略

Sunshine游戏串流服务器深度解析:5大架构设计与性能优化策略 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine Sunshine作为一款开源的自托管游戏串流服务器,…

2026/7/2 11:50:14阅读更多 →
腾讯会议互动安全主持操作指南

腾讯会议互动安全主持操作指南

腾讯会议互动安全主持操作指南 目录 会前准备:把“门禁”先设好 锁定入会范围,把无关人员挡在门外开启等候室,给每位入会者做一次“身份核验”设置会议密码,再加一把“锁” 会议开始:快速确认到场与安全状态 查看成员…

2026/7/2 11:50:14阅读更多 →
AI系统故障诊断与智能运维实践指南

AI系统故障诊断与智能运维实践指南

1. AI系统故障诊断的现状与挑战作为一名在AI领域摸爬滚打多年的架构师,我深刻理解故障诊断的痛苦。记得去年双十一大促期间,我们的推荐系统突然出现响应延迟飙升,整个技术团队花了整整6个小时才定位到问题——原来是一个冷门的数据预处理脚本…

2026/7/2 11:50:14阅读更多 →
朗艺琴行课程体系|从启蒙到专业,一站式音乐成长

朗艺琴行课程体系|从启蒙到专业,一站式音乐成长

多家长问:“朗艺有什么课?适合我家孩子吗?”答案很简单:从3岁到成人,从零基础到艺考,朗艺都有完整课程体系。- 幼儿启蒙(3–7岁):The ONE智能钢琴课,跟灯弹、…

2026/7/2 11:50:14阅读更多 →
HarmonyOS ArkTS集成SM2签名验签:从密钥生成到实战应用

HarmonyOS ArkTS集成SM2签名验签:从密钥生成到实战应用

1. 项目概述与核心价值最近在HarmonyOS应用开发社区里,看到不少开发者对国密算法的集成感到头疼,尤其是SM2签名验签这块。很多朋友反馈,官方文档虽然全面,但想快速上手、跑通一个完整的流程,还是得自己摸索半天&#x…

2026/7/2 11:45:14阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/1 4:42:14阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/1 5:19:01阅读更多 →
塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧

塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧

塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧 【免费下载链接】BOTW-Save-Editor-GUI A Work in Progress Save Editor for BOTW 项目地址: https://gitcode.com/gh_mirrors/bo/BOTW-Save-Editor-GUI 想在《塞尔达传说:旷野之息…

2026/7/2 0:03:01阅读更多 →
告别 AccessKey:多云平台 CLI OAuth 免密认证完全指南

告别 AccessKey:多云平台 CLI OAuth 免密认证完全指南

在本地开发环境使用云厂商 CLI 时,传统的 AccessKey(AK)方式需要手动创建、下载和保管密钥,不仅繁琐,还存在泄漏风险。其实,主流云平台都已提供基于 OAuth 2.0 的免密认证方案,让开发者可以通过浏览器登录一次性完成授权,CLI 自动管理临时凭证的刷新,兼顾了便利与安全…

2026/7/2 0:03:01阅读更多 →
基于13DOF传感器与PIC32MZ的高精度嵌入式导航系统设计

基于13DOF传感器与PIC32MZ的高精度嵌入式导航系统设计

1. 项目背景与核心价值在嵌入式系统开发领域,高精度定位与导航一直是极具挑战性的技术方向。传统方案往往面临成本、精度和实时性难以兼顾的困境。这个项目通过13DOF(13自由度)传感器组合与PIC32MZ2048EFH100高性能MCU的协同工作,…

2026/7/2 0:03:01阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/2 0:33:58阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/2 1:32:11阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/2 1:50:13阅读更多 →