学习笔记 | 论文 | 《基于数据集与场景化的健康医疗数据分类分级创新研究与实践探索》_ 熊劲光
【摘要】目的:基于数据集与场景化的方法和技术,实现健康医疗数据分类分级的有效实践和高效应用。方法:分析健康医疗数据管理面临的问题和需求,探索基于数据集与场景化的健康医疗数据分类分级方法、技术和应用。结果:某三级公共卫生专科医院的电子病历和健康档案数据分类分级实践证明,基于数据集与场景化的健康医疗数据分类分级方法和技术科学有效。结论:基于数据集与场景化的健康医疗数据分类分级方法和技术可以为数据安全、数据流通和数据要素资产化提供合规、高效的基础保障。
【关键词】健康医疗数据;分类分级;数据集;场景化
根据《基于数据集与场景化的健康医疗数据分类分级创新研究与实践探索》内容,数据集的定义在第1.2.1节中明确给出:
“数据集由元数据、数据量、应用场景、时效性和数据内容五个元素构成,共同决定了对特定业务问题的全面理解,可完整描述业务场景中各类活动的完整特征。”
下面对这五个元素进行详细解释,并基于文档中的示例(主要是职业病防治数据)构建一个数据集样例。
元素 | 解释 | 作用与意义 | 举例(基于职业病诊断场景) |
|---|---|---|---|
1. 元数据 | 描述数据自身属性的数据,即“关于数据的数据”。 | 提供数据集的背景信息,使数据可被发现、可理解和可管理。 | 数据集的名称、创建者、创建时间、数据来源(如HIS、LIS系统)、字段定义、数据格式、更新频率、版本号等。 |
2. 数据量 | 指数据集所包含的数据规模,通常以记录条数、文件大小、表行数等衡量。 | 影响数据处理、存储和计算的资源需求,是判断数据价值和应用潜力的重要指标。 | 例如,一个包含“10,000名职业病患者3年的完整诊疗记录”的数据集。 |
3. 应用场景 | 指该数据集被创建、使用和管理所服务的具体业务活动或目标。 | 核心要素。它直接决定了数据应如何被分类、分级(安全策略)、以及以何种方式被使用。 | 临床诊疗:用于为具体患者制定诊断和治疗方案。<br>疾病预防:用于分析某工厂职业病的分布规律,进行健康干预。<br>医疗科研:用于研究某职业病与特定职业危害因素的关联性。 |
4. 时效性 | 指数据的时间特性和有效性,包括数据产生的时间、更新的频率以及数据的有效期。 | 决定了数据在特定场景下的价值和可用性。例如,实时数据对于急救至关重要,而历史数据对于趋势分析更有价值。 | 实时/准实时:用于紧急会诊的当前检查结果。<br>周期性:按月度汇总的职业病新发病例统计。<br>历史性:过去十年全部职业病患者档案,用于长期预后研究。 |
5. 数据内容 | 指数据集实际包含的具体信息条目,即数据的实质。在健康医疗领域,这通常由一系列标准化的数据项组成。 | 是数据集的核心价值所在。其具体内容决定了数据集的用途和敏感度。 | 包含具体的患者个人信息、诊疗信息、职业史等字段,例如:姓名、身份证号、诊断名称、职业危害因素接触史、胸部X光影像等。 |
根据文档2.3.1节描述的“职业病防治高质量专病数据集”,以及文中多次提到的“姓名、身份证号、职业类型”等组合规则,我们可以构建如下样例:
构成元素 | 具体描述 |
|---|---|
1. 元数据 | • 标识符:OCD_001 <br>• 数据来源:医院HIS系统、电子病历系统、PACS系统、职业卫生学调查系统。<br>• 数据格式:主表为结构化(SQL数据库),包含影像文件链接(非结构化)。<br>• 字段定义:遵循《电子病历基本数据集》及院内扩展标准。<br>• 责任人:职业病科数据管理员。<br>• 更新频率:每日增量更新。 |
2. 数据量 | • 约5,000名确诊尘肺病患者的记录。<br>• 每条记录包含约50个核心字段。<br>• 关联影像文件约20,000份。 |
3. 应用场景 | 主场景:临床诊疗。用于医生调阅患者完整信息,进行诊断、制定随访计划。<br>次级场景:科室管理。用于统计科室工作量、疾病分期分布等。<br>(注意:若用于“科研”或“数据要素交易”,则需生成新的、脱敏后的衍生数据集,其应用场景元素将随之改变) |
4. 时效性 | • 数据时间范围:2018年1月1日 - 2024年12月31日。<br>• 数据有效性:患者的最新联系信息和健康状况需每半年更新一次。<br>• 业务时效要求:门诊医生调阅时,数据访问延迟要求小于2秒。 |
5. 数据内容 (示例字段) | a. 个人基本信息:<br> • 患者ID(院内唯一标识)<br> • 姓名 <br> • 身份证号 <br> • 性别、出生日期、联系电话<br><br>b. 职业史信息:<br> • 职业类型(如:煤矿掘进工)<br> • 累计接尘工龄(年)<br> • 用人单位名称<br><br>c. 诊疗信息:<br> • 疾病诊断名称(如:矽肺三期)<br> • 诊断日期<br> • 主要临床症状<br> • 肺功能检查结果<br> • 胸部CT影像链接<br><br>d. 管理信息:<br> • 主治医生<br> • 最近一次随访日期<br> • 数据录入时间 |
根据文档1.3.2节的规则引擎方法,上述数据集中的 “姓名”、“身份证号”和“职业类型” 三个数据项组合,可以被识别为一条 “重要数据” 规则。这是因为:
这个样例展示了如何通过五个元素完整描述一个数据集,并为后续基于场景的动态分级和组合规则识别提供了基础。
论文原文:(支持下载)
基于数据集与场景化的健康医疗数据分类分级创新研究与实践探索_熊劲光.pdf
参考资料:(支持下载)
卫生健康行业人工智能应用场景参考指引.pdf卫生健康行业数据分类分级指南试行.pdf








新型数据服务商,专注医疗健康数据资产化服务,数据流通交易服务“一站式”全流程服务。致力于通过技术创新与行业深度融合,推动特定行业数据资产的高效利用与价值最大化。帮助客户构建完善的数据资产管理体系。政策解读与合规咨询服务,优选推荐适合客户情况的数据资产管理平台和工具,检测数据质量,实现数据自动流动的闭环。帮助客户实现数据资源的共享与利用,实现数据资产的最大化利用,促进业务合作与资源共享。
2026年,我们推出以下服务项目
2026 服务升级 | 推出“医院数据资产管理专项服务”,为医院提供从规划到落地的一站式解决方案。我们的服务,精准对应试点五大任务(编制数据资产台账、开展数据资产登记、完善授权运营机制、健全收益分配机制、规范推进交易流通),完成需求对接(深入调研,精准把握医院特色与核心需求)、方案细化( 量身定制,明确服务范围、周期与交付成果)、落地执行( 全程驻场或按需响应,解决实施中一切问题)、总结上报(协助梳理成果,撰写报告,助力医院打造标杆案例)。医院数据资产管理“通关秘籍”,立即联系我们,获取专属定制方案。【业务推广】2026服务升级 | 推出“医院数据资产管理专项服务方案”





