学习笔记 | 论文 | 《基于数据集与场景化的健康医疗数据分类分级创新研究与实践探索》_ 熊劲光
【摘要】目的:基于数据集与场景化的方法和技术,实现健康医疗数据分类分级的有效实践和高效应用。方法:分析健康医疗数据管理面临的问题和需求,探索基于数据集与场景化的健康医疗数据分类分级方法、技术和应用。结果:某三级公共卫生专科医院的电子病历和健康档案数据分类分级实践证明,基于数据集与场景化的健康医疗数据分类分级方法和技术科学有效。结论:基于数据集与场景化的健康医疗数据分类分级方法和技术可以为数据安全、数据流通和数据要素资产化提供合规、高效的基础保障。
【关键词】健康医疗数据;分类分级;数据集;场景化
根据《基于数据集与场景化的健康医疗数据分类分级创新研究与实践探索》文献中提出的方法,并结合“数据要素交易”这一特定应用场景的合规与技术要求。
文档中明确指出,“动态数据来源于静态数据,但它属于组合数据,其类别、安全等级和合规风险也是动态和未知的”。因此,用于交易的数据集构建,是一个 “根据交易目的,从静态数据中按需抽取、组合、并进行合规化处理” 的动态过程。
用于数据要素交易的数据集,其内容应围绕 “高价值、可应用、合规安全” 的原则进行设计。以下是一个以 “职业病(尘肺病)临床疗效与费用分析数据集” 为例的构建说明。
数据类别 | 核心字段(示例) | 主要来源医院信息系统 | 关联文件/注意事项 |
|---|---|---|---|
1. 患者标识与分组信息 | • 匿名化患者ID (由医院生成的唯一、不可逆标识)<br>• 性别<br>• 出生年份(或年龄段)<br>• 职业病诊断名称 (ICD-10编码,如J60)<br>• 疾病分期(如壹期、贰期)<br>• 初次诊断年份 | • 电子病历系统<br>• 病案管理系统 | 此部分为所有分析的索引和分组基础。必须已完成去标识化处理,切断与自然人身份的关联。 |
2. 诊疗过程信息 | • 住院次数<br>• 平均住院日<br>• 主要治疗方式 (如:抗纤维化治疗、肺灌洗)<br>• 合并症数量(Charlson指数等)<br>• 关键实验室检查结果趋势(如肺功能FVC占预计值%) | • 电子病历系统<br>• 实验室信息系统<br>• 肺功能检查系统 | 反映医疗技术和临床路径。检查结果需标准化和结构化。 |
3. 资源消耗与费用信息 | • 住院总费用<br>• 药品费、检查费、治疗费明细<br>• DRG/DIP分组代码与权重<br>• 医保结算类型 | • 医院信息系统<br>• 收费管理系统<br>• 医保结算系统 | 关键价值所在。用于医疗经济学分析、保险产品设计、支付方式评估。 |
4. 关键结局指标 | • 治疗前后症状评分改善情况<br>• 年度急性加重次数<br>• 生存状态(如存活) | • 电子病历系统<br>• 随访管理系统 | 体现疗效和医疗质量,是数据价值的核心证明。 |
5. 职业与环境背景 | • 职业类型 (标准化分类,如“煤矿掘进工”)<br>• 接尘工龄段(如10-15年)<br>• 所在地区(省/市,非精确位置) | • 职业健康监护系统<br>• 公共卫生报告系统 | 提供重要的分析维度,但**“企业名称”、“详细工矿地点”** 等敏感信息必须去除。 |
特别说明:关联文件如 “病案首页”,是上述第1、2、3类信息的核心来源。但在构建交易数据集时,不是直接提供病案首页PDF/图片,而是将其中的结构化数据字段提取出来,按上述分类整合到数据集中。病案首页作为原始凭证,应在医院内部安全存档以备审计。
根据文献中“动态数据”管理和数据安全的要求,用于交易的数据集需要采用专业、合规的存管方式,确保 “数据可用不可见,用途可控可计量”。
存管方式 | 描述 | 优点 | 适用场景 |
|---|---|---|---|
1. 可信数据空间/数据保险箱 | 在医院或第三方可信环境中部署的安全计算容器。数据提供方将数据存入,使用方提交分析模型或查询,在容器内完成计算,只输出结果,原始数据不离开存管环境。 | • 最高等级安全:原始数据不出域。<br>• 用途可控:严格审计所有计算任务。<br>• 符合数据分类分级保护要求。 | • 高敏感性数据(如疗效、费用)的交易与分析。<br>• 商业保险公司的精算模型训练。<br>• 药企的真实世界研究。 |
2. 隐私计算平台 | 利用联邦学习、安全多方计算、可信执行环境等技术,在多方数据不直接归集的前提下进行联合分析。 | • 实现多中心数据的“数据不动模型动”或协同计算。<br>• 进一步挖掘跨机构数据价值。 | • 需要联合多家医院数据进行区域性、全国性分析的项目。<br>• 与科研机构、AI公司的合作研发。 |
3. 数据资产登记存证平台 | 将数据集的元数据(如名称、字段说明、样本量、更新时间、安全等级)、数据指纹(哈希值)和交易凭证在区块链或权威平台进行登记存证。 | • 权属清晰:确定数据来源和版本。<br>• 不可篡改:保障数据真实性。<br>• 交易溯源:记录数据使用流转过程。 | • 所有数据要素交易的必备前置环节。<br>• 用于数据资产入表的价值评估依据。 |
4. 加密与访问控制的数据仓库 | 对于已经过充分匿名化、聚合化处理(如已变成统计报表)的低风险数据集,可采用传统但安全的数据仓库,配以严格的字段级加密和基于角色的访问控制。 | • 技术成熟,性能高。<br>• 适合大规模、低敏数据的快速交付。 | • 提供区域性疾病发病率统计月报。<br>• 提供医院运营效率的聚合指标。 |
通过以上方式,医院能够将内部静态的、分散的医疗数据,转化为可在市场中安全、合规、高效流通并创造价值的数据要素资产。
论文原文:(支持下载)
基于数据集与场景化的健康医疗数据分类分级创新研究与实践探索_熊劲光.pdf
参考资料:(支持下载)
卫生健康行业人工智能应用场景参考指引.pdf卫生健康行业数据分类分级指南试行.pdf








新型数据服务商,专注医疗健康数据资产化服务,数据流通交易服务“一站式”全流程服务。致力于通过技术创新与行业深度融合,推动特定行业数据资产的高效利用与价值最大化。帮助客户构建完善的数据资产管理体系。政策解读与合规咨询服务,优选推荐适合客户情况的数据资产管理平台和工具,检测数据质量,实现数据自动流动的闭环。帮助客户实现数据资源的共享与利用,实现数据资产的最大化利用,促进业务合作与资源共享。
2026年,我们推出以下服务项目
2026 服务升级 | 推出“医院数据资产管理专项服务”,为医院提供从规划到落地的一站式解决方案。我们的服务,精准对应试点五大任务(编制数据资产台账、开展数据资产登记、完善授权运营机制、健全收益分配机制、规范推进交易流通),完成需求对接(深入调研,精准把握医院特色与核心需求)、方案细化( 量身定制,明确服务范围、周期与交付成果)、落地执行( 全程驻场或按需响应,解决实施中一切问题)、总结上报(协助梳理成果,撰写报告,助力医院打造标杆案例)。医院数据资产管理“通关秘籍”,立即联系我们,获取专属定制方案。【业务推广】2026服务升级 | 推出“医院数据资产管理专项服务方案”




