《意见》围绕档案行业应用需求,从基础能力建设、应用场景赋能、关键技术供给、创新模式应用等方面,细化明确了工作重点和方向,对部分共性难点问题指明了解决方向。
1.针对高质量档案数据集建设问题
高质量数据语料是深度应用人工智能的基座,没有数据就没有智能应用,数据质量不高、语料遭到污染,就会影响大模型判定结果,发生算法幻觉,产生安全风险。要坚持“存量数字化”战略,继续开展档案数字化工作,把馆藏纸质档案转化为档案数字化成果,按照标准规范要求,建设档案目录数据库,做好目录与前文挂接,确保目录数据质量和数字化成果质量。要推进档案数字化成果OCR识别,加快非结构化档案数据转为结构化数据,加强重要档案的文字、语音、图像识别工作力度,应用人工智能技术提升识别效率和质量。要加强档案数据质量管理,要做好档案数据收集,开展数据清洗、去除掉多余数据,形成具备数据完整性、准确性、安全性、可追溯性等特征,并且具有文字、视频等多模态的高质量档案数据集。
2.针对档案业务典型应用场景建设问题
业务场景创建的质量决定了档案业务与人工智能技术融合的质效。《意见》坚持需求导向,以档案工作需求为牵引,针对档案收集、管理、保存、利用等大业务环节,提出人工智能业务场景建设方向,明确了10余个典型场景应用方向。要求不断深化数据分析、深度学习、多模态、知识图谱、大模型等新技术应用,深化档案整理、档案著录、档案脱密脱敏、数据清洗、开放审核、档案编研、档案检索、专题库构建、影像档案修复、档案知识问答等典型应用场景建设,更好赋能档案业务发展。鼓励在现有实践基础上进一步创新丰富档案业务场景,推动档案业务全过程数智化建设,将单点场景进行整合,实现整体性、系统化场景构建,覆盖档案业务全过程、各方面。
3.针对档案部门建设使用算力等资源问题
国家正在推进建设全国一体化算力网,整合算力、数据等基础设施,各级档案部门要抓住机遇,争取算力资源,鼓励探索人工智能基础设施共建共用新模式,支持有条件的单位建设档案智能算力平台,向档案部门提供算力支持、模型训练、语料处理和推理研究等服务。要在确保档案数据安全的前提下,规范使用云算力资源,使用人工智能云算力服务时,要符合档案部门使用政务云等政策的要求。在部署人工智能应用时,未经档案部门授权,不得私自访问、修改、披露、利用、转让、销毁档案数据。同时明确了档案部门的安全底线,即不得将档案数字资源总库部署在非自建算力平台上。
4.针对人工智能算法安全管控问题
《意见》要求各级档案部门要加强算法安全风险的思想认识,开展人工智能应用时,应按照相关部门风险监测和安全预警信息,及时做好算法安全风险排查,查漏补缺、防患未然。要加强人工智能算法备案情况审核,做好相关应用的合规性审查,查看是否通过工信、公安、保密等部门的准入审批,做好应用上线前和使用过程中算法漏洞、数据泄露、数据污染、后门嵌入等风险防范。重视人工智能算法安全伦理风险研判,对潜在负面影响开展预见性风险评估。
5.针对档案数据安全管理问题
《意见》坚持底线思维,高度重视安全问题,对档案数据安全管理提出了明确的禁止性要求。针对人工智能应用时,需调用大量档案数据开展语料投喂、模型训练、关联分析、数据挖掘等操作中存在的安全风险隐患,提出防范失泄密管理要求。通过制定完善保密管理制度,规范人工智能技术选型、部署、训练、使用、废止等全过程保密管理。采取技术措施,对档案数据进行筛查,拦截涉密敏感信息,严禁将涉密档案、敏感档案数据用于开放大模型训练。防止档案数据被非法获取、篡改和泄露,防止未经审核审批开展多维度档案数据的交叉关联、深度挖掘,防止数据汇聚、关联引发的泄密风险。同第三方合作开发人工智能场景时,不得将档案数据用于测试。
6.针对人工智能应用支撑保障问题
《意见》要求加强统筹协调,强化组织实施,夯实保障支持措施,形成上下联动的工作格局,推动人工智能应用落到实处、取得实效。要加强科研支撑,整合科研机构、高等院校、企业的技术优势和资源,对人工智能应用的基础模式、关键技术、核心算法、业务场景等开展研究攻关,推动人工智能档案应用算法模型创新,加快模型研发和推广。要审慎评估档案业务应用人工智能的必要性,应注重场景、模型、算力兼容适配,推动大模型能力复用,尽量使用轻量化解决方案避免为“追热点”而盲目投入,造成资源浪费。