学习笔记|人大人工智能治理研究院“人工智能治理沙龙”:大模型训练数据的使用规则研究
会议主题:大模型训练数据使用的法律规制、市场失灵理论应用及规则完善探讨。会议简介:在大模型技术迅猛发展的当下,海量数据需求与现行个人信息权益、知识产权及数据权益保护制度间的冲突日益凸显。由于权利主体分散、交易成本高昂,开发者往往难以通过市场机制合法获取训练数据,由此引发诸多法律纠纷。本次沙龙以市场失灵理论为切入点,探讨如何通过合理的制度设计纠正大模型训练数据市场中的失灵现象,建构兼顾激励创新、保障权益与促进流通的使用规则。报告人:李铭轩(中国人民大学交叉科学研究院、高瓴人工智能学院博士后)主持人:王福玲(中国人民大学哲学院副教授、人工智能治理研究院研究员)大模型开发面临合同约束(如网页服务协议禁止爬取、API协议禁止用于竞争性模型训练)。现有规则在保障数据安全、维护个人尊严及公平激励创作者方面具有合理性,但也带来了高昂的交易成本,可能阻碍创新。核心矛盾在于权益主体激励与技术创新鼓励之间的平衡,本质是效率问题。
引入温迪·戈登(Wendy Gordon)提出的“市场失灵”理论,将合理使用视为应对著作权市场失灵的法律手段。
- 理想市场条件低交易成本下,资源通过交换配置给能发挥最大效用者,实现社会利益最大化。
- 外部性:使用者行为产生未内化的社会价值(如科研正外部性),导致市场动力不足。
- 交易成本:大模型训练涉及海量数据源(如Common Crawl涉及千万级网站),一对一谈判搜索、议价及监管执法成本极高。
李老师将现有数据使用模式归纳为四类,并基于市场机制与法律介入进行类型化分析:
1. 开放共享模式
- 特点:基于开源许可证(如Common Crawl),面向不特定公众免费开放。
- 问题:高质量数据占比低;中文开放数据少于英文;合法性存在不确定性(可能包含他人权益数据,超出许可范围)。
- 一对一授权:交易成本极高,难以应对海量分散的权利主体。
- 劣势收益微薄且无累加性(一次性训练 vs 多次播放);行政成本高;数据类型多样导致管理复杂;可能形成竞争壁垒,引发国际间的“创新套利”。
- 特点:无需事前许可,但需事后支付由官方或法院确定的报酬。
- 问题:依赖集体管理机制;许可费确定困难(过低激励不足,过高阻碍创新);我国现行法定许可类型有限,难以覆盖大模型场景。
- 现状:我国著作权合理使用类型有限;个人信息合理使用范围不清;数据财产权益缺乏明确规范依据。
- 明确产权边界:推进数据确权,特别是数据集合的财产权属性。
- 完善集体管理制度:探讨引入延伸性集体管理制度,即在权利人未明确反对的情况下,允许集体管理组织代为谈判,解决大规模授权难题。
- 个人信息:结合识别过滤成本、信息类型、主体意愿及损害程度进行合理性判断。
- 著作权:利用“四要素法”(使用性质、作品性质、使用数量质量、对市场影响),通过司法裁量认定转换性使用等新型合理使用。
- 数据财产权益:通过限制性解释一般条款或类推适用著作权法规则,为训练留出空间。
- 伦理与效率冲突:质疑为何以“社会整体福利”牺牲个体权益人的意愿(如数据对持有人价值高于开发者时)。
- 模式维度重构:建议按数据“公开/非公开”或“盈利/非盈利目的”重新分类探讨规则。
- 集体管理性质:询问集体管理组织的官方/非官方属性,以及社区治理规则(如开源社区协议)与国家法律规则的协调关系。
- 关于社会整体福利:区分可让渡的经济利益与不可让步的人格/生命健康利益。对于纯经济利益,可通过二次分配(如征税、补偿机制)解决公平问题。
- 关于分类维度:授权使用既涉及公开也涉及非公开数据;合理使用不仅限于非盈利,盈利性的“转换性使用也可构成合理使用。
- 社区规则能否排除法律规则取决于是否剥夺了公共利益空间。若社区规则更有效率且不损害公共政策目标,可承认其效力;若通过格式条款不当扩张私权排除合理使用,则应认定无效。
- 包老师补充:数据空间(Data Space)旨在解决信任与控制力问题,而非无条件共享;欧盟访问权与数据空间属不同制度范畴。
- 同学提问:关注生成阶段的责任分配及垄断数据主体的强制缔约义务。
- 李老师补充回应:生成阶段责任分配应遵循“风险最小化原则”,将责任施加给能以最低成本防范风险的主体;同时可探索保险等风险分散机制。
会议围绕大模型训练数据的法律规制展开,确立了以“市场失灵理论”为基础的分析框架,指出了现有四种使用模式的局限性,并提出了完善市场环境规则与补充规则的具体路径。讨论进一步延伸至伦理正当性、集体管理制度革新及社区自治与法律强制的边界问题,为后续研究提供了多维度的思考方向。
中国人民大学人工智能治理研究院人工智能治理沙龙”大模型训练数据的使用规则研究“。 [法律推理、数据建模、逻辑论证、数据分析、语义建构] 法学交叉爱好学习者的平台