开放源代码促进会(OSI)指出,当前许多大模型存在“假装开源”的营销行为,其发布的“开源AI定义”明确真正开源的AI大模型需满足训练数据透明性、完整代码公开和模型参数可访问三大核心条件,而市场上多数标榜“开源”的模型均未达标。OSI发布开源AI定义的背景与目的OSI作为全球权威的开放源代码定义管理机构,发现传统开源定义无法适应AI大模型的复杂性。AI大模型不仅包含代码,还涉及大量数据、复杂架构及训练参数,而传统定义未涵盖这些要素,导致适用性不足。例如,训练数据的收集、标注等过程对模型性能影响显著,但传统开源标准未要求公开此类信息。为解决这一问题,OSI于2023年启动开源AI定义(OSAID)制定工作,邀请70人专家组(包括研究员、律师、政策制定者及科技公司代表)协商,最终发布OSAID 1.0版。新定义旨在避免行业对“开源大模型”的过度营销和误解,明确真正开源的标准。图:OSI发布开源AI定义的相关报道OSI对“真正开源AI大模型”的定义根据OSAID 1.0,AI大模型需满足以下三个核心条件方可视为开源:训练数据透明性:必须公开训练数据的来源、处理方式及获取方式,确保任何人能“实质性”重建模型。例如,需说明数据如何收集、标注及清洗,避免因数据不透明导致模型偏见或性能不可复现。完整代码公开:需公开用于训练和运行AI的完整源代码,包括数据处理流程和训练规范。部分模型仅公开部分代码或接口,但隐藏核心训练逻辑,此类行为不符合开源标准。模型参数可访问:需提供模型权重和配置的访问权限。权重是模型训练的核心结果,配置参数(如超参数设置)直接影响模型性能。若未公开这些信息,用户无法完整复现或修改模型。此外,OSAID规定开发者应享有使用、修改和共享模型的自由,无需获得他人许可。这一原则旨在促进社区协作,避免企业通过技术限制或法律条款剥夺用户权利。市场上“假装开源”的大模型现象OSI调查发现,当前市场上标榜“开源”的大模型几乎均“名不副实”,包括Llama和Gemma等标杆产品。这些模型存在以下问题:限制用户权限:Meta和Google宣传的模型虽免费,但限制用户对模型的使用方式(如禁止商业用途或修改核心结构),违背开源的自由使用原则。训练数据不公开:多数模型未公开训练数据集,导致用户无法验证数据质量或复现训练过程。例如,某些模型仅提供数据摘要,但隐藏具体来源和处理方法。关键信息缺失:国内市场曾爆发“大模型开源闭源”之争,某企业负责人指出,部分“开源大模型”未公开训练源代码、预训练和精调数据等关键信息,导致社区开发者无法参与优化,模型性能提升受限。Hugging Face应用政策研究员Avijit Ghosh表示,将大模型描述为“开源”可能误导用户认为其更可信,但实际并非如此。独立研究员Simon Willison称,新定义有助于抵制“开源洗白”(open washing)行为,即企业通过模糊表述宣称模型开源,实则未满足标准。闭源模型更适合商业化的观点部分企业认为,闭源模型更适合商业化。原因包括:技术控制:闭源模型可隐藏核心算法和数据,防止竞争对手复制,维护技术优势。商业利益:通过限制模型使用方式(如付费授权或定制服务),企业可直接获得经济回报。应用效率:开源模型因关键信息缺失,企业难以迭代优化,导致应用效率低下。而闭源模型可提供完整技术支持,满足企业场景需求。然而,这一观点存在争议。支持开源者认为,长期来看,开源模型能通过社区协作快速迭代,降低开发成本,最终更利于商业化。OSI的新定义或推动行业向真正开源转型,减少营销误导。



































