HTTPS部署影响用户行为模型的核心模型迭代逻辑

开放源代码促进会(OSI):为了营销很多大模型“假装”在开源

开放源代码促进会（OSI）指出，当前许多大模型存在“假装开源”的营销行为，其发布的“开源AI定义”明确真正开源的AI大模型需满足训练数据透明性、完整代码公开和模型参数可访问三大核心条件，而市场上多数标榜“开源”的模型均未达标。OSI发布开源AI定义的背景与目的OSI作为全球权威的开放源代码定义管理机构，发现传统开源定义无法适应AI大模型的复杂性。AI大模型不仅包含代码，还涉及大量数据、复杂架构及训练参数，而传统定义未涵盖这些要素，导致适用性不足。例如，训练数据的收集、标注等过程对模型性能影响显著，但传统开源标准未要求公开此类信息。为解决这一问题，OSI于2023年启动开源AI定义（OSAID）制定工作，邀请70人专家组（包括研究员、律师、政策制定者及科技公司代表）协商，最终发布OSAID 1.0版。新定义旨在避免行业对“开源大模型”的过度营销和误解，明确真正开源的标准。图：OSI发布开源AI定义的相关报道OSI对“真正开源AI大模型”的定义根据OSAID 1.0，AI大模型需满足以下三个核心条件方可视为开源：训练数据透明性：必须公开训练数据的来源、处理方式及获取方式，确保任何人能“实质性”重建模型。例如，需说明数据如何收集、标注及清洗，避免因数据不透明导致模型偏见或性能不可复现。完整代码公开：需公开用于训练和运行AI的完整源代码，包括数据处理流程和训练规范。部分模型仅公开部分代码或接口，但隐藏核心训练逻辑，此类行为不符合开源标准。模型参数可访问：需提供模型权重和配置的访问权限。权重是模型训练的核心结果，配置参数（如超参数设置）直接影响模型性能。若未公开这些信息，用户无法完整复现或修改模型。此外，OSAID规定开发者应享有使用、修改和共享模型的自由，无需获得他人许可。这一原则旨在促进社区协作，避免企业通过技术限制或法律条款剥夺用户权利。市场上“假装开源”的大模型现象OSI调查发现，当前市场上标榜“开源”的大模型几乎均“名不副实”，包括Llama和Gemma等标杆产品。这些模型存在以下问题：限制用户权限：Meta和Google宣传的模型虽免费，但限制用户对模型的使用方式（如禁止商业用途或修改核心结构），违背开源的自由使用原则。训练数据不公开：多数模型未公开训练数据集，导致用户无法验证数据质量或复现训练过程。例如，某些模型仅提供数据摘要，但隐藏具体来源和处理方法。关键信息缺失：国内市场曾爆发“大模型开源闭源”之争，某企业负责人指出，部分“开源大模型”未公开训练源代码、预训练和精调数据等关键信息，导致社区开发者无法参与优化，模型性能提升受限。Hugging Face应用政策研究员Avijit Ghosh表示，将大模型描述为“开源”可能误导用户认为其更可信，但实际并非如此。独立研究员Simon Willison称，新定义有助于抵制“开源洗白”（open washing）行为，即企业通过模糊表述宣称模型开源，实则未满足标准。闭源模型更适合商业化的观点部分企业认为，闭源模型更适合商业化。原因包括：技术控制：闭源模型可隐藏核心算法和数据，防止竞争对手复制，维护技术优势。商业利益：通过限制模型使用方式（如付费授权或定制服务），企业可直接获得经济回报。应用效率：开源模型因关键信息缺失，企业难以迭代优化，导致应用效率低下。而闭源模型可提供完整技术支持，满足企业场景需求。然而，这一观点存在争议。支持开源者认为，长期来看，开源模型能通过社区协作快速迭代，降低开发成本，最终更利于商业化。OSI的新定义或推动行业向真正开源转型，减少营销误导。