博客
一文看懂开源许可证：大语言模型和向量数据库入门指南

一文看懂开源许可证：大语言模型和向量数据库入门指南

2024-08-06

By Zilliz

开源软件的概念在科技行业已经流行了几十年。然而，开发者和企业仍然需要更清晰地了解不同许可证的含义和限制。本指南将解析与人工智能技术特别相关的开源许可证，例如向量数据库和大语言模型（LLMs）开源许可证。

开源意味着创作者将软件、硬件甚至是大语言模型免费提供给社区使用。开源项目通常由社区中来自不同公司的开发者共同努力开发和维护。产品或软件的许可证类型明确规定了可以如何使用不同的开源产品。

突发变更软件项目的开源许可证可能会给使用开源软件搭建产品和应用的公司或企业带来严重损害。因此，行业从业人员需要了解各种不同的开源许可证。

#开源向量数据库和大语言模型的好处

向量数据库

诸如 Milvus（基于 Apache License 2.0 开发和运营）这类的开源向量数据库是 AI 生态系统中的重要一环。将向量数据库开源的好处是可以为开发者提供快速设计和搭建原型的解决方案，将搭建新应用的成本降至最低。由于开源向量数据库代码仓库可公开访问，因此开发者和企业可以详细审查其工作方式，以确保向量数据库符合企业计划和标准。这能够帮助用户更好地决定如何将开源向量数据库整合到其应用中。以 Milvus 开源向量数据库为例，该项目是由 Zilliz 及 Milvus 社区用户共同合作开发的。社区中的每个人都能共享 Milvus 合作伙伴 NVIDIA、IBM、SalesForce 和其他企业或组织提供的内容和专业知识，并从中受益。

大语言模型

开源大语言模型（LLM）在过去一年中爆火，越来越多企业和开发者都在使用 LLM。但是， OpenAI GPT 这类 LLM 完全为 OpenAI 这一家公司所拥有，仅面向购买许可证的客户开放使用。而且许可证上通常还规定了对 LLM 的使用限制。相比之下，开源 LLM 面向所有人，人人都可自由、无限制地使用、修改或发行。

开源 LLM 的好处是任何开发者和研究人员能够自由地使用、修改或优化模型。开源后，用户可以以更低的成本使用 LLM。此外，开源 LLM 还能降低模型开发和 ML 研究的门槛。开源大语言模型支持在公司的数据基础设施中部署，有效减少将私人数据暴露给外部的风险（例如被外部公司或竞争对手控制模型的风险）。此外，开源 LLM 的另一个好处是，社区用户会为针对特定用例调整、优化和增强 LLM。

开源许可证的范围

开源许可证有多种类型，每种类型都有自己的一套权限、限制和要求。对开发者和用户而言，理解每种许可证的含义能够帮助他们更好地遵守许可证规定和条款。

以下是一些常见的许可证类型：

宽松许可证（Permissive License）

宽松许可证允许用户在极少的限制下使用、修改和分发软件。典型示例包括：

MIT 许可证：几乎无限制地允许用户使用、修改和分发软件，要求极少。
BSD 许可证：与 MIT 许可证类似，允许用户几乎不受限制地使用软件，但要求与 MIT 略有不同。
Apache 许可证：允许用户在某些限制条件下使用、修改和分发软件。

强著佐权许可证（Copyleft License）

这类许可证要求用户修改后或衍生的项目也必须按照原始软件的许可证条款分发。典型示例包括：

GNU 通用公共许可证（GPL）：要求任何衍生作品都必须按照相同的 GPL 条款分发，确保修改保持开源。
GNU 较宽松通用公共许可证（LGPL）：GPL 的修订版本，允许用户在特定条件下与非 GPL 软件链接。
Mozilla 公共许可证（MPL）：允许在 MPL 或任何兼容许可证下进行修改和分发。

弱著佐权许可证（Weak Copyleft Licenses）

这些许可证要求只有被修改的软件部分必须按照原始软件的相同许可证条款分发。典型示例包括：

GNU Affero 通用公共许可证（AGPL）：基于 GPL 扩展的许可证，专为网络/服务器软件设计，要求向与软件通过网络交互的用户分发源代码。

非商业许可证（Non-Commercial Licenses）

这些许可证限制软件的商业用途。典型示例包括：

Creative Commons 非商业许可证：知识共享协议，允许以非商业用途使用、修改和分发创作软件。

公共领域（Public Domain）

一些开发者选择将他们的软件发布到公共领域，以表示放弃对软件的所有权。这类软件的用户可以自由地使用、修改和分发软件，没有任何限制。

监管机构和社区

有几个关键组织在监管开源许可证标准方面发挥着至关重要的作用，从而确保遵循开放性、透明性和协作的基本原则。其中，两个最突出的组织就是开源倡议组织（OSI）和自由软件基金会（FSF）。

OSI 维护开源定义，这是软件许可证必须满足的一系列标准，满足后才被视为开源。OSI 会评估并批准符合这些标准的许可证，维护开源社区规则的一致性和清晰度。

FSF 则推崇软件自由并推广使用如 GNU 通用公共许可证（GPL）这样的许可证。

Apache 软件基金会（ASF）是另一个在开源许可证标准治理中扮演重要角色的关键组织。ASF 主要以开发广泛使用的软件项目如 Apache Hadoop 和 Apache Kafka 而闻名，它提供了一个开放和去中心化发展的框架，并采用宽松的许可模型。Apache 许可证允许用户以商业目的灵活使用软件，前提是用户需确保衍生作品保持开源。

此外，社区治理在塑造许可政策和实践中至关重要。开源项目通常有社区驱动的决策过程，贡献者和利益相关者在共同探讨并决定许可证相关事宜。社区参与有助于维护开源生态系统内的互信、透明度和共识，促进创新和增长，同时保持开源软件的完整性。

开源许可的开放度

不同许可模型固有的开放程度影响了 AI 开发中的合作、创新。宽松许可证鼓励更多社区贡献者参与，促进软件快速迭代和发展。相比之下，copyleft 许可证优先保护开源理想，以牺牲更广泛的采用为代价防止商业利用。

近期许可证争议

像 Redis 和 HashiCorp 这样的 AI 技术提供商变更了许可模型，从而引发了关于可持续性和伦理的争议。这些公司变更许可证的动机是出于稳定收入流及补偿软件开发者做出的贡献。但是变更许可证时需要微妙平衡促进创新与保护开源合作的原则。

公司更改其开源项目的许可证时，会对基于该开源代码构建产品的用户和企业造成困扰。假设一家提供开源软件的公司突然关闭源代码或使用具有更多限制的许可证，那么利用最后一个开源版本代码的企业就不得不承担维护代码和开发新功能的重担。

为何许可证在 AI 领域至关重要

许可证不仅仅是一种法律形式，它可以决定 AI 技术的发展轨迹。许可证控制着可访问性、适应性和公平分配，从而塑造了 AI 生态系统。平衡知识产权（IP）保护与促进 AI 领域的合作之间的关系，对于推动创新和确保包容性至关重要。

当前，人工智能行业正以惊人的速度扩张。新技术、新用途甚至新公司每天都在涌现，每个人似乎都急于加入这一热潮。随着这种快速创新和市场竞争愈演愈热，我们可以发现更多企业采用开源代码来加速开发过程并通过广泛的合作进行创新，但我们也能同时看到一部分公司为了试图保护知识产品和增加收入突发变更开源许可证。

结论

开源许可证是 AI 中协作开发和创新的基石，定义了开源软件访问、使用和分发的边界。面对纷繁复杂的许可证模型，我们应当积极学习了解各种许可证类型，从而塑造一个 AI 技术服务于集体利益的未来。只有拥抱开放合作的精神，我们才有机会创造一个更具包容性和可持续性的 AI 生态环境。如需了解更多关于 Zilliz 对开源许可限制的看法和我们的开源态度，请点击此处阅读更多信息。