邱政谈:AI训练数据商业法律部分观察
作者:邱政谈 上海融力天闻律师事务所
引言
AI能力三要素:算法、算力、数据
算法是AI系统的大脑,算法的设计和选择对AI系统的性能有着决定性的影响,比如以ChatGPT为代表的人工神经网络架构在流派众多的人工智能领域异军突起,GPT路线在大模型方向上完全占据主流。[1]强大的算力可以加速模型的训练过程,处理更复杂的算法和更大的数据集,使AI系统能够更快地进行训练和推理以获得更优能力。数据是人工智能系统的原材料,高质量、多样化的数据对于训练有效的AI模型至关重要,数据的量和质直接影响模型的准确性和泛化能力。
同时,OpenAI还提出了“规模法则”(Scaling Law):随着数据量、计算资源或模型规模的增加,AI系统性能的提升趋势和模式。按照这个法则,人们相信数据和算力的不断累积投入,可以不断提升AI系统的能力,这也是当前大模型互卷的一个重要原因。但由于算力受限于现实的硬件及能源,模型企业另一个重点争夺的领域即是AI训练数据。
国内对于scaling Law的看法分为两派,市场信仰派朱啸虎(认为Scaling Law失效)、技术信仰派杨植麟(认可Scaling Law)。杨植麟第一性原理是增加模型压缩比通向AGI,不断Scaling不断压缩。而朱啸虎不建议卷模型能力、算力,觉得开源就够,应该卷应用,同时认可专有领域的数据是AI企业的护城河,在开源模型预训练的基础上进行专有数据的强化训练,可以产生垂类模型应用能力的巨大差异。所以不论是技术信仰派还是市场信仰派,都认为数据都很重要。
OpenAI一位员工提出一个观点:所有模型在同样的数据级上,不同架构模型在同样的数据级收敛在一个点,现在发布的点都是收敛的情况下,决定模型能力的其实就是数据,每个模型不代表自己的模型架构,也不代表自己的训练过程,只代表了原始数据的质量。[2]故而现在存在一个很强的非共识是,不同的大模型利用相同的数据进行训练,最终模型能力会无限趋同。