AI全产业链及各环节可能涉及的法律问题
随着人工智能慢慢走进日常工作与生活,AI相关产品早已遍布各行各业。想要搞懂AI产业全貌,我们可以沿着数据采集—模型训练—落地应用这条数据流梳理,用人类学习成长的逻辑做类比,轻松看懂产业链各个环节;同时就全链条每个阶段可能涉及的问题问题进行提示(具体法律细节后续单独撰文详解)。
一、上游:数据采集与预处理|好比搜集、整理学习素材
数据是AI运转的基础原料,没有足量、优质的数据,人工智能就没办法完成深度学习、实现智能化。这个环节主要分为两步:先是从互联网公开信息、各行各业生产经营数据、AI产品日常使用产生的反馈数据三个渠道收集海量原始数据;再对杂乱无章的原始数据做清洗、格式统一、内容筛选等预处理,筛选出能够投入模型训练的有效数据。
类比人类学习:各类原始数据,就如同人类从古流传下来的典籍、建筑、历史见闻等客观信息;繁杂信息里有有用内容,也有难以解读的无效信息,数据预处理就像人们筛选有用知识、剔除无用信息,把零散内容梳理成方便学习吸收的资料,是后续深度学习的前提。
可能涉及法律问题:主要面临数据来源合规、著作权侵权、不良数据准入、数据恶意投毒等法律问题。
二、中游:算法搭建与大模型训练|如同构建大脑、沉淀人生经验
如果数据是AI的学习资料,算法和模型就是AI的“大脑本体”。算法是处理信息的运行规则,模型是承载算法的框架。行业从业者先搭建基础算法和模型雏形,再用上一环节处理完毕的数据反复训练调试,不断优化参数,最终打磨出可以落地使用的成熟大模型。
类比人类学习:算法对应人类与生俱来的本能,比如趋利避害、注意力筛选、联想归纳,再加上后天习得的逻辑推理、总结归纳等思维方式;人体先天发育成型的大脑结构,对应AI初始模型框架;依托海量数据持续训练模型,就像人读书、经历世事,在历练中积累知识与处事经验;模型蒸馏类似资深老师傅提炼毕生精华,编成精简教科书,后辈靠这本精简教材快速掌握核心本领。先天条件、后天经历的差异造就人与人能力不同,同理,算法设计、模型框架、训练数据的区别,也决定了不同大模型的能力上限。
可能涉及法律问题:集中在著作权合理使用界定、模型研发主体责任划分、基础训练素材合规性、蒸馏过程中的知识窃取与数据侵权相关法律争议。
三、下游:AI产品落地与内容生成|学以致用,落地产出新成果
经过训练的成熟模型,会被封装成各类AI产品面向大众使用,主要分成两大类型:一类是处理式AI,依托已有信息做整理、转换、分析加工,不生成原创内容;另一类是生成式AI,接收用户指令后,依托模型学习到的海量知识,自主生成原文不存在的文案、图片、音频、视频等新内容,也是当下大家接触最多的AI形式。
在产品实际运营阶段,一方面很多服务提供商会基于商用需求,继续对落地后的模型做二次蒸馏、轻量化改造;另一方面下游同样存在隐蔽的数据投毒风险:不法分子不用篡改原始训练库,借助用户交互输入、外挂知识库投毒、提示词注入、虚假内容批量投放等方式污染AI实时调取的参考素材,比如批量编造虚假商品测评植入网络,AI检索学习后就会给出错误推荐,也就是业内常说的应用侧投毒、检索库投毒。
类比人类学习:处理类AI,类似于人凭借自身学识改造、整理现有物品与信息;生成类AI,则和人类发挥主观创造力、发明新产品、创作原创作品的过程一致;落地后二次蒸馏好比人学会本领后,再提炼精简方法传授给其他人;下游投毒就像有人故意在工具书、日常参考资料里偷偷写入错误知识点,人查阅参考后容易被误导、做出错误判断。
可能涉及的法律问题:涉及内容安全管控、AI生成内容版权归属、肖像声音等人身权益保护、违规AI工具整治、AI生成内容强制标识、利用AI实施违法犯罪、应用端数据投毒治理、模型蒸馏带来的知识产权盗用等多项法律问题。
小结
整条AI产业链,刚好对应人类搜集资料→打磨思维与认知→实践创新的完整成长路径。从源头的数据获取,到中间模型研发、知识蒸馏压缩,再到终端产品落地使用与持续迭代,全流程都绕不开法律规范约束,投毒风险也贯穿上下游全链路。需要明确的是,AI只是技术工具,机器自主生成内容不能成为相关主体规避法律责任的借口,研发方、运营方、使用者都需要在法律框架内使用人工智能。如何平衡原创权益保护与AI技术创新,也是现阶段法律实践持续探索的重点。
(本文作者:盈科李兆岭律师 来源:微信公众号 盈科知产)