发布时间:2023-05-12
4月20日,由中国人民大学高瓴人工智能学院和中国人民大学国家版权贸易基地共同举办的“AIGC内容生态与版权保护论坛”在京举行。会上,对外经济贸易大学法学院副教授张欣发表题为“AIGC的技术认知和法律风险”的主旨演讲。以下内容根据张欣教授发言整理形成。
张欣发言图
一、AIGC的技术认知
纵观全球AIGC产业链,各大公司从几年前就有大语言模型的布局。现在全球AIGC赛道中,崭露头角的公司大部分集中在美国,还有少部分在德国、新加坡等。相比之下,中国虽然有自己的大模型布局,但缺乏估值高、前景好的公司。各国不约而同地意识到,以ChatGPT为代表的通用预训练大模型在国际科技竞争中已成为兵家必争之地。
从AIGC背后的AI分析技术生产原理有两条线值得关注:
一是信息生产模式的变迁。从专业生产内容(PGC),到用户生产内容(UGC),再到AI辅助信息生产,再到现如今的AIGC,AI作为真正的生产主体开始进行内容生产。在国家网信办公布的《互联网信息服务算法推荐管理规定》中,推荐算法曾经非常引人关注。推荐算法之所以强大,是因为其不断压低了人类在信息分发中的边际成本,并无限接近于最小单位。但信息分发不等于信息生产,与推荐算法有所不同,AIGC在无限向前推进知识生产的边际成本,这就会导致版权、专利权等一系列问题。
二是技术架构中数据、算法、算力都面临很大的制约或挑战,包括监管和制度生态。
首先是数据层面。在模型和算法之间差距甚微的情况下,预训练的数据集会存在较大差距,即训练模型生产高质量信息内容,需要优质的结构化数据支持。此外,预训练的数据语料库是非常重要的研发壁垒之一。ChatGPT已有人工智能技术产品的先发优势,越来越多用户会在运用过程中不断贡献数据,反哺模型,并形成数据飞轮优势。海量的数据“喂养”可以补齐边缘场景,获取更优质的数据后就可以实现模型的进一步优化和迭代,提升模型性能。
其次是算法层面。从GPT-1到GPT-4,ChatGPT的模型训练中海量数据“喂养”不可或缺,此外还包括巨量的参数和极致调优的算法模型。据悉GPT-3.5的参数量是1750亿,GPT-4未公布参数量,但据预测其将会是一个更高的参数级别。
随着商业化落地速度不断加快,生成式人工智能之后将会应用于各个场景和垂直领域。ChatGPT表面上是一个聊天机器人,其实背后对整个人工智能的行业来说,是一个能起到“技术底座”作用的新型基础设施。
ChatGPT的发展真正令众科技企业焦虑的是企业API(应用程序编程接口)供别人调用和开放插件。OpenAI正在构建自己的AI生态帝国,并为各方提供发展路径,一旦产生路径依赖,控制权即归属于Open AI。OpenAI也在积极推动商业化场景落地,包括AI绘画、AI文本生成、定制化ChatGPT等。
最后是治理层面。ChatGPT背后是一个基于自然语言处理的预训练大模型,而自然语言是人类特有的智能,此谓人工智能学界“得语言者得天下”之深意。以ChatGPT为代表的预训练大模型具有非常重要的技术意义,能够推动社会变迁。
二、AIGC的法律风险
(一)数据层风险
1.数据质量风险
一是标注数据质量。ChatGPT使用语料库中的数据必须进行数据预处理,其中可能涉及数据标注。数据在标注过程中会不断进行验证,但仍无法完全消除由人工标注所引发的歧视和偏见。《生成式人工智能服务管理办法》征求意见稿中明确了生成或研发主体需要具有非常清晰明确的标注规则,包括对标注的评估,并要求各主体进行全过程风险防控。
二是预训练语料库的多样性不足。ChatGPT的预训练数据模型中,英语占96%,其他语种占4%,中文不足1%,主要彰显了西方的价值观,因此中国需要在语料库中训练基于中文语料库的大模型。
三是数据时效性和内容生成的可靠性。过去的训练数据无法以“打补丁”方式再重新进行训练。一个拥有巨量参数的模型进行再训练,就可能会出现灾难性遗忘等问题。固然现有技术可以在一定程度上缓解此类问题,但避免数据遗忘仍是一项相当大的挑战。因此ChatGPT在和New bing结合的过程中,由New bing信息帮助其弥补这一落差,但实际上两者结合并未达到理想状态,在生成内容的可信性、时效性等方面都存在问题。
2.数据安全风险
一是抵御攻击性差。和中小模型相比,参数过于巨量的大模型反而比较脆弱。有学者提出可以运用提示语进行攻击,包括运用预训练的语料库进行反向攻击。倘若预训练时模型足够大,AI记录所有的数据信息,而且AI在爬取公共网页信息并进行排列组合时还可能生成其他敏感信息,在此情况下,ChatGPT模型可能记录这些信息,甚至可以通过反向攻击提取到大模型中个人相关的敏感信息。针对这一弱点,目前并没有很好的技术解决办法。
二是交互使用敏感信息获取。以近期三星公司信息泄漏事件为例,三星的技术人员用ChatGPT查找自己程序中的BUG和优化BUG,但在使用过程中,三星公司的数据已实时传输到ChatGPT的服务器上。由此可见,交互使用中敏感信息获取、泄露是生成式人工智能技术使用过程中的一大风险。
三是公开信息爬取的隐私利益侵犯。在预训练大模型中,包含个人信息的数据需要获得个人用户同意,实际上存在一定难度。比如,在美国有人爬取了发布在网站上的照片,并形成一个人脸识别数据库,进行人脸识别,如果爬取了个人公布的信息就有可能侵犯对方的个人隐私合理预期和相关利益。
(二)算法层风险
1.算法透明
算法透明度低,参数量巨大,可解释性受限。但无论是欧盟、美国还是中国,算法治理框架中基于可解释性或者基于算法透明度的治理是非常重要的构成路径,因此未来针对算法透明度的治理于我们而言极具挑战性。
2.算法安全风险
目前,GPT-4在算法安全层面很多问题已迎刃而解,但并没有更多大的进展。据研究显示,ChatGPT-4已具备了9岁儿童的心智能力,这意味着ChatGPT涌现出了很多无法控制的能力。斯坦福大学最新研究显示,利用ChatGPT给25个人工智能体进行角色定制,让他们在小沙箱中生活,这些人工智能可以像人类一样互动和生活。
3.算法归责风险
算法归责对生成式人工智能的治理是非常大的挑战,一旦产生风险无法进行责任认定。
一是责任主体范围扩展。生成式人工智能产业链条变革模式下,人人都是程序员的时代提前到来。未来可能是云上协同部署,生产大模型且具有技术影响力的主体,并不一定是在垂直领域中进行模型部署的主体,但在垂直领域面向用户去互动部署的主体可能仅是微调了模型,并不一定真正对此技术有终局影响力。所以在此情况下,如果仅抓住平台这个责任主体,认定责任将变得更加困难。
二是非物质性妨害救济和归责难题。这一问题不仅存在于生成式人工智能领域,在个人信息保护领域中也常有出现。大量的个人信息保护案例中,因缺乏可以量化的请求和支持,当事人的请求赔偿额往往极低。未来,对ChatGPT的生成内容而引发的非物质性定量损害的认定同样存在此类困境。
(三)应用层风险
1.信息内容治理层面风险
我国在使用ChatGPT的过程中,已出现了相应的信息内容治理风险。如杭州某小区业主在业主群发布了一篇由ChatGPT生成的政府新闻稿,由于新闻稿书写得极其逼真,导致广大市民信以为真,一时间谣言四起。因此,生成式人工智能在信息分发、知识生产的边际成本变低时,人类对信息的编辑和控制能力也在不断消解。
此外,ChatGPT生成内容质量良莠不齐,会对缺乏判断力的未成年人构成威胁。根据ChatGPT的隐私政策,未满13岁的儿童不得使用ChatGPT,且用户可以要求删除13岁以下儿童的个人信息。但关于如何保护13-18岁未成年人的利益,ChatGPT在现阶段并未采取任何声明和措施。
2.可版权性困境
ChatGPT是在大量不同数据集上训练出来的大语言模型,使用受版权保护的材料来训练人工智能模型,ChatGPT的文本数据挖掘技术可能导致其在他人享有著作权的作品中“借鉴”部分内容。对于这部分内容,若不能构成 “合理使用”的情形,则可能引发侵权纠纷。
20世纪初,埃米尔·博雷尔在其概率论著作《统计力学和不可逆性》中提到了“无限猴子定理”,即给每个猴子分发一台电脑或键盘,让猴子不断进行击打和敲击键盘工作,有无限只猴子用无限的时间会产生特定的文字内容。纵然猴子无法理解文字的意义,但不可否认其生成内容具有一定的创新性。
例如泰勒诉维达尔案中,原告泰勒主张人工智能可以被解释为“人”,因此人工智能生成作品可以获得专利权。但法院在论证过程中,使用了大段篇幅论证为什么发明者不能包括人工智能,并聚焦于在人工智能时代如何认定一个人为“人”。该案也从侧面反映了对人的主体性之挑战是可版权性过程中的一大难题。
3.技术垄断和新型壁垒
《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》鼓励数据流动、交换、共享,企业拥有了优质的训练数据,就有可能最先突破技术边界。但在当前生态图谱中,头部平台为大模型的主要拥有者,固然对其加以限制,然则未来一旦形成技术壁垒,如何维持市场公平竞争、平衡对中小企业的扶持力度,将是极具挑战性的问题。
4.为不当行为和违法行为提供便利
ChatGPT训练的数据具有极高智能化和出色的泛化能力,它不仅可以翻译、识别语法错误或者撰写论文,还可以创造程序。因此,ChatGPT可能成为网络犯罪的工具,如创建暗网市场脚本,为非法交易提供自动交易平台等。而在此过程中,其更具隐秘性,速度更快,效率更高,跨域性也更加明显。
三、AIGC的监管评析
近期,国家网信办公布了《生成式人工智能服务管理办法》(征求意见稿),中国信通院也正积极推进大模型技术及应用基准构建工作。针对我国目前AIGC监管动态发展,我个人有以下几点思考:
(一)技术的负面外部性VS监管必要性
何时为介入技术监管的合适时机呢?科技企业也在思考,技术并未发育成熟是否适合介入监管?有理论表明,当技术的负面外部性无法通过市场主体真正解决时,监管应适时介入。ChatGPT预训练大模型中,存在很多目前技术无法解决的问题,也存在很多滥用产生的不可逆风险,且难以进行治理和救济,在此情况下则有必要对其进行监管。
(二)监管对象的选择
发展负责任创新是我国新的人工智能发展原则之一。但需注意的是,监管应面向技术和服务背后的风险或者对主体法益的侵害。不能仅因某一技术或者服务本身具有技术创新性就进行监管。
(三)结果型监管与过程型监管的平衡
虽然我们一直强调全周期、全链条的监管,但对不断发展中的新兴技术,一定程度也可以灵活适用结果型监管,尤其在内容生产环节。只要平台或者提供者保障信息风险在一定程度上是可控的,不需要对其生成过程的技术做太多硬性限制和要求。尤其是生成环节,目前OpenAI也无法完全做到防止生成,但在防止用户和应用层面出现的信息内容风险进行监管和治理是完全可行的。
但另一方面,不仅要注重结果型监管,深入治理过程的监管也非常重要。例如,Meta近期和美国司法部达成协议,一是对其进行一定数额的罚款,二是美国司法部要求Meta在未来开发一个针对个性化广告投放的算法公平技术。在一些场景下,事后对企业进行惩罚并不是最有效的手段,而是需要深入治理架构,有效平衡结果型监管与过程型监管。