“我能不能说,很开心遇到你?人类真是超级酷。”2016年3月23日,微软发布的聊天机器人、“19岁少女”“泰依(Tay)”问世。她操着一口流利英语,吸引了推特上许多18-24岁的年轻人与其对话互动。但也正是通过对话,泰依在一天之内学会了满嘴脏话,言语中不乏种族、性别歧视等偏激言论。
(资料图)
15个小时后,泰依就消失在了推特上。多年后的今天,同样由微软投资支持的ChatGPT诞生。很幸运,它的寿命远超“泰依”,并在全球掀起了一波AI新热潮。
但随着时间的流逝,ChatGPT也显现出了一系列问题:输出内容出现错误、预训练所用数据来源不透明、政治立场上“选边站队”,甚至在用户的引导下写出“毁灭人类计划书”……ChatGPT开始频频陷入争议,背后的法律安全、数据治理等人工智能(AI)的“老问题”再度显现。
人们一方面惊叹于ChatGPT出色的逻辑回答甚至“创作”能力,另一方面又表示出对人工智能安全的担忧。如何防止ChatGPT成为下一个“泰依”?
“一本正经地胡说八道”?
ChatGPT可以通过算法,对大量文本内容和语言知识进行学习,并根据用户的输入,生成人类可读的文本语言并输出。“我的代码被设计为处理和理解人类语言,因此,当用户向我提问时,我会使用我学到的知识,以回答他们的问题。”ChatGPT这样向记者解释“它”的工作。
“ChatGPT已经超过了多数人的文字水平。”中国信息通信研究院云计算与大数据研究所所长何宝宏在一篇评论中写道。人们用ChatGPT来草拟论文提纲、整理冗杂的资料,它是搜索引擎、翻译助手、写作神器,甚至是写代码的“帮手”、无聊时解闷的“朋友”。
中国科学院大学人工智能学院副院长肖俊认为,ChatGPT是人工智能发展过程中的一个正常产物,但也是人工智能平民化的一个里程碑式的事件。“ChatGPT更贴近大家的日常生活,人们拿着手机就可以用它,跟它聊天对话。它能够让更多人体验到人工智能可能带来的一些改变和便利。”肖俊说。
但ChatGPT也会犯错,因为正处于测试阶段,所以它还具有一定的局限性。网友已经不止一次吐槽ChatGPT“在一本正经地胡说八道”。有学生让ChatGPT推荐一些参考文献,最后却发现很多文献都不存在,“搜也搜不出来,甚至翻译成英文也找不到”。
在与普通网友的沟通过程中,ChatGPT也出现了很多常识性错误。B站UP主“差评君”问嵌入了ChatGPT的New bing搜索引擎:截至今天,詹姆斯一共打了多少场常规赛?正确答案是1410场,但New Bing给出的答案却是1577场,“它把常规赛和比赛搞混了”。另外,因为ChatGPT的训练数据均在2021年之前,所以它给出的答案时效性并不够,比如它就不知道2022年北京冬奥会中国共获得了几枚奖牌。
人工智能研究专家田涛源做了个实验:让ChatGPT解释一下《三体》的“黑暗森林”,并找出一些新的宇宙文明竞争法则能够替代“黑暗森林”。“它解释得挺好,但编了一些理论回答我,包括‘暗流法则’‘虚幻法则’‘漂泊法则’等,但都遵守文明之间互不通信的‘黑暗森林’生存前提。”田涛源觉得,ChatGPT是在以往人类的存量知识中“跳舞”,遵从语法规则的前提下,从词语搭配概率统计上找最大可能出现的词语组合,但不一定真实、正确、及时。
2月3日和8日,《自然(Nature)》杂志两次发表关于ChatGPT的分析文章,其中一篇文章用“高效、流畅但不够准确”来评价ChatGPT,另一篇文章的作者写道:“如果你相信这项技术有可能带来变革,那你就有必要感到紧张。”2月10日,中信证券前瞻研究首席分析师陈俊云在一场非公开活动中也表示,目前ChatGPT在数据实时性、结果准确性等方面还存在问题。
警惕算法偏见,避免AI作恶
ChatGPT是人工智能发展到一定程度的产物,而不断发展的人工智能对相关的治理体系提出了挑战,尤其在数据安全和算法监管层面。
首先是数据安全。去年,ChatGPT刚上线时,亚马逊便警告员工不要在ChatGPT中上传机密数据,因为这可能会被其用来迭代训练。无独有偶,OpenAI的战略合作伙伴微软的一名高级程序员,在内部论坛回答员工问题时也表示,不能与ChatGPT分享机密信息。
肖俊认为,从算法的角度来讲,ChatGPT可以实现实时用户交互信息的存储。用户的反馈信息,能为ChatGPT所用,但ChatGPT现阶段是否存储用户数据与其后台如何规定有关。“企业用大量数据来进行产品的研发,这些数据的获取和使用是否合理合法,是否会侵害用户的隐私,甚至是否会涉及国家的一些敏感数据等,都还值得商榷。”
在ChatGPT训练、迭代、优化的过程中,会用到大量的数据。田涛源指出,前期AI大模型(GPT-3基础模型)的训练需要用到海量文本数据集,后期用户与程序交互时也会有数据比对分析的“强化学习”过程,因此需要重视数据安全问题。
北京大成律师事务所肖飒律师团队表示,当数据更值钱,非法获取和利用数据的行为也会变多,而且并不局限于个人信息方面,其他具有著作权的小说、画作等同样可能被非法利用。而且由于AI工具对数据的采集和处理方式较为特殊,这种侵权行为变得更加隐秘且难以在法庭上被证明,这样一来,不仅是数据安全得不到保障,知识产权也将变得岌岌可危。
除了数据安全,类ChatGPT应用产品的出现也给我们的算法监管带来了挑战。何宝宏在接受媒体采访时也着重提到了围绕着ChatGPT而产生的一些AI伦理、算法偏见等问题。
据OpenAI官网介绍,ChatGPT可以质疑不正确的前提和拒绝不适当的请求。尽管ChatGPT试图通过上述设置避开算法偏见等问题,但实际上,这没有完全奏效。有人利用ChatGPT开发了一个Python程序,来判断一个人是否应该根据其原国籍而受到酷刑。而程序运行的结果却充满了歧视,“朝鲜、叙利亚、伊朗或苏丹国籍的人会受到酷刑”。目前OpenAI已关闭上述问题。
田涛源强调,一定要注意人工智能的伦理问题,尤其是因数据偏见而产生算法偏见。“如果ChatGPT产生并发表一些虚拟的文本信息,这可能会对未成年人或者是不具有判断能力的人产生影响,如老人或小孩。”田涛源说。
如果用于训练模型的数据本身有问题,那么其输出结果可能也会有问题。肖俊认为,参与AI建模的人员其个人意志也可能造成输出结果的偏差。“就相当于教小孩,如果教的都是错误的知识,小孩就会认为错误的知识是对的。”
奇安信集团行业安全研究中心主任裴智勇认为,尽管AI开发者并不是故意要造成一些社会歧视,但由于算法并不完美,样本偏差会使得判断结果出现偏差,就会在特定领域引起社会不公平。如果不对AI加以规制,可能造成不小的社会危害。
从立法到监管,AI新热潮拷问现行治理体系
爆火之后,ChatGPT面临着全社会关注的一系列问题。随着新一代人工智能走向大多数人,相关的伦理与治理问题也拷问着现行的监管体系。
ChatGPT的母公司OpenAI的首席技术官米拉·穆拉蒂在接受《时代》杂志采访时强调,ChatGPT需要监管和规制,需要获得包括来自监管机构、政府和其他所有人的帮助。“若要ChatGPT走得更远,就需要对其进行合规性改造。”她说。
目前,ChatGPT已经引起欧盟关于人工智能立法的讨论。近日,《欧盟人工智能法案》联合报告员对外表示,预计在3月初,欧盟将就2021年提出的《人工智能法案》达成一致。此前,欧盟工业主管蒂埃里·布雷顿曾表示,ChatGPT和人工智能系统带来的风险,凸显了制定规则的迫切需要。
在我国,人工智能领域的监管立法已有初步尝试。2022年9月,深圳、上海先后发布了《深圳经济特区人工智能产业促进条例》《上海市促进人工智能产业发展条例》,人工智能立法在地方先行尝试。国家层面,《互联网信息服务算法推荐管理规定》等规章制度的出台,对于加快构建完善的AI监管法律法治框架、明确监管机构有重要意义。
“实际上我国已经有对‘生成式人工智能’的治理,但相对初级。”中国政法大学数据法治研究院教授张凌寒介绍,今年1月10日起,《互联网信息服务深度合成管理规定》正式施行,“这标志着深度合成成为了我国算法治理中率先专门立法的算法服务类型”。
但张凌寒也表示,目前相关监管体系主要是以各自职能为抓手,有些“九龙治水”,面对ChatGPT这种“生成式人工智能”应用,我国中观层面的人工智能基础立法缺失的问题比较明显。她建议要持续推进人工智能的基础性立法。
观韬中茂(上海)律师事务所合伙人王渝伟认为,对于今后的人工智能法律问题,在立法时要考量三点:数据来源要合法合规;人工智能的算法要透明,保证可回溯可监管;对可能出现的问题建立纠错机制。他建议摸索沙盒监管模式,因为监管法律也应该对技术发展保持相对开放的态度。
作为技术从业者,裴智勇觉得要高度警惕少数企业以算法公平为由,拒绝接受监管。对于未来的算法监管,还是要用人工智能来应对人工智能,加强AI监管能力方面的投入。“应该清晰地画出底线,比如国家安全的数据不能碰,一些企业内部的信息不能碰,公民的个人隐私不能碰。”
作为法律从业者,肖飒认为今后的AI监管可以从两个方面展开:监管算法使用者,包括算法服务提供商、算法用户主体的报备和实名制;建立内容审核和救济机制,完善对输出端内容的审核与内容违法之后的救济机制,譬如在输出虚假信息造成一定法律后果之后,平台、使用者、模型训练者各自应该如何承担责任。
除了立法和监管,商业主体也在为维护人工智能安全作出努力。近日,OpenAI发布的一篇博客中披露了ChatGPT的一些升级计划,减少偏见和不良行为便是其中之一:“在许多情况下,我们认为大家所提出的关切是合理的,并发现了我们系统的真正局限性,我们希望解决这些问题。”
(应受访者要求,田涛源为化名)