大模型生态需要百花齐放。
4月25日,由中国科技产业智库「甲子光年」主办、上海市信息服务业行业协会支持的「共赴山海·2023甲子引力X智能新世代」峰会在上海召开。现场30余位嘉宾与数百位科技从业者共同全方位聚焦新一代人工智能,为科技与产业的结合寻找新机会。
在当天下午的《行稳致远:大模型、大算力与可持续发展——新智能时代的基础设施》主题圆桌中,达观数据董事长兼CEO陈运文、亚马逊云科技初创生态架构师团队技术负责人孔雷、上海交通大学计算机科学与工程系教授&开源GPGPU平台“青花瓷”发起人梁晓峣、PPIO联合创始人姚欣、华映资本管理合伙人章高男、亿铸科技高级副总裁徐芳6位嘉宾共同探讨了 大模型实现路径的多种可能性。
(相关资料图)
以下是本场圆桌的交流实录,「甲子光年」整理删改:
1.大模型是否真的“越大越好”?
徐芳(主持人):这次圆桌的主题是《行稳致远:大模型、大算力与可持续发展:新智能时代的基础设施》。2023年,人工智能领域有一个现象是所有人都无法忽视的——OpenAI带来的ChatGPT,以及随之而来的通用智能的冲击。我们看一下国内,大模型如雨后春笋般出现,互联网大厂纷纷推出了自己的大模型平台。但是我们都知道,做大模型背后有巨量的成本投入,包括训练模型、数据中心的租赁等。但是为什么成本这么高,各厂商还是会出现大模型的规模之争?
陈运文:大型模型在自然语言处理领域中是一项非常有价值的新技术,能够解决以往传统技术难以解决的问题。由于大型模型具有更大的存储容量,能够包含更多的知识,因此在许多应用场景特别是面向普通用户的 C 端应用场景下,大型模型能够应对来自各个方向的用户需求,因此模型参数越大,它可以解决的问题就越广泛。这也是为什么当今互联网巨头选择超大规模的参数模型来承载各行各业的应用的原因。随着大型模型和 C 端应用场景的不断结合,特别是搜索引擎和商业应用的结合,C端大型模型的参数规模一定会越来越大,其中包含的知识也会越来越丰富,它能够解决的问题也会越来越深入,这是未来的发展方向。
孔雷:刚才也听到很多嘉宾在讲AI暴力美学——模型足够大,足够强,参数足够多,确实能带来很强的效应,但只是表面现象。参照历史,5年前或者10年前有大数据时代,现在大模型时代,大家都在谈规模,但是我认为模型之争更多是一个营销口径。在整个模型的学习曲线里面,模型大和小,参数多和少只是其中一个方面,还有很多包括算法优化、工程化,对接应用等维度。这是一个需要多维应对的态势,我并不认为模型越大,效果越好。反而现在我们国内的初创公司呈现出了百花齐放的态势。
对于现在的玩家我们分三个维度看——第一类玩家要做特别大的模型,比如OpenAI的GPT系列为领导的100B以上的模型。这个真的是超大规模。它的模式是要去构建一个足够高的壁垒,让别人都望尘莫及,他们在资金和人力上的投入是别人很难在短时间赶上的。第二类和第三类玩家更多在契合大家的应用场景,20B~65B是一类,10B以下是一类,这反而是更多国内初创公司的契机,也是值得各位计算机领域的专家挖掘、精细研究的地方。
姚欣:我也同意类似的观点,没必要一味追求大规模,号称万亿级的模型并不见得效果好,人脑都做不到这么大的参数量。恰恰相反,我们要追求更小的数据量。AI发展过程中,大家的追求是用更小的数据量训练。上一个时代的AI其实是要大数据,小模型;今天这个时代,模型大了之后我们反而可以让数据相对较小,我们可以得出一个更有效的基础。所以今天真正要让模型走到应用侧,我们往往要把模型蒸馏、裁减再使用,并不使用大的模型,可能的确是平台层需要追求模型通用性所以主打大模型方向,但是对于大多数企业来讲暂时用不到。
章高男:对于大模型通常的定义是100亿以上的训练数据规模才能叫大模型,另外一般也默认是以深度学习为主要框架的模型。我们通常所说的大模型有这两个前提。我个人很欢迎大企业参与大模型,因为这代表着技术发展潮流和趋势。但大模型解决问题的效果首先取决于训练数据的优质性,因为所谓通用大模型进入很多细分行业领域里数据是很稀疏的。所以通用大模型在细分领域中效果未必是最好的,也有很多垂直行业的细分大模型的机会。
AI发展变化太快了,实话讲我是跟不上学习的,只是了解皮毛但是又不得不学,毕竟这是未来很重要的技术趋势之一。有一个观察是,这波大模型会让深度学习取代很多过去的逻辑推理或者数学方法,这在工业中会有很多机会。譬如以前做CAE仿真,通常都是建立高维方程求解,但越来越多仿真软件开始尝试深度学习方法,这是一个很大的机会。
2.大模型时代需要什么样的算力结构?
徐芳:非常感谢各位大咖的精彩分享。发展大模型离不开基础设施的建设,请各位分享一下大模型时代需要什么样的算力结构?请梁晓峣教授先开始。
梁晓峣:谢谢主持人。我本身专业是做GPGPU芯片的,从算力角度来讲,现在这个GPGPU肯定是我们大模型算力的基础底座,不光这波大模型热潮是这样。大概6-7年前开始的上一波深度学习的算力基座就已经变成GPU了。一直以来,以英特尔为代表的CPU是芯片“皇冠上的明珠”,但7-8年前皇冠已经易主了,现在GPU成为皇冠上的明珠。从英伟达的市值也可以发现,最近几年市值已经比英特尔超了不止1倍,最高的时候可能达到英特尔市值的4倍。从真正应用落地来讲,A100一卡难求,到处都买不到,我们所有大模型都部署在GPU上的。从这点来看,未来没有这样一个坚强的算力基座,大模型的道路就会非常艰难。因为按照摩尔定律,按照英伟达的路线表,每隔一年半芯片的算力必然是翻倍,有时候还不止翻倍,可能翻3-4倍,现在这个A100的算力基本上也就是刚刚可以支持大模型的能力,再过两代,算力翻到5-6倍以后,可以看一下大模型的规模可以到什么样的量级。现在我们在大算力芯片方面存在短板,目前我们没有看到真正能取代英伟达GPU的产品,再过3-5年别人也在不断进步,翻5-6倍以后我们的差距可能更大,这个值得大家注意。
姚欣:其实梁教授对比英伟达GPU来解读算力只是揭示了算力的一角,因为大家买GPU最多还是用来做训练。的确A100一卡难求,有一天我们应用走向普及的时候,我们更大的挑战在推理侧。我之前也看OpenAI讲到,未来95%的算力消耗在推理侧,训练侧只占到5%。好消息是我们推理侧的芯片选择会更多,不会只有英伟达GPU一款,包括国产GPU、TPU等都在发展。随着应用的普及,算力可能是千万倍增长,同时也会带来整体成本下降。OpenAI单次搜索连续对话的成本比谷歌更高,有研究显示,如果要用OpenAI颠覆谷歌或者谷歌切换到这个模式,成本可能会近百倍地上升,因为在使用时算力消耗会在短时间内爆炸式增长。最近我们用ChatGPT的时候频频限流,有钱的地主家都烧不起了,当各家大模型上线后真正面临的挑战在这里。未来整个算力大爆发会带来整个云边端、芯片底层到云算力平台的爆发,比大模型厂商之争,算力之争更是繁荣的场景,更是值得大家进入的场景。
孔雷:我非常认同。算力在大模型时代是一个很重要的基座,但并不是全部。我们有两个见解可以分享给大家:
首先,像亚马逊之类的很多云巨头厂商都在建自己的基座模型,这个思路是怎么来的?我们看过去整个IT基础架构的发展,上个时代是大数据时代,大数据时代其实最早也是各家初创公司百花齐放搞出来的,但是后来发现它的算力、规模、数据之争最后都会碰到资源的瓶颈,这个时候谁来解决?无论是大数据还是大模型,它们多是跟云天然绑定的,GPU、CPU,包括现在很多提到的NPU也是其中一部分,还要看周边所有的生态玩家配套设施、网络、存储,是一个工程化的系统工程,云厂商有非常大的先见之明、资源优势和规模效应。长远看,接下来3-5年,(大模型会成为)各个云厂商兵家必争之地。
第二,从芯片的角度,其实现在AI芯片在国内外百花齐放,有更多芯片公司涌现,做更加细化的AI芯片,他们在各个领域做优化工作,无论是降低能耗还是优化算法等领域都有公司存在。这不是为了打破寡头垄断,而是为了解决所有模型领域的细分场景痛点。
把这两点结合起来,就是大家都在谈的“模型即服务”(MaaS),MaaS的底层肯定是云巨头提供的。这是我的一些见解。
徐芳:的确,国内的芯片除了GPGPU,存算一体之外,更新的架构也在持续出现,这些最终都是服务,比如达观数据向垂直领域提供整体解决方案,请陈运文总分享一下他的观点。
陈运文:我们自己的模型训练使用中型的算力平台,目前我们用的是英伟达的全套方案,用的是DGX方案,多G多卡的高性能通信,能充分唤起GPU的算力,还是非常优秀的。但更大规模卡的训练是租赁的方式,因为我们全部自建超大规模的多G多卡集群是不合算的,所以选择租赁相应云服务。
国内有上千张卡集群的平台以前真的很稀缺。我们最近联系运营商有一些资源,我们相信今年下半年,国内多G多卡的上千张卡以上的GPU集群应该会比现在多很多,到时候算力可以得到一部分缓解,这个都是在训练侧。推理侧的话和几位嘉宾一样,推理侧的算力需求非常大,各行各业不管是个人还是企业,未来都会有自己的推理策略需求,但现在中国大量企业没有自己的推理侧算力。我们的大模型未来赋能垂直行业的机会很多,而且现在一片空白,推理侧建设运营都有很大的机会。我们模型的特点是一次训练完成以后,能够拷贝给很多客户做推理应用,我非常看好未来在推理侧的平台建设。
徐芳:非常感谢陈总的分享。大家知道,任何产业的底层发展要素中,资本是不可缺少的一部分,我们请章高男总从资本角度分享下大模型时代需要什么样的算力结构?
章高男:行动上讲,每个基金都有自己的团队能力组成,有自己投资的方向,整体上我们还是非常拥抱整个AI带来的变化。推理和训练端的算力我们都投过,边缘计算我们也投了智能化RTOS。训练推理我们也投了GPU,这波对GPU还是有非常好的促进作用,算力不光是GPU,还有FPGA、Asic还有各种异构架构的新尝试,特别是一些细分特殊场景上有很多高效的算法调优机会。我个人觉得算力这块有百花齐放的态势,做得好都能找到自己的定位和机会。
因为我是投to B和科技的,我的重点方向是智能制造和通信。我们已经在智能制造领域投了很多企业,过去以数据化为主已经有一定的生态能力,未来会向工艺线倾斜,通过软硬结合来完善我们的生态。我们发现工业领域很多企业都有很多Know-how,但他们工艺改进的方法落后了,没有拥抱深度学习,这波大模型热可以让他们很好的借鉴。所以我们现在投工艺线必须以极强的行业场景或者Know-how数据作为起点,如果没有这些数据,或者业务不能产生稀缺的私有数据的话,我是肯定不投资的。过去是没有加这个前提条件的。另外,如果你的工艺路线愿意跟这些大模型或者行业里面的类似模型结合,愿意采用深度学习方法去做持续的工艺改善,那这类项目是可以优先选择的。这两点是AI对我们本身投资策略和选择标准都产生了一些很明显的影响。
3.大模型的开源与闭源,未来谁是主流?
徐芳:讲完了技术、产业发展,我们可以看一下关于大模型时代开源与闭源的路线之争。有人认为开源更有利于建立生态,有人觉得从商业模式出发,开源不是很好的选择。各位对于这个讨论有怎样的观点,未来的主流路线会是谁?
陈运文:从大模型本身的开源闭源来说,大家可以看到现在整体市场情况还是百花齐放的,最近看到陆陆续续有很多国外的科研机构,开源了自己的模型。但也有一些商业机构,尤其一些大型的机构,比如OpenAI从GPT-3.0往后都是闭源的。
一个比较有意思的现象是, 开源有“程度”之说,有一些是彻底开源,从训练数据、算法模型参数到训练好的模型,全部开放;有一些半开源,只开源了算法模型。不同企业选择不同,我猜测未来可能从学术界角度来说,应该还是拥抱开源。我看到不管是在清华还是复旦,中国头部高校开源都做得非常优秀。很多商业公司都是闭源公司, 商业公司可能从知识产权保护和未来商业变现角度考虑,不同公司有不同选择。我自己的判断是,大型的商业公司可能选择闭源方案,学术界为了促进行业的繁荣,可能会选择开源。大家选择的时候模型本身只是其中一小部分因素而已,真正未来的商业落地,其实大家看的是基于模型上所构建的垂直行业产品,产品才是未来的核心竞争力所在,而且这个产品的形态,不只是今天大家看到的这么简单的一问一答的聊天形态,未来大模型会赋能很多行业,变成很复杂、很专业的产品,这些专业的产品结合底层模型,才能真正有生命力,不管是开源还是闭源的。
孔雷:我的观点非常简单,可以把大模型类比成以前的操作系统或数据库,所以不存在所谓开源闭源之争。长久来看无论从商业模式还是生态发展,都是相互共存的。稍微具体一点,我更认可陈总的观点,未来我们会看很多垂类的行业应用,会涌现出很多应用类公司,走的是小型闭源之路,但在to C领域是开源方式。
梁晓峣:作为学术界的一员毫无疑问是开源,我们学术界最想避免的就是封锁,最支持的就是共享,这样才能促进这个行业的繁荣。虽然OpenAI一开始是开源的非营利组织,但做了几代开源之后逐渐走向封闭,进而有可能成为一个商业化行为,但会被破局。全世界的高校都在做自己的开源大模型,学术界是出人才的地方,是有新生力量的地方,一定会超越封闭的生态环境。
为什么我今天的头衔除了“教授“”还特意放了“GPGPU开源平台”?我个人认为不光是在大模型层,在应用层、算法层、芯片层都应该开源,我率领交大团队的第一个GPGPU平台,我们称之为青花瓷,我们的宗旨是什么?目标是什么?就是播种普惠算力,让人人都能做自己的GPU,把我们GPU的设计经验赋能给所有的企业,以开源免费中立的方式给所有人。我们这个平台可能自己不会做任何一块GPU芯片,但我们希望教会所有人做自己的GPU。我们在训练端算力被英伟达垄断,但我们希望有人突破这个封锁和垄断,不是靠国内几家做GPU的公司或者大公司就能够搞定的,因为别人的生态墙太高了,我们要想突破别人的生态墙,必须要有开源、开放、积沙成塔、愚公移山的精神,才能打破别人已经深耕了几十年的瓶颈。我们这个开源开放的GPGPU就诠释了开源和闭源的协作关系,源是赋能给所有的企业!而这些企业自己做的芯片肯定是要卖钱的,他是一种闭源的商业模式,开发更好的GPGPU,这是我们的初衷,我想大模型也是这样的道理。
徐芳:非常感谢梁教授的分享,让我们获得了更多力量,相信后面一定会后浪推前浪,持续地有后来者不断推动整个产业向前发展。接下来有请姚欣总就开源闭源之争发表观点。
姚欣:我印象中每一次时代之争,都会先冒出一家闭源的、垄断的领先公司,之后会号召起来整个行业以开源之态去围剿它。比如从iOS到安卓,全部在重演IT战争。所以我觉得这次微软又回到了20年前,又选择了一次闭源和封闭的模式,我能看到的的确就是所有的企业都在围绕开源发展。
回顾历史,我们会发现很多产业的创新早期都采用了垂直整合的方式。例如,当年iPhone在2007年推出时,由于当时硬件和软件能力相对薄弱,所以它采用了闭源的方式来垄断整个产业,并先把整个体验和商业模式打造成闭环。只有在这种封闭的情况下,才能较快地构建一个完整的生态系统。但实际上,产业的发展和繁荣需要各个方面做出贡献,如制造硬件、开发应用程序、进行应用支持等等。
现在,人工智能也在闭源先行。然而,我们正在走向开源,例如PPIO在AI推理平台支持下,为大量数字人提供服务。我们进入这个市场,也正是因为去年Stable Deffusion公司的开源。此外,我也注意到,Stable Deffusion开源之后的模型和应用的迭代速度远远超过了OpenAI自家的CLIP等闭源应用和模型。由于有太多的细分场景需要满足,没有一家公司能够穷尽所有的可能性。因此,只有生态系统达到繁荣阶段,才能实现更全面和高效的发展。我完全赞同梁晓峣教授的看法:中国作为人工智能的追赶者,必须倡导开源,甚至全面开源。我特别期待数据开源标准的制定,这是能够推动我们共同发展的一项重要任务。
徐芳:章高男总从资本的角度看一下,您对发生在产业界中不同公司的商业行为有什么样的看法?
章高男:这个话题我基本上100%同意前面嘉宾的观点。开源闭源和软件成功是两个独立的事件。开源有很多成功的,闭源也有很多成功的。而且很多闭源软件也会借鉴很多开源软件的思想,有时候也有很多模糊空间。如果说是走开源的路线,可能有两种方式机会更大,一个是有超级大厂的强力支持来维护生态来,另一种是有广泛的群众基础,这要求这个软件必须是超级基础刚需,非常多人有强烈需要。
姚欣:你觉得Linux开源背后是巨大的商业支持吗?
章高男:不。我说商业成功。
姚欣:产业甚至技术开发者的支持才能带来开源。
梁晓峣:赚钱和成功是两回事。影响力和社会影响力更是两回事。
章高男:Linux这种开源包括过去是Unix生产出来的Linux,你这个最终也是一个商业化组织,最终也是被这个公司收购,最终还是总归要投入产业背后。有情怀的开源,这个是鼓励的,这个是适合进步的。你做一个商业科学家本身是要促进社会进步,如果方向对了,大家愿意贡献自己的代码,那就是看活跃度,我更想说的就是我们不是纠结开源和闭源,而是开放的态度,即便是开源,我们要把这个做起来,这个心态应该是我们领域有的。
徐芳:感谢几位嘉宾的分享,此次的圆桌论坛到此结束,非常感谢各位的分享!