文 | 苏建勋
如果你抱着“围观炫技”的念头观看人工智能公司「第四范式」最近的发布会,或许不会感受到猎奇般的兴奋。事实上,在创始人戴文渊的筹划里,他就没打算让聊天、画图、写小说、写代码这类To C式的噱头成为第四范式头顶上的标签——尽管多数AI公司都对此乐此不疲。
【资料图】
“式说”大模型的写代码示例;图片来自第四范式
4月26日,第四范式首次展示其大模型产品「式说3.0」,在半个小时的断网环境下用画飞机、写代码秀了下模型肌肉后,戴文渊抛出了他认为的“更重要的事”:
“今天更重要的,是想跟大家分享我们要做的事情:用生成式AI重构企业软件,我们称之为AIGS。”戴文渊谈到。
AIGS(AI-Generated Software),戴文渊将其定为第四范式的核心战略,也是这位曾经的ACM世界冠军、百度最年轻的T10科学家、江湖人称“戴神”的AI独角兽公司CEO,为2023年的这波AI浪潮,交上的第一张答卷。
“这次的变化很难估计是多少万亿的市场,大家都有机会。”谈及热潮汹涌的AI领域,戴文渊对36氪表示,而他眼中属于第四范式的机会,来自于中国软件市场的特殊生态。
一个直观的感性认知是,国内B端软件在体验上乏善可陈,“我们公司的报销系统也挺难用”,戴文渊坦承。在他的理想中,相比在系统菜单栏逐个点击的报销动作,如果能给软件安上生成式AI的心脏——用Chat的方式说“我要报销”,把票拍给系统、识别出餐票、询问用餐对象,得到回复后完成报销——这种体验显然比现在的报销系统要强得多。
不论是内部OA、ERP、CRM,还是外部业务管理软件,上述可以被AI优化的场景不胜枚举。
比如物流,区域经理想知道某个快递员上周有没有偷懒;比如工厂,车间主任想知道流水线有没有违规操作——在过去,他们要从密密麻麻的Excel表格、监控视频等数据库中找寻蛛丝马迹,但现在,只需要在“式说”的对话框中提问:
上周朝阳区有哪些快递员送件量在2000以下?
近三天工厂里有没有出现过违规操作?
如同搜索引擎的一个问答瞬间,“式说”就能依据企业的快递员当班/发件数据、工厂流水线视频监控记录……找到问题的答案。
“企业都有这些数据,但你不能要求一个区域经理会操作数据库,如果用更加自然的交互方式,其实可以很好地帮助企业管好团队。”戴文渊对36氪表示。
“式说”在装配集装箱的应用示例;图片来自第四范式
不过,只有用户体验还不够。第四范式敢于提出AIGS的另一原因,是AI对于软件开发效率的极大提升。
由于人力成本不高,国内To B软件有着“定制化”的梦魇,软件商们被一个个菜单式的需求所困,靠脏活累活挣着“人/天”费用,稍有项目失控,就会面临企业盈亏的失衡。
而生成式AI的革新,正是打破原有菜单式的软件交互,转而将重点放在算力、数据端的升级,面向用户的,仅是一个干净简洁的对话框。
“转变为AIGS的商业模式后,开发功能点就不用很长时间,只要你的软件还在使用,就能持续不断获得算力的收入,对软件公司来说,是一个特别大的商业模式革新。”戴文渊对36氪说道。
如何落地AIGS?戴文渊用了“修图”的场景,将其路径总结为三个阶段:
第一阶段,Copilot(企业AI助手)调动不同的信息、数据、应用,作为助手完成用户的指令。相当于在所有企业级软件系统里,配备一个指挥官。指挥官听用户的指挥,比如“把照片亮度调亮20%”。
第二阶段,Copilot+基于企业规则的“知识库”,AI能够参照规则做复杂工作,进一步丰富「对话框」的能力。比如AI查询了“人像美化”知识库后,能执行把照片修好看的步骤。
第三阶段,Copilot+COT(思维链)。软件系统的使用行为最终会被大模型学会,形成AI针对这个领域的思维链,意味着“把照片处理得更好看”这种复杂指令,AI能自动按照步骤完成。
总结来说,在第四范式的“式说3.0”大模型产品中,COT代表思维推理能力,让机器从“图片调亮20%”的单点步骤,进化至“把图P好看”;而Copilot则把人的指令翻译成要调用后台的哪个API,两者相结合,才能赋予企业软件新的交互形式。
在谈到第四范式带来的软件革命时,一位国产工业CAD厂商代表难掩兴奋:“第一次看到的时候还是蛮震撼的”。
他分享了几个场景:将“式说”模型嵌入内部工具后,可以通过多模态的形式迅速从几十万的零件库中搜索到类似零件,还能在工艺设计环节,让机器给出几个零部件之间的装配组合。这一切都是完成在一个“对话框”里。
“式说”在零部件的应用示例;图片来自第四范式
是侵袭,也是革命,新的生产力替代旧的,向来是商业社会中的残酷法则。
当36氪抛出这样一个问题:“有没有可能某家软件公司通过生成式AI,成长为一家比Salesforce更厉害的公司?”几乎没有犹豫,戴文渊当即给出了肯定回复。
“未来另一条AGI(通用人工智能)的路线,是把现在所有软件改造一遍。”戴文渊对36氪说。
以下是36氪等媒体专访第四范式创始人戴文渊的采访实录,经编辑后发布:
一、谈软件变革:提升体验+开发效率,To B 软件亟待革命
Q:去年底您看到ChatGPT推出后,有什么感受?
戴文渊:实话实说,我们也没能预见ChatGPT这种现象级的东西,在那个时间点能出来。
当时可以预见的是,GPT-3出来后,GPT路线的生成式终将有天会爆发,但是从去年底到这段时间的爆发,确实是早于我们的预期。
Q:ChatGPT爆发的时候,第四范式在这方面的积累有哪些?
戴文渊:对于业内来说,不需要等到爆发,最早谷歌BERT出来,大模型就没有疑问了,等到GPT3就更加明确。
2018年,我们组建了大概一百多人的研究团队,可以想象成第四范式的达摩院(当然没有达摩院投入那么大),要保持对新技术的敏锐和提前投入。
(如果在)去年9、10月份谈生成式AI,大家觉得这不鬼扯?现在最大的变化,是我们看到的这些方向都可以变成产品,变成商业化的路线往市场推进,这是ChatGPT最大的帮助——把整个市场的信心从0以下调到1了。
Q:客户都是有迫切的需求,哪怕还不知道需求是什么。
戴文渊:这有点像当时的AlphaGo,市场早期其实也不知道AlphaGo是什么。但就想知道对我有没有用。
这次GPT的发展速度比AlphaGo要快得多。从不知道ChatGPT是什么,到需要ChatGPT帮我做点事,也就持续了一个多月,这次的爆发速度比AlphaGo所带来的AI热潮与机会要大得多。
Q:第四范式很快推出了产品“式说”,这款产品迭代过程中有没有一些有意思的故事?
戴文渊:到了今年3月底,我们和客户的认知都在往前,当中很重要的是(意识到)企业内部软件的问题。
如果你看企业内部的软件,或者对比toC端和toB端的软件——toC端软件的用户体验在过去十几年已被打磨到较高水准(比如抖音);但是toB端,想象一下企业内的报销系统、HR系统、流程OA系统……体验还是很差。
我们公司的报销系统也挺难用,(理想中)如果用Chat的方式说“我要报销”,你把票拍给系统,系统识别票的内容,识别出来是餐票,问你用餐的对象,得到回复后完成报销。这种体验显然比现在的报销系统要强得多。
这是其一,用户体验的提升。
其二,是开发迭代周期的提升。原先菜单式的开发,每次升级要以月计。而现在新的交互模式下,ChatGPT每天都在提升,但你感受不到它的界面发生变化,这是数据层面的升级,这种新型软件开发形态的迭代周期也在不断提升。
所以我们在3月底,大概发第二个版本的时候,就强调多模态和Copilot能力,首先你要去改造软件,不能只有自然语言;第二,要支持用“对话”去调用软件的某一个功能,才能实现软件的改造。
很重要的一点,软件不完全是一个个功能。比如Photoshop,才菜单栏里把图片亮度调到5%,这是功能;对应到Chat方式,我说“把照片P好看”,就不是功能了,Photoshop里没这样的功能。但Photoshop现在能不能一键美颜?还不行。因为需要我们定义一键美颜执行的步骤是什么。
如果你要实现一个功能,要通过鼠标点菜单三下才能实现,体验就不会比语音交互更好;所以用新型的交互模式替代老的,会给toB端的软件体验带来很大提升。
Q:所以您希望用AI的能力重构软件?
戴文渊:绝大多数软件是菜单式的,你调取一个功能,在菜单里点一个下拉菜单,再点几下进入到某一个功能。
现在当我们有更强的自然语言后,可以通过更好的交互方式实现功能调用。本质上,我们要干两件事,第一是把软件转换成新型的交互;第二个是在新型交互上,通过不断学习软件的使用过程,让软件解决越来越复杂的任务。
Q:看起来,AIGS更像是一个优化数字化转型的工具。
戴文渊:这是现在非常容易量化的点。原来IT部门开发一个功能,无论是自己开发,还是请外包,可能需要十个人开发半年。现在用新型的开发方式,一两个人开发一两天就搞定了。不说最后效果怎样,整个开发效率是提升了。
我们一直在这个产业链里,过去和这些软件公司互为生态。软件公司需要第四范式提供决策类模型,第四范式也需要把决策类模型装到应用软件里。这样的关系里,我们能够看到生态的作用、问题和挑战。
几年前GPT3出来之后,我们基本上有了一个判断:未来是能够改变软件产业的,当软件产业被改变后,整个行业的业务价值、商业模式都会得到飞跃。
Q:这也是您做AIGS的初衷?
戴文渊:我觉得未来另一条AGI(通用人工智能)的路线,是把现在所有软件改造一遍,改造完以后,就覆盖了所有领域。
很难想象,通过一个大模型解决所有领域的问题,这个模型量太夸张了,OpenAI的CEO也在讲,他们也要转变技术路线。如果实现AGI是必须通过一个模型无限地扩大,最后是走不通的,至少在当前的计算架构下走不通。
Q:“所有软件改造一遍”,您预计这个过程会持续多久?这是在原有基础上可以修缮的,还是一个彻底颠覆的过程?
戴文渊:起码要五年,软件的改变不可能一步到位,使用习惯也不可能一天内从一个菜单直接跨到对话框,需要一个循序渐进的过程。
单个软件可能一到三年可以完成转变,但整个行业起码要五年,改变完以后,会是一个完全的、跨时代的升级。
Q:现在“式说”有哪些代表性的场景和案例?
戴文渊:我们真正target的是企业销售管理软件、财务管理、采购软件、研发的软件,以及像制造企业的CAD软件等。
比如CAD软件,我们能实现新型的交互,可以找到相似的零件,把两个零件做装配;比如门店管理,看哪些人上班迟到了,哪些人没有按照规则操作。很多店长不会用传统门店管理软件,还是用最原始的方式管,用更好的交互形态,其实能很好地赋能基层员工。
还有快递,比如仓库经理想知道辖区内快递员最近一个月运了多少单,投递冠军是谁,谁偷懒。企业都有这些数据,但你不能要求一个区域经理会操作数据库,如果用更加自然的交互方式,其实可以很好地帮助企业管理好团队。
我只是举了一些例子,这个适用面是非常广的,本质上每个企业里都有各种各样的管理软件,它们都能用更好的形态去实现。
二、谈趋势:算力不可能无限扩张;生成式AI短期内toB机会更大
Q:您刚刚谈到我们跟软件公司互为生态,里面有很多问题跟挑战,具体是什么呢?
戴文渊:最大的问题是中国软件市场的问题,如果从投资者的视角来看,通常认为中国的软件市场很小,甚至“不太值钱”,但实际上不是这样,中国的软件市场是一个巨大的市场,只不过标准化软件市场比较小。
为什么会这样?因为中国有人口红利。美国没有人口红利,企业只能买标准化软件,定制化软件是买不起的。但在中国,企业买得起定制化软件,所以标准化软件市场就小了。
中国的软件市场其实比海外大得多,但是极度分散。问题大家都能看到,就是高度的定制化,有大量人力成本。企业都挺辛苦的。要不断做非常精细的、非标的项目管理。一旦管不好,企业就会从盈利变成亏损,导致这个市场最大的企业也只占千分之几的市场份额。
GPT技术出来以后能改变的,就是原先大量的定制功能点开发、菜单重新排布和流程改变上,用对话式的方式就都替代了,一下子从一个很差的商业模式变成一个很好的商业模式。
同时对于客户来说,过去虽然说可以定制,但体验也不好,很多软件最后功能多到上千个后,其实这些功能都找不到了。
用新的交互方式,客户体验也得到提升,所以从各个方面来说,这次的技术革命是各方都获益的一个局面。
Q:融入AI后,软件有了更好的商业模式,核心还是成本跟定制化的改变?
戴文渊:对。原来软件公司的商业模式是什么?派20个人做了半年,开发完就结束了,如果没有新的功能点,也没有后续的收入。
转变为新的商业模式后,开发功能点不需要很长时间,主要的成本消耗在算力,而不是在人力。只要你的软件还在被使用,你就能持续不断获得算力的收入,对软件公司来说,是一个特别大的商业模式革新。
Q:算力的问题,咱们怎么解决?
戴文渊:此时此刻能上牌桌的(AI公司),都有一定的算力门槛,但我们作为中国公司,永远需要考虑的问题,是有没有国产替代方案。
对于中国芯片来说,现在需要一个调整。从追求极致的计算,调整为追求三者(显存、带宽)的平衡,肯定要给他们点时间。
从算力差距来看,对于GPU来说,差两倍其实还好。假设我用了比你差2倍的GPU,我能跑1000亿参数,你能跑1000多亿参数,两者其实没有特别本质的区别。1000多亿肯定比1000亿好,但你是感受不到明显差异的,当然,1万亿参数和1000亿参数还是有本质区别。我觉得还是要给国产芯片更多信心。
Q:您觉得算力和数据谁更重要?
戴文渊:数据最重要。但这个要辩证来看,数据充分到一定程度后,再多就没那么重要了。
比方说《红楼梦》看过一百遍了,再多看两遍也还好。未来在AGI决胜的,其实是一个个领域里的数据。比方说你在Photoshop这个软件积累足够多了,这个领域里你就无敌了。
Q:您怎么看待算力扩张和大模型能力的关系?
戴文渊:OpenAI的模型能力,一方面是依靠英伟达度算力的提升;另外一方面是微软的投资,你花了100倍的钱,算力提升很多,数量级就上去了。
但到了那个(算力)的数量级后,你还能再花10倍的钱吗?这个算力还能再提升100倍吗?当你想再往上提升一个数量级的时候,这个问题就要面对了。
如果算力已经无法再提升数量级,我们怎么通过一个模型的无限扩大实现AGI?还是通过N个模型一起去覆盖?确实如果你有足够多的模型,也能覆盖一个完整的AGI。
Q:我们怎么让这个模型成本更可控一些?
戴文渊:成本可控是一个比较现实的问题。在不同领域是需要不同尺寸的模型,不是所有领域都支持一个万亿级参数的(模型)。
过去认为10亿(1B)参数以上都叫大模型,但不同的场景盈利能力不一样,能够负担的模型尺寸也不一样。我们说成本可控,是得看这个场景能负担多大的模型,以及我们能不能裁剪到它能够负担的大小,最后其实要达到某种折中。
Q:第四范式一直在提“AI for everyone”,这个理念是不是到今天能够真正实现了?
戴文渊:通用大模型的出现让AI覆盖面扩大了,原先我们需要找到适合AI的场景,比如说搜索、资讯推荐。为什么需要找呢?原先AI只能干单点的事,没有到那么通用。除了这些点以外的地方,都不是AI覆盖的,是软件覆盖的。
Q:我们能看到AI带来的生产力变化是非线性的增长,跟互联网或者芯片的迭代方式有很大区别,这也是现在那么多人选择创业的原因,您怎么看这个现象?
戴文渊:是的。这次的变化很难估计是多少万亿的市场,大家都是有机会的。
Q:从大模型来看,现在有toC和toB两种路径,您觉得短期内哪个更有机会?
戴文渊:我认为短期内toB更有机会。抛开监管层面的问题,更容易被改进的是原来水平较低的,现有的toC软件体验比toB好得多,后者就更容易被替代。
Q:您觉得底层模型研发更赚钱,还是上层应用开发更赚钱?
戴文渊:最后其实都赚钱,英特尔也赚钱,微软也赚钱。
Q:是不是可能会出现一种情况,某家软件公司通过生成式AI,成长为一家比Salesforce更厉害的公司,是有这种可能性的?
戴文渊:这是一定的。