【世界速看料】商汤们等待ChatGPT的日子

文｜略大参考秦安娜
编辑 | 原野

(资料图片)

2010 年，乔布斯将 iPhone 4发布会的「One more thing」留给了Facetime。他故技重施，在现场拨通好友John Ive的电话——曾经接到初代iPhone首个通话的幸运朋友。两秒等待后，乔布斯按下通话页面上形似摄像机的图标，他留着银灰色短胡须的削痩脸庞出现在屏幕上。随即，现场响起了“woo”的惊叹和起伏的掌声。

这是苹果首次在 iPhone 上引入前置摄像头，虽然只有 30 万像素，却让一部分技术爱好者，看到了前置摄像头的应用前景。清华学生印奇和唐文斌是其中的代表。他们制作了一款名叫《乌鸦来了》的游戏，功能很简单，立在田地里的稻草人，驱赶四处飞来的乌鸦，防止看守的南瓜被偷走。

但区别于同时代需要触屏操作的游戏，《乌鸦来了》是通过摄像头操作，用户对着镜头左右晃动头部，控制稻草人摆动，达到驱赶乌鸦的效果。游戏2011年上线，属于很早期、形式简单的AR游戏。但由于玩法新奇，很快就上升到苹果App Store中国区免费榜前三名。

联想之星的投资人王明耀注意到这款游戏，找到印奇团队，投了几百万人民币的天使轮。不久后，《乌鸦来了》在 App Store上推出付费版，售价为0.99美元，但是用户的付费意愿不高。就这样，印奇团队的第一个创业项目，在没有走通商业化的情况下，搁浅。

此后，印奇、唐文斌带着团队又开发了几款游戏，均未能成为爆款。他们开始反思，游戏并不是他们最擅长的，他们的长项是机器视觉。在清华姚班读本科时，印奇和唐文斌就已经在人工智能领域崭露头角，印奇在微软亚洲研究院实习期间，师从孙剑，研究人脸识别。

李开复曾想把印奇挖到谷歌，未果。不过，两人也因此相识。后来，李开复离开谷歌，创办创新工场，转型创业导师，印奇曾经找他商讨创业做图像处理器GPU的想法，他想打造中国的皮克斯——被乔布斯收购的那家电脑动画企业。李开复听了当即反对，他当时想不清楚GPU能用来做什么。这款后来在人工智能时代广泛获得增长的产品，在当时并没被看出应用潜力。

早期风投的重要投资逻辑是投人，李开复投了印奇，但当时还叫Face++的旷视团队，拿得出手的作品只有创始人参加各类人脸识别竞赛获取的冠军，验证过的商业模式是游戏场景并不能让机器视觉技术发挥出最大价值。至于它应该用来做什么，无论是李开复还是印奇，都没想清楚。

在一片混沌中依稀中飘出来的概念：智能手机应该会提供使用场景，这是当时广聚共识的投资方向。彼时，古早互联网时代的创业者奔走在拥抱新时代的道路上。财富自由的雷军想做智能手机，他想过投资魅族，但初中出来打拼的黄章对股份极其看中，跟雷军详谈过好几次，最终无法接受雷军提出的投资入股并出任董事长的方案。后来雷军扯旗，自建团队，喝下了那碗小米粥。

硬件是当时的主旋律，新的产品终端产生，代表着会催生出新的软件服务机会。小米造手机也是从软件系统MIUI开始的。周鸿祎看懂了雷军用硬件卖软件的思路，也要做手机。但他不如雷军幸运，找到类似周光平的人物搞定供应链。于是，他退而求其次，想做特供机，联合手机厂商一起对抗小米。

可惜，行业里很多人看不到周鸿祎的视野，还没有长大的小米，也不足以令他们畏惧，继而集中在红衣教主的麾下发起进攻。联想高管的一段表态，大致能代表当时主流手机厂商的看法：小米几百万台的销量，只不过是联想的几分之一。

无论持有何种视角，中国智能手机的“造机”浪潮，在小米的推动下开始了，手机出货量以指数级攀升。而智能手机上搭载的那颗前置摄像头，让机器视觉从各大比赛以算法创造出正确率提升的竞争中，以及各大研究室的故纸堆里爬出来，找到了技术可以落地的应用前景。印奇团队搭建Face++平台，通过API的方式，为企业提供服务。种子用户是美图秀秀，李开复帮忙找来好友蔡文胜，达成合作。后续又找到蚂蚁金服，为支付宝提供人脸识别技术。

回头来看，这一切要感谢iPhone将前置摄像头装进手机，催生出美颜、人脸识别的需求。随后，人工智能开始具体应用于很多单向领域。2015年，马云在德国汉诺威博览会，亲自演示“刷脸”支付，引发广泛讨论，作为技术提供方的旷视也随之沾光。

中国不算悠久的人工智能商业史中，绝大多数的时间，都是在寻找技术的落地场景。在人工智能1.0时代，以旷视、商汤为代表的企业，搭上移动互联网时代带动的视觉需求，OPPO、vivo等手机厂商，美图、百合网、快手等企业，成为它们在四顾茫然的商业化道路上，可以暂时歇脚的石凳。用旷视科技副总裁吴文昊的话来说，世界上60%摄像头用在手机上面，AI一定要进入这个市场。

但这些业务无法支撑起一家独角兽企业的估值，以及与之相匹配的营收。随着手机镜头像素的持续性迭代，依靠算法带来的视觉优势被一点点吞噬。当手机厂商陆续喊出1亿像素的宣传卖点，CMOS图像传感器的芯片，成为真正决定一部手机拍照功能好坏的决定性因素。

加入果链，为iPhone提供CMOS图像传感器的索尼，拿走了手机摄像头的绝大多数市场份额。它常年占据着CMOS图像传感器一半的市场。跟硬件进化产生的优势相比，算法带来的视觉优化方案，变得不那么激动人心。

显然，第一波人工智能企业，还没有摸到商业化的入门砖，找到连通人工智能从实验室算法到应用场景落地之间的桥梁。

探索仍将继续，随后人工智能企业开始在不同“地图”刷金币的商业化之旅。好在，移动互联网时代提供了不少讲述新商业故事的场景。上半场，AI与互联网金融的结合，成为重要的人脸识别场景。“互联网+”浪潮的高峰期，旷视服务近七成的互金客户。

进入移动互联网下半场后，在向线下要流量的使用场景中，无人零售为AI企业创造了另一波需求。2016年末，亚马逊推出了无人便利店 Amazon Go，以“不用排队，拿了就走”的购物体验出圈，消费者进入商店，在开放货架上选购商品，然后走出商店，整个购物结算环节就完成了。

硅谷的风潮吹向中国，中国零售企业的创新热情被点燃了，无人零售成为撑起“新零售”业态的全村的希望。外界讨论它会是第四次零售变革吗？行业会产生下一个滴滴吗？

不知前路，但行动者已经在路上。阿里巴巴在第二届淘宝造物节上，推出无人超市“淘咖啡”’、大润发推出缤果盒子，苏宁、京东同样上新无人零售业态。旷视、商汤再次成为站在大厂背后的企业，为这些应用场景提供技术支持。

创投圈最爱拥抱新变化。当时正值共享经济的创业风口式微，无人零售迅速崛起。IT 桔子的数据显示，2017 年共有 93 起无人零售事件获得融资，占新零售领域投融资事件一半以上，行业出现了「果小美」，「小麦铺」、「猩便利」等明星公司。在资本的热情驱动之下，街头巷尾涌现出无数无人零售项目——但现实是，很多人进去不是为了购物，而是乘凉，那里有空调。

正如创投圈涌动的各类风口一样，风起时资本和创业项目入场很快，而在资本发现投钱也无法改变战局后，热情就会迅速消退。同之前的情况不同的是，此前资本的意志可以迫使行业第一名和第二名合并，达到近乎垄断行业的作用，但无人零售做不到，一位创业者说，行业第二名和最后一名没有区别。

风口此起彼伏，商汤、旷视等活跃在大厂背后的技术提供方，也无非是带着相近的技术，从一个风口过渡到另一个风口。

2017年，苹果 iPhone X 的发布，带动了「AI+3D」的人脸识别方案。商汤和旷视迅速加入到手机行业的新一轮军备竞赛之中。竞争激烈之时，两家企业分别派遣十多人的团队，进驻各品牌手机厂商的办公场地。两家企业的房间紧挨着，中间是透明的玻璃，能看见彼此。两个团队每天发布一个版本PK。手机厂商不看别的，就看谁的算法更好，择优选择。

在会议室睡了四个月之后，在人脸识别解锁上，旷视拿下了vivo部分机型、小米、荣耀、锤子、美图等，商汤拿下了OPPO和vivo部分机型，以及一些机内应用。

对于自己打“辅助”的身份，两家企业的创业人有过类似的表述。旷视创始人印奇说，“创业之初对人脸识别、图像识别、机器大脑这些技术能有什么用，在哪里落地，是很模糊的。”商汤创始人汤晓鸥对人工智能的商业前景，抱有理性的说道：人工智能也不过是一个辅助性的工具，并不是事情的全部。这个工具本身并不能产生独立的价值，而一定是在跟各个行业相结合以后，为各个行业生产效率的提升来服务的。

这些先进入行业的创业者，看起来都不相信，中国可以产生通用大模型的故事。

尽管没有一直站在风口，中国的人工智能创业热情却多年保持在高位，融资金额在2017年首次超越美国，位居世界第一。根据深圳人工智能行业协会统计，自2012年至2020年上半年，北京、上海、深圳、杭州四地的AI产业融资达4260亿元，融资规模在2018年达到顶点，当年融资近1500亿元。

类似商汤、旷视这项的明星企业，更是资本的宠儿。它们吸引外界广泛关注的时刻，通常也是跟融资新闻联系在一起。2017年10月，旷视获得4.6亿美元C轮融资，刷新人工智能领域的融资记录。然而，不到一年，记录被孙正义的软银愿景基金以10亿美元投资商汤的单笔融资再次刷新。孙正义以一己之力，将商汤科技估值抬至60亿美元。

孙正义的投资方法是下重注，别人投几百万的，他投几千万，别人投几亿，他投几千亿。他喜欢问创业者的问题是“如果钱不是问题，你会怎么做？”，“我们怎么才能帮助你扩张100倍？”

但是，初代人工智能企业的业务扩张是人工+智能的模板。也就是说，业务扩张总要跟人力成本的支出增长联系在一起，基本成正比。

人类凭借肉眼可以辨别出不同物体之间的差别，但是机器视觉记住不同物体之间的特征，需要通过大量的训练。训练人类认识什么是小狗很容易，但是训练机器认识小狗很费钱，它需要通过无数张图片，才可以让机器认识什么是“小狗”。换到另外的场景，比如说让机器认识什么是猫，就需要将算法重新训练一遍。

而且，它所需要的成本也很高昂，不仅仅是算法、数据、还包括算力支持。还在谷歌大脑供职时，吴恩达（Andrew Ng）曾经跟好友，担任英伟达首席科学家的比尔·戴利（Bill Dally）抱怨，他的课题组要用数千万条YouTube视频来训练神经网络AI分辨猫与人的不同。结果训练神经网络AI的算力不够。如果用CPU来执行此类任务，完成课题大概需要1.6万块CPU。对任何一家存在于商业公司的研究项目组而言，申报1.6万块CPU的预算，也是十分困难的，即便是在不差钱的谷歌。

对中国人工智能企业而言亦是如此。商汤投入巨资建立了自己的超算中心，很烧钱。按一下“run”字按钮，进行一次数据训练迭代，整体花费至少50万元。CEO徐立称，“我们有150多个博士天天在算法平台上按‘run’，这还不算每年追加的数亿元GPU集群采购预算。”

商汤、旷视为代表的AI四小龙，收入高，亏损也高。导致亏损的核心是巨量的人力资本投入。它们总收入的75%花在人力成本，加上硬件成本及其他成本，最终总是难逃亏损。这让它们在安防领域的竞争优势，远远比不上老牌安防巨头海康威视，后者每挣一元钱，在人力成本上只花不到0.2元，硬件及其他成本约0.6元，最终还能挣0.2元。

更扎心的是，AI四小龙用亏损换来的，也不过是落地场景分散、产品标准化程度低，算法模型没有深度突破的局面。

风口来来去去，兜兜转转不停歇。旷视、商汤这样的企业，始终作为技术服务方的形式存在。

在人工智能概念火爆后，一轮轮融资和上市，为初代AI企业带来充沛的现金流。比如商汤，上市后，大手一挥花费33.28亿元，买入上海西岸国际人工智能中心西楼4楼至26楼。近日陷入现金流短缺危机的宝宝树，看到商汤的现金流，是要留下羡慕眼泪的，这样企业的CFO，大约是不会上演手持宝剑闯门的剧情。

商汤在现有费用的基础上，拥有能支撑企业5年运转的现金流，但仅凭借这些资本却无法让它们成为消费级的企业。

人工智能从2017年就开始成为国家战略，作为21世纪三大尖端技术——基因工程、纳米科学、AI——之一，曾被给予中国科技弯道超车的众望，但这些希望被分散在做自然语言、做语音识别、做机器视觉等细分领域大大小小的各类创业项目上，被错付在找寻可以支持商业化变现的落地场景上。

通用大模型，没有成为一种具备产业共识的选项。产业端没有出现过哪个创业项目，想要做可以语音识别、机器视觉、机器翻译、能沟通，可以回答问题的通用人工智能。

但是，创造出ChatGPT的OpenAI不是这样，它成立之初，就是要做通用大模型。

出门问问的创始人李志飞说，OpenAI成立就一直目标是做AGI，做通用模型，而不是完成具体任务的系统。在GPT-3后，OpenAI是产品驱动的AI研究。这跟Google或别的组织不一样。别的要么是偏学术的研究——一帮人做出一个系统，写一篇论文，弄个PR，又去干别的了；要么是像DeepMind是项目制，AlphaGo做一做，又做AlphaZero，又做AlphaFord。OpenAI与它们最大的不同在于，它是以产品为导向的迭代。

当 OpenAI 推出“ChatGPT+插件”的新结构时，它实际上已经完成了身份转化，变成一家消费级技术平台公司。全球的创业公司都可以通过它，推出自己的服务。目前已有的插件包括旅游、餐厅预定等，今后还会有更多。

至少在现在，“商汤”们还没准备好自己当主角。受限于野心、技术、资本等资源或者创新压力，被推上风口的中国AI公司们，研究的还是生意，如何让原本的生意与ChatGPT带来的机遇更好地结合——这确实也是它们等待多年的时机。

人工智能领域可以称之为以产品为导向的研究，无人驾驶算一个。正如周鸿祎当年对雷军办小米的预测——新终端会产生新的软件，电动汽车也带动了软件系统创新，比如无人驾驶辅助系统成为电动汽车智能化的重要支撑，就像理想汽车将自己定义为人工智能企业，而非造车企业。

蔚来、理想、小鹏三家造车新势力的软硬件一体的方案，留给其他人工智能企业的空间，是跟传统厂商合作。可惜，传统车企还在完成电动化的上半场，绝大多数没有进入到智能化的下半场。即便是电动车销量一骑绝尘的比亚迪，其创始人王传福也将自己抛进“无人驾驶是骗局”的争议里。

既没有硬件优势，又缺少软件算法和数据的初代人工智能企业，提供的智能驾驶解决方案——比如商汤的绝影，可以为车企提供驾驶员疲劳状态实时提醒、儿童遗忘检测系统等乘员感知技术，也不过是为人脸识别方案寻找新的落地场景而已，跟智能驾驶可以说是毫不沾边。旷视的智能汽车系统解决方案，跟商汤几乎是复制、粘贴形式的相似，都是提供车主身份验证、司机驾驶状态分析，本质当然也是一样，找个新瓶子装旧的汤药。

至于日前商汤发布的“日日新SenseNova”大模型体系，推出自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力，也不过是在宣传话术层面向大模型的靠拢。“体系”二字已经说明它不是一个模型，而是将人脸识别应用在不同场景的平台集合。

以上种种拥抱新能源汽车的方案和产品，都是功能单一的单独模型，只能语音识别，只能语义理解，只能画图。而且，商汤在发布会上的演示环节，出现AI模型站civitai的图片，引发网络质疑。商汤方面的解释是：秒画SenseMirage包含商汤自研AIGC大模型，也提供第三方社区开源模型。

图：被质疑来自AI模型站civitai的图片

商汤的大模型是应用场景层面的大模型。它被行业人士所知晓，但又没听闻有博主测试过。毕竟它只面向政企开放API接口。即便是开源模型，商汤对用户群体的选择也有要求，参照一下，2023年 2月，meta AI开源了LLaMa模型，有650亿的参数，它开源就是想让多人拿到更多的参数，此外，它还写了一篇介绍LLaMA模型的论文，介绍模型参数，并谨慎的称自己是“小模型"。而商汤从开源模型中拿到参数，却打包组合进“日日新”体系，变成给政企客户测试用的服务。

商汤在商业化上的更近一步，是从卖技术服务方案的企业，变成想要卖算力的企业。商汤在上海临港的AIDC算力中心，完成2.7万块GPU的部署并实现了5.0 exaFLOPS的算力输出能力。

卖算力是人工智能领域稳赚不赔的生意。当年面对吴恩达对算力不足的困惑，好友戴利的回答是：何必整1.6万块CPU，用英伟达公司的显卡产品，几十块就搞定。对于研究领域，算力太重要了。李彦宏讲过,吴恩达在谷歌的时候,据说很不爽,因为谷歌不相信GPU的方向,(吴恩达)到了百度随便买GPU,所以百度有了最大的GPU集群。

商汤的联合创始人徐立曾介绍，一位投资人跟他聊完之后，获得了灵感，买入英伟达的股票，获得了7倍回报。但是商汤给不了资本市场如此高的回报，它赶在2021年最后一个交易日上市，以3.99元的发行价上市——抢在跟投资人对赌协议到期之前。上市之初，商汤股价翻过一倍。目前，则是已经呈现腰斩的状态。

而英伟达成为人工智能行业的“水电煤”。2020年，全世界跑AI的云计算与数据中心，80.6%都在用英伟达的GPU驱动。2021年，英伟达宣称：全球前五百个超算中，七成由它家的芯片驱动。在最新的超算系统中，此比例是九成。

如今，人工智能卷向动辄几百几千亿参数的大模型领域，作为支撑模型运算的最基础的力量，算力更显重要。没有充足算力就带不动大模型。英伟达创始人黄仁勋说“AI进入iPhone时刻”的预测无论是否成真，这边卷向大模型的方向，英伟达都稳赚不赔。比如，百度的文心一言在画图理解上还需要进化，画的驴肉火烧、松鼠桂鱼等菜谱，让人啼笑皆非，却并不妨碍，其背后的算力提供方百度云，以此宣传自身服务。根据百度副总裁沈抖的说法：百度云是国内第一个训练出大模型的云。

对于商汤而言，情节相似。虽然只是大模型体系，且特供测试名额，但是它在发布会优先讲的是大装置，也就是临港AIDC出售算力的商业故事。创业近10年，商汤的梦想也不过从中国AI先驱转换为成为“英伟达平替”而已。它提供算力支持的绝大多数芯片，还是购于英伟达。

要求一家中国AI公司直接去奔赴宏远高大的梦想，在眼下还是个奢望。但至少，对于商汤们而言，在迷雾中摸索前行的商业化之路，因为大模型的进化而变得更加清晰。

印奇已经在最近的访谈中喊出了旷视要在5年内实现盈利的小目标。毕竟，先活下来，才有后续赶超的其他可能。在更令人激动的故事出现之前，或许能祈祷的只是：所有的等待和尝试都值得。