本周观点
1.1 英伟达:以Omniverse为核心的的具身智能路径
英伟达选择具身智能路径,特点是从边缘向云端开发,主要产品为VIMA机械臂和Isaac AMR移动机器人平台。英伟达在ITF2023发布基于VIMA大模型的机器臂,据英伟达介绍,VIMA能够理解、推理物理世界并与物理世界互动,例如根据视觉、文本提示移动、排列物体,VIMA还可以运行在Omniverse模拟物理学并做出符合物理定律的预测。Isaac AMR 是一个用于模拟、验证、部署、优化和管理自主移动机器人车队的平台,包含了边缘到云的软件服务、计算以及一套参考传感器和机器人硬件,通过连接 DeepMap 的云服务,加速大型环境的测绘和语义理解,在无需资深技术团队的情况下,将机器人对大型设施的测绘时间从数周缩短到数天,并实现厘米级精度。它可以生成丰富的 3D 体素地图,并用它们为多种类型的 AMR 创建占用地图和语义地图。
(资料图)
具身智能是指大模型模仿人脑工作方式来训练算法,并进行自我理解、自我优化最终实现像人类一样的学习、成长。英伟达VIMA支持文本、视觉、语音等多模态作为机器人的任务输入,通过包含仿真基准测试、60多万个专家轨迹、多种级别评估协议等系统化的泛化测试作为目标输出集合;使用预先训练的 T5 模型对多模态提示进行编码,并通过交叉注意力层在提示上对机器人控制器进行调节,预测以提示和交互历史为条件的电机命令作为预测输出集合;通过模型预测输出和目标输出进行比较和自我优化驱动VIMA自主学习,在最难的零样本泛化训练任务中,VIMA的任务成功率比之前的最优方法提高了最多2.9倍,而使用10倍较少训练数据,VIMA的性能仍然比顶级竞争方法提高了2.7倍。
具身智能最核心的竞争力是真实世界数据集,英伟达Omniverse是行业高标。具身智能训练需要特殊的数据集,以VIMA机械臂为例,需要以下数据:
1)多模态任务集:17个元任务,每个元任务还可以拆分成1000个单独任务,包括语义理解、视觉分割等各类多模态任务
2)成功案例:英伟达准备了650K个成功轨迹
3)奖励基准:建立VIMA-Bench使用概率论的方法合理评估任务AI预测结果,并给予AI正确反馈
英伟达Omnivers是全球领先的数字孪生平台,包含 Nucleus、Connect、Kit、Simulation 和 RTX 渲染器五个重要组成部分,这些部分以及可互操作的第三方数字内容创作 (DCC) 工具和渲染器,加上由第三方和 NVIDIA 构建的扩展程序、应用和微服务组成了完整的 Omniverse 生态系统。通过USD等真实世界数据集,可以做到数字孪生精准符合物理定律、物体运动反应精准且与显示同步等特性,这些真实世界数据是英伟达具身智能能够落地的重要基础。
英伟达边缘AI自下而上突破的具身智能路径已经打通,结合云计算可以在边缘AI从开发到部署的各个环节提供丰富技术支持。NVIDIA 选择微软Azure作为Omniverse Cloud的首家云服务商。微软 Azure 将能支持企业在享有 Azure 云服务的规模分析特性与安全性的同时,访问全套Omniverse软件应用及NVIDIA OVX™计算系统,为客户提供了一套可用于设计、开发、部署和管理工业元宇宙应用的全栈式云环境和平台功能,连接并使用NVIDIA合作伙伴生态系统的相关产品,如英伟达认证工作站、边缘计算模块等。
NVIDIA Isaac是专为机器人开发和AI打造的加速平台,AMR移动机器人平台率先落地。英伟达Isaac平台从预训练模型开始,通过Isaac Replicator 中生成的合成数据进行增强,并使用 NVIDIA TAO 进行训练,从而实现目标性能;利用本地和云端提供的NVIDIA Isaac Sim创建物理精准的逼真环境,以开发和测试与机器人运行相关的各个方面;利用Nova Ori节省时间,并使用硬件加速 SDK 将 AI 带入到基于NVIDIA Jetson的机器人,例如用于基于ROS的机器人的Isaac ROS GEM、用于视频流解析的NVIDIA DeepStream SDK、用于自然语言处理的NVIDIA Riva;通过EGX Fleet Command 和 Isaac for AMR(包括 Metropolis、CuOpt 和 DeepMap)管理机器人编队以优化生产力。Isaac AMR 是用于模拟、验证、部署、优化和管理自主移动机器人车队的平台,包含了边缘到云的数字孪生训练、软件服务、计算以及一套参考传感器和机器人硬件,可加快 AMR 的开发和部署速度,减少成本和缩短产品上市时间。
Isaac AMR 建立在 NVIDIA Nova Orin 参考架构的基础。Nova Orin包括立体相机、鱼眼相机、2D 和 3D 激光雷达在内的多个传感器与系统模块集成在一起,支持先进的AI 和硬件加速算法,提供 275TOPS 的实时边缘计算性能。同步和校准的传感器套件为实时三维感知和绘图提供了传感器的多样性和冗余性。用于记录、上传和重放的云原生工具使调试、地图创建、训练和分析变得容易。
1.2 高通:云边一体的混合AI路径
高通提出云边一体的混合AI路径,深度开发边缘AI,云端AI选择与微软等公司合作。据高通混合AI白皮书,在混合AI场景中,边缘大模型是云端大模型的感知器官,例如用户对手机说话,自动语音识别(ASR)AI模型如Whisper在设备上转换语音为文本,发送到云端,云端运行大模型,回发文本答案。在进阶版本中,设备AI更进一步保护隐私,承担更多处理,提供更个性化的提示给云:通过设备学习和个人数据,设备创建用户个人形象,与调度程序协作,基于上下文提供更好的提示;例如,用户要求手机预约和朋友在最爱餐厅吃饭,对简单查询,较小的大模型可在设备上运行无需云交互,如果用户需要复杂信息,则本地将需求转化为提示发给云端大模型并返回详细答案。
据高通混合AI白皮书,混合AI主要有以下优点:
1)经济性:降低云端推理成本、高效利用边缘算力、降低AI应用开发门槛;
2)能耗低:边缘设备可以以较低能耗运行大模型,若考虑处理和数据传输等因素,能耗节约更加显著;
3)可靠性:边缘AI不受网络状况影响,运行更加稳定;
4)隐私性:数据完全在本地推理,大幅降低泄密风险;
5)个性化:边缘设备可以搜集用户真实生活中的行为、价值观、痛点、需求、关注问题等信息形成定制化服务。
软件端:高通AI开发栈已经发布。高通AI开发栈支持主流AI框架,如TensorFlow、PyTorch、ONNX和Keras,以及TensorFlow Lite、TensorFlow Lite Micro、ONNX runtime等运行时。此外,它还包括推理软件开发工具包(SDK),如备受欢迎的Qualcomm®神经处理SDK(适用于Android、Linux和Windows)。开发人员库和服务支持最新的编程语言、虚拟平台和编译器。在较低的层次上,高通AI开发栈系统软件包括基本的实时操作系统(RTOS)、系统接口和驱动程序。高通AI开发栈在不同的产品线上提供丰富多样的操作系统支持,包括Android、Windows、Linux和QNX,以及Prometheus、Kubernetes和Docker等部署和监控基础设施高通AI开发栈还包括AI Studio,支持从设计到优化、部署和分析的完整大模型工作流,将所有工具整合到一个图形用户界面中,并提供可视化工具,简化开发人员的体验,使他们能够实时查看模型开发情况,包括AI模型效率工具包(AIMET)、AIMET模型仓库、模型分析器和神经架构搜索(NAS)。
硬件端:高通Hexagon Processor核心。高通Hexagon Processor采用全新的架构以及专用的供电系统,在AI推理方面增加了特殊的硬件来改善组卷积、激活函数加速,并将张量加速器的性能提升一倍,采用独特的方法将复杂的AI模型分解为微块(Micro Tile)以加速推理过程,标量、向量和张量加速器可以同时工作,无需每次都涉及内存,从而节省功耗和时间。此外还通过物理桥梁实现了与Hexagon的无缝多IP通信。这种连接可以驱动高带宽和低延迟的用例,例如认知ISP或在游戏场景中提高低分辨率。高通Hexagon Processor成功地将多个深度学习模型从FP32转换为INT4,最高降低60%能耗同时增长90%性能。
高通已有Stable diffusion模型落地案例,未来大模型AI边缘部署规划清晰。2023年2月,高通利用高通AI软件栈(Qualcomm AI Stack)执行全栈AI优化,首次在Android智能手机上部署Stable Diffusion。2023年5月,高通发布混合AI白皮书,预计2023年边缘AI覆盖10亿参数以下的各类模型。
1.3 中科创达:大模型+大平台的软硬一体化发展
2023年5月18日,中科创达发布Rubik大模型,是国内首个边缘AI终端统一操作系统的雏形,同时中科创达还与亚马逊云科技共同成立人工智能联合创新实验室,并展示了TurboX模组、智能音箱参考设计、Rubik GeniusCanvas等一系列创达魔方产品。据公司2022年报,公司自成立以来,一直在端侧、边缘侧、云端技术进行沉淀和积累,目前已成为上述领域全球领先的技术厂商。此外,公司的机器人产品覆盖了当下几乎全部的机器人场景以及全球众多机器人厂商。并且,公司与产业链的技术和产品的头部企业保持深度的合作,构建了生态的卡位优势。公司在边缘AI的软件端拥有大模型,硬件端深耕高通、亚马逊等科技巨头的生态,软硬一体化的发展路径极具潜力。
1.3.1 横向看:中科创达Rubik围绕现有业务构建AI生态
Rubik大模型系列核心产品为Rubik Language语言大模型,董事长预计2024年时将达到ChatGPT3.5水平。Rubik Edge、Rubik Multi-Modal以及预计2027年推出的Rubit Robot均将服务于智能手机和智能驾驶领域,提升人机交互体验。与此同时,Rubik系列围绕人机交互和现有业务搭建生态:RubikStudio、RubikAuto、RubikDevice和Rubik Enterprise。在拥有能力强大的大模型同时, 也会把大模型变成各种各样的中小模型,以满足各类场景和知识的拆分、提高与客户的适配性。
与谷歌类似,中科创达Rubik大模型有望首先落地机器人。在众多智能硬件产品中,中科创达的机器人产品可覆盖各种不同的应用场景,并已助力全球众多机器人厂商实现了产品的量产落地。基于在机器人领域的深厚积累,中科创达将智能音箱与机器人进行融合,并通过Rubik大模型的不断训练, 已经实现了能够自由对话的智能销售机器人,可以自主回答客户关于企业及产品的各种问题。
1.3.2 纵向看:中科创达AI应用生态整装待发
中科创达Smart to Intelligent战略开启,实现从智能应用为中心到模型驱动的机器与机器、机器与人交互的全新智能世界。Rubik大模型将与公司现有的智能汽车和物联网业务整合,并通过私有化部署和系统调优来满足各行业需求。公司有望通过大模型持续优化,将机器人变为现实,并在未来智能计算行业的toBtoC领域中发挥核心竞争优势。
RUBIK Auto:汽车实质是一个机器人, 车厂对于汽车大模型主要有以下三类需求,第一是端侧运行,端侧的体验、数据、性能是最好的,也是最能保护客户隐私,但硬件需求更高;第二是私有云+Plugin,可以灵活调优;第三类是多种开放模型共存。公司的RUBIK Auto将支持客户私有化部署(已经与海外头部车厂合作,基于公司模型做POC研发)、也支持模型量化、剪裁,进而适配各类芯片,灵活与车厂对接。
RUBIK Device:在智能硬件中,只要涉及大计算的产品,创达的份额领先的智能硬件原来部署操作系统可以直接加入AI,一旦AI沉淀到边缘侧,意味着智能硬件变成机器人,就会形成场景的中心。无论是家庭的场景、楼宇的场景、工厂的场景都可以通过边缘化部署使得等每一个场景都成为智能中心。
RUBIK Enterprise(企业版):中科创达的明显优势之一是国际化, 公司在全球15个国家和地区拥有研发中心和团队。公司会通过本地化做部署,支持客户的私有化部署;公司的明显优势之二是软硬件一体,无论是推理还是训练,公司对整个底层的平台都非常了解,因为不管是AI框架,还是说开源的其它框架,本质上是操作系统里面的一部分,无论是数据并行,还是模型并行,公司认为都是一个个中间件。这些明显的优势,能够让我们最终把模型性能、效率做到最优,把模型的规模做到最佳,能够在边缘侧运行起来,为千行百业赋能。
RUBIK Studio:基于公司对操作系统的深刻理解,公司把操作系统的每一段分化、模型化,积累过去几千个成功发布的Package、几千亿行的代码累积、以及长期开发的经验积累,将安卓知识变成巨大知识库,发挥巨大的价值,Rubik Studio将会是未来改变整个的一个大的工具和环境。用户可以通过Rubik Studio直接将便捷快速地进行PC应用、手机应用、网站相对功能封闭的开发等。
1.4 苹果:ChatGPT首先接入IOS,WWDC 2023值得期待
2023年5月18日,OpenAI发布IOS版ChatGPT APP(同时官宣安卓版APP正在开发中),根据苹果官网,该应用仅支持英语,年龄分级为“12岁以上”,支持网络同步聊天记录、whisper语音输入等功能。IOS版ChatGPT下载应用是免费的,但会提供APP内售价19.99美元的“ChatGPT Plus”付费项目以开启性能更强的GPT4大模型使用权限。
ChatGPT APP有望演绎成手机超级APP的雏形,重塑以此为基础的AI应用生态。据九派财经,IOS版ChatGPT APP已经拥有灵活解决各类日常问题的能力,ChatGPT APP可以提供即时答案,用户无需筛选广告或多个结果即可获得准确的信息;提供量身定制的建议,用户可以向其寻求有关烹饪、旅行计划或制作深思熟虑信息的指导;提供创意灵感,为用户生成礼物创意、概述演示文稿或写出优美的诗歌。另外,ChatGPT APP还可以通过专业信息,如想法反馈、笔记摘要和技术主题等,帮助用户提高工作效率,并为用户提供学习机会,帮助其按照自己的节奏探索新语言、现代历史等。我们认为,在ChatGPT+Plugin的AI应用生态成功落地的前提下,ChatGPT APP有望成为手机AI应用生态的核心,通过手机用户海量交互数据的训练,未来用户有望通过ChatGPT APP调用其它应用完成各类刚需任务,ChatGPT APP将发展为前所未有的超级APP。
苹果WWDC 2023的标语为“Code new worlds”,Siri作为重要人机交互入口有望成为苹果切入AI的重要抓手。据IT之家、新智元、腾讯云,苹果最晚于2023年2月开始开发让用户用 Siri 为MR制作程序的应用,这一应用程序构建方法背后的技术来自于苹果在2017年收购的Fabric Software:用户可以使用Siri来构建AR应用程序,要求AI助手帮助构建允许虚拟动物在房间内移动,在真实物体之上或周围移动,而无需从零开始设计动物,编程动画,并计算其在有障碍物的3D空间中的移动的应用程序,这包括“扫描并将真实世界的对象导入头显,以便它们可以在3D中准确表示,并如同存在于现实生活中一样表现”。
1.5 华为:IEF+高斯数据库全面覆盖边缘AI场景
华为智能边缘平台IEF是基于云原生技术构建的边云协同操作系统,可运行在大量异构边缘设备上,并以轻量化的方式将丰富的AI、数据分析、中间件等应用从云端部署到边缘,满足用户对智能应用边云协同的业务诉求。IEF具有可以将华为云AI/大数据的能力延伸到边缘,支持视频智能分析、文字识别、图像识别、大数据流处理等能力,就近提供实时智能边缘服务;支持容器和函数两种运行方式,满足用户轻量化应用管理的诉求;原生支持kubernetes与docker生态,应用快速启动、快速升级;支持Python、NodeJS等函数引擎,快速响应边缘的事件;此外还有兼容性优、安全可靠等特点。
华为高斯数据库是华为基于openGaussDB自研生态推出的企业级分布式关系型数据库,具备企业级复杂事务混合负载能力,支持分布式事务强一致,同城跨AZ部署,数据0丢失,支持1000+扩展能力,PB级海量存储。同时拥有云上高可用,高可靠,高安全,弹性伸缩,一键部署,快速备份恢复,监控告警等关键能力,能为企业提供功能全面,稳定可靠,扩展性强,性能优越的企业级数据库服务。2023年6月7日,华为高斯将召开数据库加速金融核心业务升级发布会。
投资建议:AI从云到边的大趋势确立,我们前期判断得到持续验证:边缘AI是产业趋势,具身智能是内在逻辑(AI自我提升需要人与环境的交互数据集中在终端),机器人是终极应用。我们于2023年5月13日发布报告《中科创达:大模型从云到边,终端交互革命孕育历史机遇》中明确提出谷歌大力进军终端大模型市场,终端AI成为下一个兵家必争之地;随后在5月14日发布《谷歌的“帝国反击战”:AI从云到边的拐点》详细阐述谷歌的从云到边的AI蓝图,明确提出AI边缘部署已经走进现实;通过发布IOS版ChatGPT、Windows+AI等AI体验报告,我们于5月21日发布《ChatGPT APP标志AI行情新阶段》,明确提出大模型作为AI时代的终极操作系统,ChatGPT超级APP只是第一步,生成式AI由云向端的迈进仍在加速。本周,英伟达、高通、中科创达等公司都发布相关产品加快边缘AI落地速度,下周华为、苹果发布会预计终端AI均是核心看点,AI从云到边的大趋势已经无比明确,建议关注中科创达、科大讯飞、萤石网络等龙头企业。
来源:券商研报精选