商汤绝影王晓刚：“两段式”端到端再做十年，亦成不了智能驾驶的“ChatGPT”

fny5jt9 · 发表于 2024-8-22 13:12:05

商汤科技联合创始人、首席专家、绝影智能汽车事业群总裁王晓刚

在刚才结束的WAIC 2024上，商汤绝影颁布了一段一镜到底的视频。

视频中，一辆只搭载7个摄像头的UniAD的车辆，在无图状况下，不仅自由地穿梭在城市的施工道路、大型路口、红绿灯路口，即使是在交通情况繁杂的乡村道路，亦能够顺利经过无标识线非对叫作路口，避让停在路边的静止车辆以及窄道车辆，还能在无车道线大曲率弯道右转。

这一系列丝滑的驾驶动作，让人印象深刻。其背面仰赖的正是商汤绝影在行业首个提出的感知决策一体的端到端自动驾驶方法UniAD。

在过去几年的时间里，智能驾驶始终都是车企追逐的焦点，但实质的驾驶水平常常差强人意。在ChatGPT横空出世之后，智能驾驶行业亦始终在期待一样的质变时刻。

恰这里时，“端到端”指明了一个方向。今年败兴，智能驾驶行业针对端到端的关注度一路升温。无论是小鹏、理想、蔚来、长城这般的车企还是华为、元戎启行、毫末智行这般的技术供给商，都不约而同地转向端到端路线。

早在2022年末，商汤绝影便提出了感知决策一体化自动驾驶通用模型UniAD，DriveAGI亦是在UniAD的基本上迭代而成，经过多模态大模型加持端到端方法，打造下一代自动驾驶技术。即便在路上遇到救护车，凭借DriveAGI的认知能力，车辆亦能够准确识别理解目的，并主动让路。

DriveAGI不仅能识别救护车，还能做到主动让行执勤救护车

经过两年的先手布局，此刻，商汤绝影入局早、迭代快的优良正逐步显现出来——已然与超过30家国内外车企合作，覆盖超90款车型，累计交付195万辆智能汽车。在合作过程中，商汤绝影与车企找到各自的边界，发挥各自的优良，正一道加速自动驾驶“GPT时刻”的到来。

“技术路线不对，就算上车亦白费”

站在众多玩家扎堆进军端到端的时刻，商汤科技联合创始人、首席专家、绝影智能汽车事业群总裁王晓刚向钛媒介App回顾了当初为么会抢先看准了端到端？

2017年，商汤与日本本田汽车宣布合作，一起开发L4自动驾驶技术。商汤本身是以AI视觉技术起家，当时本田汽车需求商汤只用摄像头，无高精地图的状况下实现智能驾驶功能，这能够被看作是端到端的雏形。自那之后，团队起始连续科研端到端。

此刻，端到端的竞争虽然如火如荼，但一个广泛存在的问题是：端到端技术路线还未形成最佳实践，技术路线存在歧义。

王晓刚对钛媒介App介绍说，日前大部分的端到端方法，采用的都是更易落地的“两段式”方法，即由感知和决策两个模型构成。“第1段感知的部分本身就已然在应用神经网络了，因此呢变化不大。最大的变化在第二段的规划掌控部分，原来这部分是靠写规则实现，此刻则是一样应用神经网络去做。”

不外，在他看来，“两段式”的方法便是把两个小模型接在一块，端到端联合优化一下。在“两段式”方法里，信息经过感知模型过滤后，损失较多，只剩下有些人、车、物之类的标签，因此呢第二段模型事实上只是一个小模型。“两段式方法和一段式方法最核心的差异就在于，是小模型时代还是大模型时代。”

王晓刚直言，“两段式”方法就算再做10年，亦成不了自动驾驶的“ChatGPT”。

正是思虑到这些问题，从开发一起始商汤绝影采用的便是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型中，实现感知决策一体化的“一段式”方法。亦便是由传感器输入，直接输出行径的轨迹。

在这个过程中，设备会像人脑同样综合信息并思考判断，就像你在读一篇推理小说，小说中有各样区别的名人和情节，有密室、有谜团，你在读推理小说的过程中完全不清楚接下来会出现什么。经过小说区别的名人和情节，你预测凶手有几种可能性，设备大脑所做的内容就像一本推理小说同样。

不外，一段式方法和两段式方法虽然仅有一字之差，然则难度却相差悬殊。王晓刚解释说，采用一段式路线，前端的视频信息量是非常巨大的，但输出的信号又需要非常精细，这对全部网络的训练、数据和Pipeline的需求更高。

“‘一段式’方法很难，但一旦模型学出来能力会很强，这才是咱们追求的自动驾驶里面的‘ChatGPT’时刻。”王晓刚说到。

“纯粹的端到端自动驾驶模型不是自动驾驶的最后答案”

技术路线的选取是第1步。2022年底，商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型UniAD，并在次年荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文。

今年北京车展，商汤绝影展示了UniAD的实车上路成果，能在城区道路和乡村小路上自如行驶。紧接着，在WAIC 2024上，商汤绝影又展示了UniAD城区繁杂道路、乡村小路等一镜到底的实车演示。

UniAD是一个纯视觉端到端自动驾驶通用模型，虽然提高了智驾系统的驾驶能力，但纯粹的端到端自动驾驶模型不是自动驾驶的最后答案。王晓刚暗示，智能汽车走向超级智能体的重要标志便是进一步具备对开放世界的感知、推理、决策及交互能力。因此呢，商汤绝影又基于多模态大模型打造智驾大模型DriveAGI。

DriveAGI的进化方向便是让端到端智驾“可解释、可交互”。

所说的可解释，便是不仅让车辆能够更像人同样理解繁杂的现实世界，洞察各类交通参与者的行径动机，快速学习各样交通规则，把握瞬息万变的道路信息，还能向用户解释驾驶决策的推理过程。

例如，一辆正常行驶在两车道右侧的车辆，在搭载了DriveAGI之后，当它发掘后方有救护车接近时，能够第1时间识别到，并且能够判断出该救护车是在执勤状态，需要让路。因此呢，在第1时间判断出左侧道路还有变道空间，即时由右侧道路变道左侧，保准救护车顺利快速通行。全部过程就类似人脑同样，针对路上遇到的区别状况不仅能看清楚，还能基于交通规则等进行思考和判断，做出正确的驾驶动作。

可交互性则指的是用户不仅能够经过问询让DriveAGI解释自己的决策过程，还能经过语音或手势指令来掌控自动驾驶行径。例如，将来在自动驾驶状态下，导航指示车辆需在下个路口调头以抵达目的地，但驾驶员知晓可在前方有近路能够直接转弯，那样他只需对系统说出“直接左拐”，系统便会按照当前路况来执行这一指令。

从黑盒运行、单向输出到可解释、可交互，关键的窍门在于——怎样去训练模型。

模型训练的第1要素便是数据量大、模型参数大。马斯克之前曾谈到过数据对自动驾驶模型的重要性：训练了100万个视频Case，勉强够用；200万个，稍好有些；300万个，就会感到Wow；到1000万个，就变得难以置信了。

王晓刚亦暗示，此刻网络结构并非核心奥密，大众的网络结构都较为类似。关键在于，在类似的网络结构下，怎样实现卓越的性能质量。这重点取决于模型规模是不是足够大以及数据生产管线是不是强大。

深耕AI行业十年，商汤落地了众多行业，城市智能、商场、医疗、金融、自动驾驶，乃至在钢铁、煤矿、电力等工业场景，在各个行业累积了海量的多模态数据。7月5日，商汤绝影在WAIC 2024上现场演示的搭载在200 TOPS+平台上的8B模型车端安排方法就有80亿参数。

商汤绝影车载端侧8B多模态模型性能

量有了，质亦得保准。王晓刚就暗示，不可一味只关注数据量和模型的参数量，倘若无一个难的任务，即使再增多数据量和参数，模型的能力亦只是在原地打转。

紧接着，他还举例说，蜜蜂能够在那样繁杂的蜂窝里工作，做得那样精细，那样好，但它们永远都仅有单一的技能，只能干这一件事。而人的大脑就不同样了，人类经过几千年的进化，能够把卫星火箭都送上天去。“这便是通用的能力与专属的能力的区别。蜜蜂它一生、两辈子、三辈子都只做一件事，就像模型同样，倘若你始终只给它喂人、车、物的数据，喂一生它还只能干这个事儿。”

除了数据之外，强大的算力供应，是如今最稀缺，亦最有竞争力的要素。

商汤绝影是业内少有的算力供应大户。从2018年起始，商汤起始布局算力基本设备，在上海临港建设智算中心AIDC，持有45000张GPU对外供给大模型训练与推理服务，能够训练几千亿乃至万亿参数的模型。依托AIDC加持的商汤绝影的运营算力规模达到12000 P，预计到2024年第四季度，峰值算力将达到25000 P。

“不排斥白盒交付，草木繁荣才可生态共赢”

技术再好，关键还是要看落地。

王晓刚介绍说，商汤绝影的量产智驾制品已落地广汽埃安LX Plus、合众哪吒S、广汽昊铂GT、红旗等多个品牌及车型，高速NOA等功能亦起始落地，同期绝影还在推进更加多车型交付。6月初，广汽和一汽入选国内首批L3试点项目，商汤绝影为她们供给面向L3的感知算法。不止如此，商汤绝影日前的多个量产智驾方法在将来均可升级为端到端架构。

手握不少客户和订单，但以商汤绝影为表率的技术方法供给商们不得不面对的一个问题——车企自研。

以特斯拉为例，它的特点就在于它既做AI，持有海量基本设备，例如成千上万的GPU，同期还有每年数百万台的车，把握着终端用户的信息和数据，形成为了自己的闭环。

其他家车企是不是会效仿？以及能不可效仿？王晓刚暗示，即便如微软这般实力强大、人力资源丰富的机构，亦选取砍掉了自己的AI团队，转而与OpenAI合作。

同期，他解释说，所说的“自研”并不是说要从头到尾都由自己来完成所有事情，关键在于可控。“只要让车企客户认识并主导掌控其中出现的所有事情，能够利用自己的平台对制品进行迭代，这就足够了。”

因此呢，在合作方式上，以往商汤绝影倾向于将代码做为黑盒交付，认为这是最宝贵的资产。但王晓刚透露，此刻商汤绝影并不排斥白盒交付。由于即便供给了代码，经过更深入的迭代与合作，亦能够快速提高竞争力。

另外，合作还能够帮忙车企节省资金。“咱们在大模型上的投入已超过100亿，并这里过程中创立了自己的基本设备、大型安装和盈利的云服务，实现了收支平衡。经过与咱们合作，车企将无需承担这部分巨额投入。车厂无需亲自涉足这些行业，咱们会向车厂开放关联资源。”

不外，他亦坦言，与车企合作面临的一个问题是数据反馈的不足。一般终端数据的反馈依赖于车厂的主动供给，这可能引起数据迭代和循环效率不高。因此呢，与车企客户的深入合作显出尤为重要。

商汤绝影经过白盒交付的方式，帮忙车企伙伴理解大模型技术、把握know-how，另一方面，做为合作伙伴的主机厂能够和绝影共享不触及隐私和机密的数据和信息，从而训练出更加强大的车载原生大模型，双方一起研发，加速制品迭代，打造真正以用户为中心的智能汽车原生的AI大模型制品。

在行业领先的丰沛算力、全世界领先的「日日新」大模型能力的基本上，经过更加深入的战略合作模式，商汤绝影将与主机厂等众多合作伙伴共创共赢。

商汤绝影把端到端大模型上车时间定在2025年，王晓刚暗示，ChatGPT出来的时候，亦并不是所有的事情都做得完美，例如GPT 3.5在做任务时，亦有非常多事情干欠好。然则关键在于大众都看到了一个正确的方向，沿着这条路走是没问题的，只是还需要再多迭代几个月的时间。端到端一样如此。

同期，他还自信地暗示，明年商汤绝影的端到端起始量产的时候，用户会在有些场景中看到以前完全没法做到的事情，而哪些就会是涌现出的新能力。

英伟达汽车事业部副总裁吴新宙曾公开表示，端到端正是智驾三部曲的最后曲。而在通往终局的路上，商汤绝影值得重点关注与期待。返回外链论坛：www.fok120.com，查看更加多

责任编辑：网友投稿

流星的美 · 发表于 2024-9-10 00:02:21

谢谢、感谢、感恩、辛苦了、有你真好等。

b1gc8v · 发表于 2024-9-26 12:51:14

感谢您的精彩评论，为我带来了新的思考角度。

4lqedz · 发表于 2024-10-16 12:24:34

楼主节操掉了，还不快捡起来！

4zhvml8 · 发表于 2024-10-26 13:29:12

我完全同意你的看法，期待我们能深入探讨这个问题。

4zhvml8 · 发表于 7 天前

我完全赞同你的观点，思考很有深度。

		自动登录	找回密码
密码			立即注册