北京時(shí)間6月11-14日,計(jì)算機(jī)視覺頂會(huì)CVPR 2025在美國(guó)田納西州納什維爾舉行,小鵬汽車受邀參與自動(dòng)駕駛研討會(huì)CVPR WAD(Workshop on Autonomous Driving),與Waymo、英偉達(dá)、加利福尼亞大學(xué)洛杉磯分校(UCLA)、圖賓根大學(xué)(University of Tuebingen)等來自工業(yè)界和學(xué)術(shù)界的自動(dòng)駕駛同行共同探討業(yè)界最新AI技術(shù)。

AI大模型浪潮以來,自動(dòng)駕駛領(lǐng)域發(fā)生了技術(shù)范式的切換,已經(jīng)從過去人類手寫規(guī)則的模型,升級(jí)為基于海量數(shù)據(jù)訓(xùn)練出的AI模型,相關(guān)技術(shù)進(jìn)展也成了這幾年CVPR的大熱議題。在本屆的CVPR WAD上,小鵬世界基座模型負(fù)責(zé)人劉先明博士發(fā)表了題為《通過大規(guī)模基礎(chǔ)模型實(shí)現(xiàn)自動(dòng)駕駛的規(guī)模化》(Scaling up Autonomous Driving via Large Foudation Models)的演講,系統(tǒng)地介紹了小鵬汽車自研的業(yè)界首個(gè)超大規(guī)模自動(dòng)駕駛基座模型的歷程和方法,披露了其在模型預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)、模型車端部署、AI和數(shù)據(jù)基礎(chǔ)設(shè)施搭建方面的前沿探索,為同行帶去工業(yè)領(lǐng)域的實(shí)踐經(jīng)驗(yàn)。

同一天,在大洋此岸的中國(guó)廣州,小鵬汽車宣布推出全球首款搭載L3級(jí)算力平臺(tái)的AI汽車——小鵬G7,并且行業(yè)首次提出了「L3級(jí)算力平臺(tái)」的兩大標(biāo)準(zhǔn):第一,“有效算力”大于2000TOPS;第二,搭載本地部署的「VLA+VLM模型」。小鵬汽車認(rèn)為,「大算力+物理世界大模型+大數(shù)據(jù)」將共同定義未來“AI汽車”的能力上限,其中的“物理世界大模型”正是劉博士帶隊(duì)研發(fā)的小鵬世界基座模型。
今年4月,小鵬汽車已對(duì)外宣布正在研發(fā)參數(shù)規(guī)模達(dá)到720億的云端大模型,即“小鵬世界基座模型”。該基座模型是以大語言模型為骨干網(wǎng)絡(luò),使用海量?jī)?yōu)質(zhì)駕駛數(shù)據(jù)訓(xùn)練的VLA大模型(視覺-語言-行為大模型),具備視覺理解能力、鏈?zhǔn)酵评砟芰Γ–oT)和動(dòng)作生成能力。
如果說傳統(tǒng)的自動(dòng)駕駛模型是負(fù)責(zé)駕駛的“小腦”,那么基于大語言模型和海量高質(zhì)量數(shù)據(jù)訓(xùn)練的自動(dòng)駕駛基座模型,無疑是同時(shí)具備駕駛能力和思考能力的“大腦”。它能讓汽車像人類一樣,主動(dòng)思考和理解世界,絲滑地處理訓(xùn)練數(shù)據(jù)中沒有見過的長(zhǎng)尾場(chǎng)景,而不只是機(jī)械地執(zhí)行人類寫好的規(guī)則代碼。從“小腦”到“大腦”的飛躍,是自動(dòng)駕駛技術(shù)的質(zhì)變,能讓汽車完成從L2輔助駕駛到L4自動(dòng)駕駛的縱向技術(shù)迭代,最終抵達(dá)真正的無人駕駛。
劉博士表示,小鵬汽車在云上訓(xùn)練了10億、30億、70億、720億等多個(gè)參數(shù)的模型,并且持續(xù)向模型“投喂”更大規(guī)模的訓(xùn)練數(shù)據(jù)。目前,小鵬世界基座模型累計(jì)“吃下”2000多萬條視頻片段(每條時(shí)長(zhǎng)30秒)。在這一過程中,研發(fā)團(tuán)隊(duì)清晰地看到了規(guī)模法則(Scaling Law)的顯現(xiàn)。也就是說,模型的參數(shù)量越大、模型學(xué)習(xí)的數(shù)據(jù)越多,模型的性能越強(qiáng)。這是AI大模型浪潮以來,行業(yè)內(nèi)首次明確驗(yàn)證規(guī)模法則在自動(dòng)駕駛VLA模型上持續(xù)生效。
由于車端算力限制,最終能夠部署上車的模型,參數(shù)規(guī)模通常都比較小。目前,業(yè)界主流的車端模型參數(shù)一般在幾百萬到十億級(jí)別。如果在車端直接訓(xùn)練小模型,規(guī)模法則沒有發(fā)揮空間,模型的性能上限也會(huì)受限,更無從實(shí)現(xiàn)強(qiáng)大的CoT等能力。基于這一判斷,小鵬汽車早在去年就確定了云端基模技術(shù)路線,也即在云端“不計(jì)成本”地訓(xùn)練超大規(guī)模世界基座模型,再通過蒸餾的方式生產(chǎn)出適配車端算力的小模型。蒸餾能夠最大限度地保留云端基模的核心能力,幫助車端模型跳出車端算力的“一畝三分地”。
在規(guī)則時(shí)代,自動(dòng)駕駛模型屬于“模仿學(xué)習(xí)”模型,只能處理訓(xùn)練數(shù)據(jù)中見過的場(chǎng)景。而自動(dòng)駕駛核心難點(diǎn)在于處理那些罕見的、復(fù)雜的、事關(guān)安全的長(zhǎng)尾問題,但是這些問題發(fā)生概率極低,因此往往沒有足夠的數(shù)據(jù)供模型學(xué)習(xí)。到了AI時(shí)代,全新的解法已然出現(xiàn),“強(qiáng)化學(xué)習(xí)成”為了提升模型思考能力、幫助模型處理長(zhǎng)尾場(chǎng)景的重要手段。小鵬汽車證實(shí)了“云端基座模型+強(qiáng)化學(xué)習(xí)”的組合,是讓模型性能突破天際的最好方法。云端基座模型可以類比為人類的“天資”,而強(qiáng)化學(xué)習(xí)就像能力激化器,用來激發(fā)云端基座模型的智力潛能,提高基模的泛化能力。
與學(xué)術(shù)研究不同,整車廠的模型研發(fā)工作最終都要在真實(shí)的物理世界完成驗(yàn)證。目前,小鵬汽車就已經(jīng)在后裝算力的車端上用小尺寸的基座模型實(shí)現(xiàn)了控車。在沒有任何規(guī)則代碼托底的情況下,新的“AI大腦”展現(xiàn)出令人驚喜的基礎(chǔ)駕車技能,能夠絲滑地加減速、變道繞行、轉(zhuǎn)彎掉頭、等待紅綠燈等等。
小鵬世界基座模型并不是靜態(tài)的,它在持續(xù)學(xué)習(xí)、循環(huán)進(jìn)化(Continued online Learning)。可以將模型的迭代過程分成內(nèi)、外兩個(gè)循環(huán),內(nèi)循環(huán)是指包含預(yù)訓(xùn)練、后訓(xùn)練(包括監(jiān)督精調(diào)SFT和強(qiáng)化學(xué)習(xí)RL)和蒸餾部署的模型訓(xùn)練過程;外循環(huán),是指模型在車端部署之后,持續(xù)獲取新的駕駛數(shù)據(jù)和用戶反饋,繼續(xù)用于云端基模的訓(xùn)練。
值得關(guān)注的是,在此次CVPR WAD上,劉博士所提出的“軟件3.0時(shí)代,打造云端工廠,開啟AI時(shí)代模型生產(chǎn)新范式”同樣讓現(xiàn)場(chǎng)參會(huì)者留下了深刻的印象。事實(shí)上,為了研發(fā)世界基座模型,小鵬汽車從去年便開始布局AI基礎(chǔ)設(shè)施,建成了國(guó)內(nèi)汽車行業(yè)首個(gè)萬卡智算集群,用以支持基座模型的預(yù)訓(xùn)練、后訓(xùn)練、模型蒸餾、車端模型訓(xùn)練等任務(wù)。小鵬汽車將這套從云到端的生產(chǎn)流程稱為“云端模型工廠”。目前,這個(gè)“云端工廠”擁有10 EFLOPS的算力,集群運(yùn)行效率常年保持在90%以上,全鏈路迭代周期可達(dá)平均5天一次。如此算力規(guī)模和運(yùn)營(yíng)效率,對(duì)標(biāo)的是頭部AI企業(yè)。
“比起大語言模型,自動(dòng)駕駛基座模型的研發(fā)更復(fù)雜、更有挑戰(zhàn)”,劉博士表示自動(dòng)駕駛模型的訓(xùn)練數(shù)據(jù)遠(yuǎn)不止單模態(tài)的文本數(shù)據(jù),還包括攝像頭信息、導(dǎo)航信息等關(guān)于物理世界的多模態(tài)數(shù)據(jù)。它要求模型形成對(duì)物理世界的認(rèn)知,并在現(xiàn)實(shí)的駕駛場(chǎng)景中,借助自己對(duì)世界的認(rèn)知,完成推理思考、控車決策。對(duì)自動(dòng)駕駛來說,所有技術(shù)問題都要從頭驗(yàn)證,比如前文提到的規(guī)模法則。
在大模型時(shí)代,想成為一流的自動(dòng)駕駛公司,首先必須成為一流的AI公司。在大會(huì)現(xiàn)場(chǎng),小鵬汽車首次展示了兩個(gè)核心數(shù)據(jù):小鵬云上基模訓(xùn)練過程中,處理了超過 40萬小時(shí)的視頻數(shù)據(jù);流式多處理器的利用率(streaming multiprocessor utilization,即SM utilization)達(dá)到 85%。前者代表云端數(shù)據(jù)處理能力,后者所提及的“流式多處理器”是 GPU 的核心計(jì)算單元。SM利用率是評(píng)判GPU計(jì)算資源使用效率的重要指標(biāo)。
此外,他還從云端模型訓(xùn)練和車端模型部署兩個(gè)層面,拆解了小鵬汽車自動(dòng)駕駛團(tuán)隊(duì)提升世界基座模型訓(xùn)練效率的方法。在模型訓(xùn)練層面,小鵬的研發(fā)團(tuán)隊(duì)在CPU、GPU等方面做了聯(lián)合優(yōu)化,“VLM、VLA等多模態(tài)模型不同于LLM,訓(xùn)練過程不只受限于計(jì)算瓶頸,還受到數(shù)據(jù)加載瓶頸、通信瓶頸的限制,大規(guī)模并行訓(xùn)練首先要解決這些問題。”
針對(duì)數(shù)據(jù)加載問題,研發(fā)團(tuán)隊(duì)對(duì)CPU的利用做了如下優(yōu)化:
l 啟用額外的CPU節(jié)點(diǎn),以提升GPU節(jié)點(diǎn)的數(shù)據(jù)加載能力
l 對(duì) PyTorch 進(jìn)行定制化改造,降低進(jìn)程間通信開銷
l 采用激進(jìn)的數(shù)據(jù)物化策略,進(jìn)一步減輕 CPU 在數(shù)據(jù)加載上的負(fù)載
l 優(yōu)化打亂(shuFFling)模式,在速度與隨機(jī)性之間取得平衡
針對(duì)GPU計(jì)算資源的利用,研發(fā)團(tuán)隊(duì)做了以下動(dòng)作:
l 使用 FSDP 2 實(shí)現(xiàn)模型分片
l 使用 FP8 混合精度訓(xùn)練
l 利用 Flash Attention 3 加快計(jì)算速度
l 自定義Triton 內(nèi)核
在車端模型部署層面,小鵬汽車有一個(gè)與眾不同的優(yōu)勢(shì):自研的圖靈AI芯片專為AI大模型而定制,模型、編譯器、芯片團(tuán)隊(duì)針對(duì)下一代模型開展了充分的聯(lián)合研發(fā)工作,比如定制 AI 編譯器以最大化執(zhí)行效率,協(xié)同設(shè)計(jì)硬件友好、量化友好的模型架構(gòu),確保軟硬件充分耦合,最終“榨干”車端算力。
“車端計(jì)算量的重要來源是輸入的 Token (詞元)數(shù)量。以配備了 7 個(gè)攝像頭的 VLA 模型為例,每輸入約 2 秒視頻內(nèi)容,會(huì)產(chǎn)生超過 5000 個(gè)Token。我們一方面要壓縮輸入中的冗余信息,降低計(jì)算延遲。另一方面還要確保輸入視頻的長(zhǎng)度,以獲得更豐富的上下文信息。”劉博士稱,小鵬團(tuán)隊(duì)創(chuàng)新設(shè)計(jì)了針對(duì)VLA模型的 token 壓縮方法,可在不影響上下文長(zhǎng)度的情況下,將車端芯片的token處理量壓縮70%,比如將5000Token壓縮到1500Token。”
回到小鵬汽車此次在CVPR WAD分享本身,作為唯一受邀演講的中國(guó)車企,以技術(shù)創(chuàng)新為源動(dòng)力的小鵬汽車將經(jīng)過幾十萬用戶驗(yàn)證的自動(dòng)駕駛實(shí)踐成果反哺學(xué)術(shù)界,以“商業(yè)-科研”的良性循環(huán),為全球自動(dòng)駕駛研究注入了寶貴的動(dòng)力。





