2024百人會(huì)|百度王亮：VisionTakesAll自動(dòng)駕駛技術(shù)的實(shí)踐

作者：森林 2024-03-18 20:53:25 來(lái)源：新能源汽車網(wǎng)

　　2024年3月15日，中國(guó)電動(dòng)汽車百人會(huì)論壇(2024)在京開(kāi)幕。圍繞“鞏固和擴(kuò)大新能源汽車發(fā)展優(yōu)勢(shì)”這一核心議題，中國(guó)電動(dòng)汽車百人會(huì)論壇(2024)將舉辦1場(chǎng)高層論壇、1場(chǎng)國(guó)際論壇、2場(chǎng)閉門會(huì)議、10場(chǎng)主題論壇，全面強(qiáng)化高端前瞻、全球視野、跨界融合的論壇特色。

　　在3月17日下午舉行的智能汽車創(chuàng)新技術(shù)與產(chǎn)業(yè)論壇上，百度智能駕駛事業(yè)群組(IDG)首席研發(fā)架構(gòu)師，技術(shù)委員會(huì)主席王亮發(fā)表了演講。

　　百度智能駕駛事業(yè)群組(IDG)首席研發(fā)架構(gòu)師，技術(shù)委員會(huì)主席王亮

　　以下為演講實(shí)錄：

　　尊敬的各位領(lǐng)導(dǎo)，行業(yè)同仁和媒體朋友：

　　大家好!我叫王亮，在百度智能駕駛事業(yè)群組，目前在負(fù)責(zé)智能駕駛的Tier1業(yè)務(wù)，今天很榮幸有機(jī)會(huì)和大家進(jìn)行一場(chǎng)關(guān)于技術(shù)驅(qū)動(dòng)創(chuàng)新的交流。

　　我今天分享的主題“VisionTakesAll視覺(jué)基礎(chǔ)大模型重構(gòu)自動(dòng)駕駛技術(shù)的實(shí)踐”，我們希望用計(jì)算機(jī)視覺(jué)技術(shù)解決所有無(wú)人駕駛里面的感知問(wèn)題。

　　過(guò)去一年中，在自然語(yǔ)言處理這個(gè)領(lǐng)域，以文心一言、ChatGPT為代表的大語(yǔ)言模型所呈現(xiàn)的智慧涌現(xiàn)能力，讓我們看到了實(shí)現(xiàn)通用人工智能的曙光和路徑。當(dāng)下我們正處在一個(gè)以大模型為核心的人工智能新時(shí)代。

　　最近一段時(shí)間智能駕駛的熱度同樣節(jié)節(jié)攀升，但是和大語(yǔ)言模型相比，今天的智能駕駛的發(fā)展、普及還處在早期，消費(fèi)者對(duì)于智駕的理解還比較淺，智駕功能距離成為消費(fèi)者購(gòu)車的頭部考慮因素還欠些火候。我們認(rèn)為其中一個(gè)很重要的原因是，當(dāng)下市場(chǎng)上還缺乏能為用戶帶來(lái)體驗(yàn)影響力的優(yōu)秀供給。如何借鑒語(yǔ)言大模型背后的技術(shù)理念、重構(gòu)自動(dòng)駕駛技術(shù)，加速智能駕駛企業(yè)跨溝是我和團(tuán)隊(duì)持續(xù)探索和踐行的問(wèn)題，今天借機(jī)把我們的思考和經(jīng)驗(yàn)與大家做一個(gè)分享。

　　我們認(rèn)為，未來(lái)具備體驗(yàn)跨溝潛力的智駕產(chǎn)品需要滿足四個(gè)必要條件：

　　1、支持復(fù)雜城市道路的點(diǎn)到點(diǎn)領(lǐng)航輔助駕駛，發(fā)展城市智駕對(duì)提升用戶智駕使用率非常關(guān)鍵。數(shù)據(jù)顯示，在用長(zhǎng)時(shí)長(zhǎng)上，城市場(chǎng)景占比90%，同時(shí)每天僅有20%多的用戶出行會(huì)通過(guò)高速，而城市道路占比為100%。

　　2、領(lǐng)航輔助駕駛功能的時(shí)空覆蓋范圍要廣，不能僅限于個(gè)別樣板間城市，要全國(guó)都能開(kāi)。

　　3、當(dāng)智駕大規(guī)模滲透數(shù)量快速增長(zhǎng)的同時(shí)如何提升產(chǎn)品質(zhì)量值得高度關(guān)注，用戶使用智駕產(chǎn)品也要安心感，能對(duì)系統(tǒng)產(chǎn)生信任和依賴，在不同路段和時(shí)段使用體驗(yàn)方差要小，這點(diǎn)可以用我們比較熟悉的MPI即平均人工介入的里程指標(biāo)來(lái)度量。

　　4、智駕產(chǎn)品通過(guò)用戶的使用和反饋系統(tǒng)能夠高頻的迭代演進(jìn)，給用戶帶來(lái)持續(xù)的獲得感和體驗(yàn)層面的升級(jí)，這意味著智駕系統(tǒng)的核心是由人工智能、數(shù)據(jù)驅(qū)動(dòng)的AI算法構(gòu)建的，擁有自身的數(shù)據(jù)飛輪驅(qū)動(dòng)自進(jìn)化。

　　今天同時(shí)滿足四個(gè)必要條件的智駕產(chǎn)品，嚴(yán)格意義上市場(chǎng)上還沒(méi)有，各家都在努力的卷功能、卷體驗(yàn)，這個(gè)過(guò)程中我們與客戶緊密配合，也取得了一些可喜的小成績(jī)，在這里跟大家匯報(bào)一下。

　　去年我們的智駕產(chǎn)品實(shí)現(xiàn)了技術(shù)能力和產(chǎn)品體驗(yàn)的雙重突破，基于BeV+Transformer的技術(shù)，我們?cè)跇O越01上量產(chǎn)了國(guó)內(nèi)唯一的純視覺(jué)城市輔助駕駛產(chǎn)品，今年一季度最新版本已經(jīng)率先落地了純視覺(jué)占據(jù)網(wǎng)絡(luò)技術(shù)，安全性和用戶體驗(yàn)比市面上絕大多數(shù)搭載了激光雷達(dá)的產(chǎn)品還要好。

　　從客戶披露的春節(jié)長(zhǎng)假期限出行數(shù)據(jù)可以看出，用戶對(duì)我們提供的智駕功能使用頻次是很高的，93%的用戶使用了高速、城市或者泊車的功能，日均自動(dòng)駕駛歷程滲透率48.2%，接近一半人駕、一半智駕。

　　覆蓋方面，我們的點(diǎn)到點(diǎn)領(lǐng)航輔助駕駛已經(jīng)覆蓋了全國(guó)超過(guò)40萬(wàn)公里的路網(wǎng)，今年一季度我們的智駕已經(jīng)支持了北京、上海、深圳、杭州四個(gè)城市，與此同時(shí)我們積極地進(jìn)行路側(cè)，今年上半年我們將分批開(kāi)放全國(guó)300個(gè)城市的領(lǐng)航輔助駕駛，大家可以期待的是，今年百度地圖支持的道路我們的智駕就能跑。

　　得益于我們智駕系統(tǒng)的AI占比非常高、模型可以高頻的迭代，過(guò)去一年中系統(tǒng)的核心關(guān)鍵模型累計(jì)迭代多達(dá)300多次，在客戶SOP后的四個(gè)多月中，我們OTA給用戶的智駕新增功能和體驗(yàn)優(yōu)化項(xiàng)多達(dá)90多個(gè)，保證用戶的反饋體驗(yàn)問(wèn)題能夠及時(shí)地得到解決。

　　我們的產(chǎn)品上市后同行和科技媒體爭(zhēng)議最高頻的就是為什么百度和極越選擇了純視覺(jué)這樣一條異常困難的技術(shù)路線。

　　今天的智駕產(chǎn)品研發(fā)過(guò)程和交付絕對(duì)不是一錘子買賣，上市僅是起點(diǎn)，如何在后續(xù)用戶的使用過(guò)程中通過(guò)反饋驅(qū)動(dòng)產(chǎn)品力持續(xù)提升是技術(shù)路線選擇的關(guān)鍵考慮因素，其中比初速度重要的因素是加速度這個(gè)跟時(shí)間相關(guān)的變量。

　　初速度決定了產(chǎn)品原型的研發(fā)速度，這點(diǎn)上激光雷達(dá)確實(shí)占優(yōu)，厘米級(jí)精度的三維測(cè)距能力能讓感知算法實(shí)現(xiàn)的難度大幅降低，工程師很快就能上手完成自動(dòng)駕駛的閉環(huán)。相比而言，視覺(jué)的初速度就慢得多，從二維象素恢復(fù)三維信息是計(jì)算機(jī)視覺(jué)領(lǐng)域十幾年、幾十年幾代科研人員在力圖解決的難題，但一旦技術(shù)進(jìn)入軌道，圖像里天然蘊(yùn)含的信息量?jī)?yōu)勢(shì)會(huì)在其在迭代加速度上比所有主動(dòng)光傳感器都敏捷、都迅猛。同時(shí)，配合大模型、AI算法，視覺(jué)能達(dá)到的能力天花板也更高。

　　我們的觀點(diǎn)是，強(qiáng)大的視覺(jué)技術(shù)是智駕產(chǎn)品能夠?qū)崿F(xiàn)體驗(yàn)跨溝的充分必要條件，視覺(jué)能力的高低決定了產(chǎn)品能否走到競(jìng)爭(zhēng)的終局。一旦看清楚、想清楚這個(gè)問(wèn)題，從戰(zhàn)略聚焦的角度，我們決定把數(shù)據(jù)資源、模型參數(shù)量、訓(xùn)練算力、研發(fā)人力資源都Allin到演進(jìn)速度更快、算法上限更高的視覺(jué)路線上。在大模型時(shí)代指導(dǎo)AI研發(fā)的一條規(guī)律就是OpenAI在2020年提出的ScalingLaws概念，中文可以分成規(guī)模法則。規(guī)模法則簡(jiǎn)單解釋一下，隨著數(shù)據(jù)大小、模型大小和用于訓(xùn)練的計(jì)算點(diǎn)數(shù)的增加，模型的性能就會(huì)提高，為了獲得最佳性能，所有三個(gè)因素必須同時(shí)放大。下面讓我們跟隨規(guī)模法則進(jìn)一步理解我們的路線選擇和視覺(jué)能力能夠領(lǐng)先的致勝之道。

　　首先，為什么選擇視覺(jué)?我們從激光雷達(dá)和視覺(jué)的環(huán)境采樣粒度對(duì)比一下。這里分別羅列了目前最主流的城市領(lǐng)航輔助駕駛使用的激光雷達(dá)、下一代我們認(rèn)為業(yè)內(nèi)最強(qiáng)尚未量產(chǎn)的激光雷達(dá)，以及目前在極越上使用的普通800萬(wàn)象素?cái)z像頭，他們從分辨率、最大頻率、點(diǎn)頻幾個(gè)指標(biāo)參數(shù)上可以簡(jiǎn)單計(jì)算出不同傳感器的采樣比。攝像頭的采樣密度是今天主流激光雷達(dá)的160倍，到了明天最好的激光雷達(dá)上市之后我們的密度仍然是它的20倍。

　　剛才說(shuō)了一些可量化的數(shù)據(jù)指標(biāo)，還有不可量化的數(shù)據(jù)指標(biāo)。俗話說(shuō)一圖勝千言，圖像中蘊(yùn)藏的信息要比激光雷達(dá)點(diǎn)云中豐富，這里隨便舉的一個(gè)路的案例。左邊是激光雷達(dá)的點(diǎn)云數(shù)據(jù)，大家能看到有一系列障礙物，車經(jīng)過(guò)的時(shí)候不能碰撞它們，這沒(méi)有問(wèn)題，但我們看右邊這同一場(chǎng)景下、同一時(shí)刻捕捉的錄像，可以看到太多點(diǎn)云看不到的信息，首先看到車道線斑馬線上布滿了行人，行駛方向燈的顏色都能看到，這里面一些人的表情、體態(tài)表示是加速過(guò)馬路還是等待，我們的行人拿著箱子是一個(gè)還是兩個(gè)物體，我們的摩托車上是一個(gè)人還是兩個(gè)物體，這些信息沒(méi)有視覺(jué)能力是沒(méi)有辦法從點(diǎn)云中獲得的。

　　分享了視覺(jué)在圖像數(shù)據(jù)信息方面的優(yōu)勢(shì)，再回顧如何設(shè)計(jì)算法把圖像中蘊(yùn)含的信息挖掘出來(lái)。(見(jiàn)PPT)左邊是傳統(tǒng)的模型迭代范式，每個(gè)模型由主干網(wǎng)絡(luò)backbone和任務(wù)頭head構(gòu)成，backbone主要負(fù)責(zé)提取圖像的特征，我覺(jué)得大家可以簡(jiǎn)單把backbone的作用想象成一個(gè)比如舉重運(yùn)動(dòng)員的核心力量，他決定了這個(gè)運(yùn)動(dòng)員最后能舉起的重量大小，在模型層面決定了模型的泛化能力和它的識(shí)別能力，head對(duì)backbone提取的特征特定任務(wù)進(jìn)行預(yù)測(cè)。

　　但過(guò)去幾年，算法從規(guī)則過(guò)渡到機(jī)器學(xué)習(xí)、數(shù)據(jù)驅(qū)動(dòng)、車端模型的數(shù)量快速增長(zhǎng)，在有限算力的資源下任務(wù)和模型增加帶來(lái)很多顯性問(wèn)題，其中包括主干網(wǎng)絡(luò)就是backbone這個(gè)核心主干網(wǎng)絡(luò)它的參數(shù)量漲不起來(lái)、算力競(jìng)爭(zhēng)讓各個(gè)單一模型的參數(shù)量都受到限制。二是計(jì)算存在冗余，多任務(wù)之間的主干往網(wǎng)絡(luò)他們?cè)谔卣魈崛〉牟襟E中有大量的計(jì)算是冗余的，每個(gè)都在做，對(duì)算力是一種侵蝕。最后，多學(xué)習(xí)任務(wù)之間是隔離的，我們難以學(xué)習(xí)圖像的通用表征，各任務(wù)需要長(zhǎng)期補(bǔ)充大規(guī)模人工標(biāo)注的數(shù)據(jù)，來(lái)彌補(bǔ)模型泛化能力的不足。

　　于是我們下決心改變?cè)贫撕蛙嚩说母兄軜?gòu)，如右圖所示(見(jiàn)PPT)，用一個(gè)多任務(wù)共享的統(tǒng)一基礎(chǔ)感知模型代替原來(lái)模型的主干網(wǎng)絡(luò)，在我們的預(yù)訓(xùn)練階段Pretraining階段，使用多元的圖像數(shù)據(jù)，訓(xùn)練基礎(chǔ)大主干網(wǎng)絡(luò)，來(lái)學(xué)習(xí)圖像的通用表征，這里的數(shù)據(jù)不再只限于自動(dòng)駕駛場(chǎng)景下的數(shù)據(jù)，包括物聯(lián)網(wǎng)的數(shù)據(jù)，包括疊加公開(kāi)數(shù)據(jù)集的圖像數(shù)據(jù)，都可以參與到這一步來(lái)。這一步優(yōu)化了我們基礎(chǔ)模型大的參數(shù)，這個(gè)模型的參數(shù)規(guī)模可以做到原來(lái)左邊這種小的backbone的數(shù)十倍甚至百倍。在Fineturning階段，可以鎖定主干網(wǎng)絡(luò)參數(shù)，使用來(lái)自于業(yè)務(wù)一線精標(biāo)的業(yè)務(wù)數(shù)據(jù)充分優(yōu)化各個(gè)任務(wù)head參數(shù)，這一階段相比預(yù)訓(xùn)練可以更高頻的去迭代，消耗的算力和數(shù)據(jù)資源也更小，團(tuán)隊(duì)研發(fā)也更加敏捷。

　　說(shuō)起視覺(jué)方案很多人問(wèn)我，大家覺(jué)得純視覺(jué)車端不要激光雷達(dá)了是不是很低成本的方案，這里給大家分享一下我的一個(gè)認(rèn)知，我覺(jué)得肯定不是這樣的。支撐百度自動(dòng)駕駛大模型發(fā)展的背后是我們?cè)谧詣?dòng)駕駛領(lǐng)域持續(xù)高強(qiáng)度的研發(fā)投入，剛才說(shuō)到規(guī)模法則里面很重要的一條是算力，多大算力決定你的模型能走多遠(yuǎn)，在當(dāng)前的訓(xùn)練算力方面，我們?cè)谥邱{這個(gè)項(xiàng)目上投入的總算力資源達(dá)到了2.2eflops的量級(jí)，同時(shí)我們?yōu)榱擞脩舻捏w驗(yàn)提升、用戶體驗(yàn)跨溝，我們現(xiàn)在對(duì)算力的使用是上不封頂?shù)?。所以大家可以看到，雖然我們?nèi)サ袅思す饫走_(dá)使用純視覺(jué)，對(duì)消費(fèi)者來(lái)說(shuō)，他可以更低的成本去享受科技帶來(lái)的便利。但是在背后我們的研發(fā)團(tuán)隊(duì)、客戶投入了相當(dāng)大的成本去促成這件事情，但是我們認(rèn)為絕對(duì)是值得的。

　　自動(dòng)駕駛視覺(jué)基礎(chǔ)大模型是面向未來(lái)智駕的核心原則，百度在這方面已經(jīng)投入了海量的資源，已經(jīng)形成了很好的積累，未來(lái)如果每個(gè)車企都要去做的話，是不是還要投入這么多錢、還要買這么多卡，我們覺(jué)得肯定不是的，我們希望未來(lái)有機(jī)會(huì)給行業(yè)更多的客戶分享我們基礎(chǔ)模型的能力，更好更快地助力大家實(shí)現(xiàn)汽車智能化的跨溝。

　　這里我特別想分享一下我們跟客戶的實(shí)踐，還是剛才這張圖的右半部分(見(jiàn)PPT)，大家注意看，對(duì)整個(gè)供應(yīng)商和主機(jī)廠的研發(fā)模式帶來(lái)了一定的變化。

　　上面是我們百度主要負(fù)責(zé)的基礎(chǔ)模型的訓(xùn)練，下面可以把個(gè)別的任務(wù)head包括它的數(shù)據(jù)、迭代交給我們的客戶團(tuán)隊(duì)，甚至使用客戶一線的數(shù)據(jù)，大家知道主機(jī)廠對(duì)數(shù)據(jù)非常看中，數(shù)據(jù)的第一落點(diǎn)是主機(jī)廠的服務(wù)器，比如我的用戶在一個(gè)陌生的城市遇到了很多沒(méi)見(jiàn)過(guò)的不同規(guī)格的紅綠燈，如果我們的模型今天沒(méi)有辦法很好的實(shí)現(xiàn)，用戶可以自己去采集數(shù)據(jù)，根據(jù)我們的標(biāo)注規(guī)則在head上紫色的部分完成迭代，始終還是使用百度的backbone核心主干網(wǎng)絡(luò)基礎(chǔ)模型，我們的主干網(wǎng)絡(luò)雖然沒(méi)有這么快迭代，但是有非常強(qiáng)的泛化能力，客戶用定制化的數(shù)據(jù)和他們的研發(fā)團(tuán)隊(duì)一起可以更高效的去滿足用戶的體驗(yàn)訴求。

　　大家比較好奇這個(gè)東西怎么用呢，又不開(kāi)源，原來(lái)代碼也是你們寫的，我們跟極越的合作中為客戶提供全套的AISaaS工具鏈，支持百度和客戶團(tuán)隊(duì)高效的協(xié)同工作，目前我們整個(gè)工具鏈客戶和百度是一模一樣的，路上任何一個(gè)問(wèn)題客戶都可以通過(guò)百度提供的工具鏈去做問(wèn)題的分析和對(duì)用戶的回答，這點(diǎn)我覺(jué)得是大大提升我們研發(fā)迭代效率的一個(gè)利器，希望后續(xù)有機(jī)會(huì)感興趣的主機(jī)廠跟我們一起溝通新的智駕迭代研發(fā)的模式。

　　以上就是我對(duì)視覺(jué)大模型重構(gòu)自動(dòng)駕駛技術(shù)的分享。面對(duì)汽車智能化激烈的市場(chǎng)競(jìng)爭(zhēng)，百度將始終秉承開(kāi)放共贏的理念，發(fā)揮我們?cè)谧詣?dòng)駕駛和AI技術(shù)上的優(yōu)勢(shì)，做好車企智能化的技術(shù)合伙人。

　　最后，非常感謝百人會(huì)提供了這次難得的交流機(jī)會(huì)。謝謝大家!

試駕、服務(wù)、優(yōu)惠購(gòu)

網(wǎng)友評(píng)論

国产成人精品白浆久久69,大学生小嫩模无套内谢50p,粗大黑人巨精大战欧美成人,插插射啊爱视频日a级,国产97色在线 | 免费

2024百人會(huì)|百度王亮：VisionTakesAll自動(dòng)駕駛技術(shù)的實(shí)踐