ChatGPT更被人熟知的身份是“會聊天的AI”,底層技術傳統上講屬于NLP領域。
但NLP大模型跨界應用到視覺領域,早已有之。比如毫末智行一直提倡的Transformer大模型,最早就誕生于NLP領域。
ChatGPT大火,甚至被比爾蓋茨比喻成和互聯網誕生一樣重要。而一向追逐前沿AI應用的毫末智行,如何把ChatGPT用在自動駕駛上?
從ChatGPT到DriveGPT
毫末智行的自動駕駛認知大模型(人駕自監督認知大模型),正式升級為DriveGPT。
稍微解釋一下,毫末的自動駕駛認知大模型采用的是RLHF(人類反饋強化技術)算法,通過不斷輸入真實人駕接管數據,持續優化自動駕駛決策模型。
也就是說,毫末的這個模型在不斷學習千千萬萬個老司機的駕駛經驗,進而幫助模型自己能獨立做出最優決策。
而ChatGPT之所以能成為“很會聊天的AI”,也是因為訓練的時候使用了RLHF算法,利用人類知識,讓模型能判斷自己的答案質量,訓練自己逐步給出更高質量的回答。
目前,毫末智行已經完成DriveGPT的模型搭建和第一階段數據跑通,現在的參數規模可以對標GPT-2的水平,大約7.74億。
ChatGPT的爆火也不過是這幾個月的事情,而毫末現在已經有了能落地的進展。
這樣的速度背后,其實是AI技術向超大規模數據、超大規模模型演變的大趨勢。
毫末智行的自動駕駛模型中,其實早就應用了和ChatGPT相同的模塊。
毫末智行的認知決策算法
先看看毫末怎么迭代認知決策算法的。
毫末這套認知決策算法進化分為三個階段:
第一個階段,引入個別場景的端到端的模仿學習,直接擬合人駕行為;
第二個階段,通過認知大模型,引入海量正常人駕數據,通過Prompt的方式實現認知決策的可控、可解釋;
第三個階段,也就是毫末認知決策算法現在處于的階段,引入真實接管數據,并在大模型中開始使用RLHF算法,讓模型學習人駕接管數據。
這其中第三個階段,就是和ChatGPT訓練邏輯類似的階段,也是能引入這套模式的階段。
也就是說,當毫末認知決策算法通過擬合、學習人駕數據,具有一定的駕駛決策能力后,毫末構建了一套獎勵規則(即獎勵模型,reward model)。
在同一個駕駛環境下,如果人類駕駛行為和算法決策一致,不選擇接管,計為一個good case;如果人類司機接管了,就計為一個bad case。
通過把good case和bad case這種“好壞”的價值判斷模型引入算法訓練,能夠進一步讓算法做出更好的駕駛決策。
目前,毫末智行DriveGPT已經進入算法進化的第二個階段,接下來就是第三階段:輸入大規模真實接管數據,讓模型強化學習人駕數據反饋。
并且,毫末還會把DriveGPT作為云端測評模型,評估車端小模型的駕駛效果。
關于DriveGPT更多重要進展,4月HAOMO AI Day上毫末會進一步公布。
而毫末智行能實現這些目標,離不開背后強大的算力支持。
為什么是毫末智行
毫末在國內應該第一個明確提出自動駕駛重感知輕地圖的技術路線。
去年行業的發展驗證了毫末的先見之明。
ADAS系統盡量減少高精地圖信息的依賴,自然就要求車端的感知識別能力更強大。
在研發端來說,迭代這樣的大模型,需要更大的算力來支撐。
今年1月,在毫末舉辦的AI Day上,這個自動駕駛量產公司宣布自建智算中心MANA OASIS。
通過和字節跳動旗下火山引擎的合作,MANA OASIS算力可達0.67 EFLOPS(每秒6.7x1017次浮點運算)。
智算中心不僅算力幾乎全部為自動駕駛服務,架構也根據自動駕駛的業務特性做出調整,計算、存儲和通信都具有很強的基礎能力。
并且,毫末MANA OASIS還支持千億參數的AI大模型的完整訓練,收斂周期效率得到大大提升。
在AI Day上毫末還宣布了五大模型,除了上文提到的自動駕駛認知大模型(現在叫DriveGPT),還有視頻自監督大模型、3D重建大模型、多模態互監督大模型、動態環境大模型,從數據、目標識別準確率、路徑預測規劃、整體乘坐體驗等多個角度共同提升毫末自動駕駛能力。
毫末自建超算,從技術層面解釋了為何它能成為第一個真正把ChatGPT相關技術真正在自動駕駛領域應用的玩家。
而從公司整體策略上,支撐毫末在研發端進展迅速的條件,是它以自動駕駛量產上車為核心目標的整體戰略,以及背后長城汽車每年百萬銷量的落地規模支持。
畢竟無論是NLP還是自動駕駛,不斷獲取大規模低成本的數據獲取渠道,才是一切的基礎。
說了這么多,毫末智行的技術,體現在乘用車上了嗎?
毫末NOH,已經量產上車。
今年毫末智行的目標是實現城市NOH大規模量產上車,即在城市內實現能自動識別紅綠燈、人車混行場景,大部分時間不用人類駕駛的高階智能駕駛功能。
在明年,毫末城市NOH預計會在國內100個城市落地。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞: