国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

他們用ChatGPT方式搞自動(dòng)駕駛，能告訴你“我在干嘛”

來(lái)源：華爾街見(jiàn)聞 ? 2023-03-24 22:52:46

還在玩ChatGPT？已經(jīng)有自動(dòng)駕駛算法能告訴你“我在干嘛”。

基于視覺(jué)和神經(jīng)網(wǎng)絡(luò )的自動(dòng)駕駛算法，雖然能通過(guò)傳感器數據，以及學(xué)習人類(lèi)的駕駛行為，自主決策并控制車(chē)輛。

但是，算法基于什么做出的決策？特別是出現故障，也就是決策錯誤的時(shí)候，算法是怎么想的？這些一直被稱(chēng)為自動(dòng)駕駛算法里的“黑匣子”，讓算法缺乏透明度和可解釋性。

(資料圖片僅供參考)

不過(guò)，現在有這么一個(gè)模型，既能預測車(chē)輛控制行為，還能自己解釋“我停車(chē)是因為紅燈亮了，并且有行人在過(guò)馬路”。

模型論文入選ICRA 2023，相關(guān)模型已開(kāi)源。

那么，是一個(gè)什么樣的算法？

ADAPT：駕駛行為感知說(shuō)明大模型

這是一種叫ADAPT（Action-aware Driving Caption Transformer）的端到端算法，也是目前第一個(gè)基于Transformer的駕駛行為描述框架，可以感知和預測駕駛行為，并且輸出自然語(yǔ)言敘述和推理。

直白一點(diǎn)說(shuō)，輸入車(chē)輛視頻后，這個(gè)算法可以判斷車(chē)輛行為并告訴你：車(chē)在做什么，為什么要這么做。

在論文作者提供的測試視頻里，這個(gè)算法最終上車(chē)的效果是這樣的。（紅色字是車(chē)輛行為，藍色字是解釋?zhuān)?/p>

“車(chē)在向前開(kāi)。因為路上沒(méi)有車(chē)?！?/p>

駕駛行為變化后，算法也能及時(shí)感知：

“車(chē)靠左邊停下了。因為要停車(chē)?！?/p>

“車(chē)開(kāi)始移動(dòng)并且靠右行駛。因為路左邊停著(zhù)車(chē)?！?/p>

算法不僅能識別路口，也能識別騎著(zhù)車(chē)的人。

“車(chē)在十字路口停下了。因為要避開(kāi)街上騎著(zhù)自行車(chē)的人，”

這是怎么實(shí)現的？

多任務(wù)框架下的聯(lián)合訓練

ADAPT框架可以分為兩個(gè)部分：車(chē)輛行為描述（DCG，Driving Caption Generation）和車(chē)輛控制信號預測（CSP，Control Signal Prediction）。

首先，傳感器端輸入視頻，Video Swin Transformer對車(chē)輛視頻進(jìn)行編碼，得到的視頻特征會(huì )輸入進(jìn)各任務(wù)模塊里。

在DCG模塊，算法利用Vision-Language Transformer生成兩個(gè)自然語(yǔ)句，也就是上文中提到的車(chē)輛行為描述和原因解釋。

相同的視頻特征也會(huì )輸入進(jìn)CSP模塊（類(lèi)似一般基于視覺(jué)的自動(dòng)駕駛系統），輸出車(chē)輛實(shí)際的控制信號序列，并利用Motion Transformer輸出模型預測的控制信號，比如速度、方向和加速度。

在單個(gè)網(wǎng)絡(luò )中，作者利用車(chē)輛實(shí)際的控制信號序列和模型預測的控制信號序列，兩者的均方誤差作為CSP模塊的損失函數。

而在多任務(wù)框架下，通過(guò)聯(lián)合訓練DCG和CSP，可以減少車(chē)輛決策和文本描述之間的差異，提高控制信號預測的準確率。

論文里，作者們在包含控制信號和車(chē)輛視頻的大規模數據集BDD-X上，利用機器評測和人工評測驗證了ADAPT的有效性。

機器評測方面，使用的是BLEU4、METEOR、ROUGE-L和CIDEr（對應縮寫(xiě)分別為B4、M、R、C）等多種語(yǔ)言任務(wù)常用的指標。

最終顯示ADAPT達到了當前最優(yōu)（State-of-the-Art）的結果，ADAPT在動(dòng)作描述方面比原有先進(jìn)方法CIDEr高出31.7，在原因解釋方面高33.1。

人工評測分為動(dòng)作描述、原因解釋和全句三個(gè)部分。通過(guò)人工判斷，ADAPT在這三部分的準確性分別達到了90%，90.3%和82.7%，證明了ADAPT的有效性。

在可視化結果里，也能看出ADAPT可以準確識別車(chē)輛行為以及決策原因。并且在黑夜、陰雨天等場(chǎng)景下，ADAPT也能保證準確度；即使有雨刷器干擾，ADAPT也可以識別道路上的停止標識。

為什么需要ADAPT？

自動(dòng)駕駛行為的可解釋性

在基于視覺(jué)的自動(dòng)駕駛算法里，比較常見(jiàn)的解釋圖有視覺(jué)注意圖（Attention Map），或者成本量圖（Cost Volume），但不熟悉自動(dòng)駕駛算法的人容易對這些圖造成誤解。

上：視覺(jué)注意圖；下：成本量圖

因此，ADAPT這種能夠生成自然語(yǔ)言、“說(shuō)人話(huà)”的算法，能夠幫助用戶(hù)更好地理解自動(dòng)駕駛算法在做什么、為什么要這么做，同時(shí)還能讓用戶(hù)更信任自動(dòng)駕駛技術(shù)。

而對于算法工程師和研究人員來(lái)說(shuō)，當發(fā)生極端情況時(shí)、或者發(fā)生故障（比如判斷錯誤）時(shí)，ADAPT可以幫助他們獲得更多信息，進(jìn)而改進(jìn)算法。

作者們將進(jìn)一步研究如何在模擬器和實(shí)際車(chē)輛上如何部署ADAPT，以及如何利用文本轉語(yǔ)音技術(shù)，讓生成的句子轉化為語(yǔ)音，幫助普通乘客，特別是視力障礙乘客使用。

本文來(lái)源：量子位，原文標題：《他們用ChatGPT方式搞自動(dòng)駕駛，論文入選了ICRA 2023》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：