
防偽查詢
聯系方式
深圳市豹點科技有限公司
地 址:深圳市南山區桃園路
田廈國際中心B座1235
郵 編:518052
聯系人:李先生
電 話:189 4870 7815
手 機:189 2467 2967
傳 真:0755-8670 3785
E-mail:felix411@cnbaod.com
網 址:www.cnbaod.com
無人駕駛最大的難點,也是最重要的要素,就是安全。
高安全性意味著低事故率。一個系統做到很低的事故率,通常要做兩件事情,一個是發現問題,一個是解決問題。
開始時,由于系統的問題非常多,主要精力在解決問題,但是隨著事故率逐漸降低,發現問題變得越來越難。據統計,全球來看,對于人類司機,一億公里發生致命事故1~3起。對于無人駕駛,我們希望比人更安全,最好致命事故率低一個量級,做到十億公里一起致命性事故。統計上,要達到足夠置信度,需要多次重復實驗,最好一百次以上。這意味著一套比人更加安全的無人駕駛的系統需要測試的總里程達到1000億公里。按照一輛車一年10萬公里總里程計算。我們需要100萬輛車,一整年的時間,收集無人駕駛數據和測試,才能夠保證無人駕駛所需的安全性。現在Google和百度的無人車成本都在百萬人民幣量級,乘以100萬輛車這個巨大的基數,對于任何一家公司而言,都是一個天文數字。
如何克服?
無人車大規模數據收集和測試的巨大成本主要來源于兩方面:一方面是需要海量的測試車輛,另一方面是高昂的單車成本。
針對這兩方面的成本,我們有兩種互補的解決方案:第一種解決方案是無人駕駛模擬;第二種解決方案是眾包數據收集和測試。
無人駕駛模擬可以通過算法生成感知和決策數據,減少數據收集和測試車輛數量,降低研發成本。當然,無人駕駛模擬也存在不足:
第一,模擬生成的感知數據和真實的數據存在差異,實際中,還是以真實數據為主,生成數據為輔。
第二,模擬的規則是人制定的。很多失敗的場景恰恰是人思考的盲點,單純通過模擬并不能發現。
總結來說,雖然模擬可以降低數據收集和測試車輛的數量,但是我們仍然需要收集真實數據,用大量的車做真實測試。
單車成本主要由三部分構成:設備成本,造車成本,運營成本。運營成本就是駕駛員開著車采數據和做測試的成本。設備成本方面,我們可以發揮算法優勢,通過多攝像頭等廉價設備實現無人駕駛。攝像頭是所有感知設備中信息量最大的,需要人腦水平的強人工智能,才能從間接視頻數據中提取出無人駕駛所需要的直接數據。激光雷達、高精GPS和IMU長期看都有降價空間,我們的技術方案不排除任何感知設備,價格合理,就會融合進來。
造車成本和運營成本已經優化了上百年,很難降低。一個聰明的想法是讓其他人承擔這部分成本——這個想法叫做眾包,代表性的公司有特斯拉和Mobileye。然而,遺憾的是,他們的眾包方案存在兩個問題:
第一,需要造車。特斯拉自己造車,Mobileye則通過合作伙伴造車。
第二,需要讀取和控制車輛駕駛行為。造車周期三到五年,顯著慢于算法研發節奏,成為時間瓶頸。如果為了加快迭代,在算法沒成熟的情況下強行上車,是拿人的生命做冒險,也顯然不可取。特斯拉的幾起致命事故就是血的教訓。
因此,我們設想直接利用現有道路上已有的運營車輛,不需要造車、改車、控制車,以一種零負擔、零危險的方式實現眾包測試和數據收集,這是個非常困難的問題,需要非常深厚的算法積淀和原創能力。
無人駕駛的向導——高精度地圖
高精度地圖是一個寬泛的概念,需要達到兩方面的高精度,分別是地標位置的高精度和本車定位的高精度。
*** 地標位置的高精度。**高精地圖由很多類地標構成,比如地面各種道路標線,地上各種交通標志等,地標的定義現在還沒有明確的標準,不同廠商從自己產品和技術需求出發,有不同的定義方式。
*** 本車定位的高精度。**高精定位有三種方式:第一種是衛星定位。多基站+差分GPS在開闊區域可以做到厘米級精度,但是城市中因為多路徑效應,精度只有米;第二種是匹配定位,這種方式和人很像,觀察周圍環境或者地標,在記憶地圖中搜索,匹配定位。結合GPS限定搜索范圍,可以做到快速準確匹配。第三種是積分定位。IMU或者視覺里程計。短時間內精確,長時間有累積誤差。這三種方式各有優缺點,結合起來可以做到低成本、高精度、高可靠性。
高精度地圖是視覺的延伸和增強,之于無人駕駛是必須的。舉個例子,多車道彎道行車時,因為路旁障礙物的遮擋,車載傳感器感知不到拐彎之后的道路情況,導致拐彎之后的某一車道上發生車禍。一旦有了高精地圖的車道級定位和實時路況更新,就能提前減速并變換到到非車禍車道,杜絕事故的發生 。 再舉一個例子:通過視覺,我們可以識別當前在第幾車道,通過高精度地圖定位,我們也可以知道當前在第幾車道,兩種不同方式互相校驗,可以達到更高的安全性。總結來說,高精地圖可以使無人車看得更遠,看得更準。
高精地圖對于自動駕駛整體解決方案研發的價值非常高,這一點卻被很多人忽視。分為三個方面:決策,測試,V2E。
第一方面,無人駕駛決策。本質上,駕駛決策學習的是道路環境到駕駛行為的映射,也就是這種情況應該怎么開,那種情況應該怎么開。如果獲得環境和行為的海量數據,就可以通過數據驅動的方式學習無人駕駛決策。道路環境可以通過視覺感知獲得,而司機的駕駛行為如何獲得?很多人認為,司機的駕駛行為就是剎車油門方向盤,想要獲得,一定要有CAN總線權限,要改車。其實不需要。首先,更新一個概念,司機的駕駛行為還可以用車輛在高精地圖中的軌跡表示。通過精確定位,我們可以獲得每輛車的駕駛軌跡,以及軌跡上每一點的速度,加速度。駕駛軌跡是駕駛行為更通用的表示,與車型無關。剎車油門方向盤,雖然直觀,但不通用。人類司機,換輛車,要調整駕駛習慣,重新適應,是同一道理。依賴高精地圖,我們可以獲得駕駛軌跡這一駕駛行為數據。通過眾包,就可以獲得海量環境和行為數據,通過數據驅動的方式學習無人駕駛決策。
第二方面,無人駕駛測試。測試,找出問題,非常重要,也極具挑戰。當無人駕駛算法接近人類駕駛的安全性時,需要一千輛車測試一年的時間才有可能發現問題。如果團隊像Google和百度一樣靠自己運營測試車輛,顯然是不現實的。眾包是唯一實現海量測試的方法,但是我們不希望像特斯拉一樣,以消費者的生命為代價,測試自己未成熟的算法方案。通過高精度地圖,我們不控制車、不帶來危險,就可以實現眾包測試。具體原理是,我們可以預測駕駛軌跡,也記錄了真實駕駛軌跡。預測軌跡和真實軌跡比對,如果一致,說明測試通過,如果不一致,說明測試失敗。找到問題,就可以有的放矢,高效解決問題。我們的方法是為無人車大腦測試設計的。無人駕駛整體測試還包括無人車身體測試,以及身體和大腦結合的測試,也就是車輛測試和軌跡跟蹤測試。相比于無人車大腦,這兩部分成熟很多。
第三方面,V2E。V2E是指通過車輛和道路通信實現無人駕駛。概念上,V2E可以大大降低無人駕駛的難度,提高安全性。非常有意思的是,這個概念在特定場景早已商業化,例如亞馬遜的倉儲機器人Kiva。倉庫地下鋪設有通信導軌,每個搬運機器人實時和導軌通信,確定自己當前的位置,接受中心計算機的調度。中心計算機知道所有機器人的當前狀態,根據取貨需求,整體規劃調度每個機器人取貨送貨。但是將V2E的概念真正落地到無人駕駛卻困難重重,其中主要有三方面的問題。第一,道路通信設備要解決供電、應對風吹日曬雨淋等技術可靠性問題,還要承擔基礎設施重建和復雜維護的高昂成本。二,環境和車輛通信,需要統一的通信標準。誰來制定標準?眾多車企都以自己的利益為考慮,很難協調。三,通信安全的問題。如果黑客或者恐怖分子利用通信協議漏洞,惡意操縱路面上的車輛,制造恐怖事件,又應如何應對?這些問題都限制了V2E從概念短期內走向現實。相對于電子通信的V2E,我們提出“漸進式的V2E”。無人駕駛的很多問題是因為道路標線、標牌不足或者布置不合理造成的,通過高精地圖和基于高精地圖的測試,我們可以自動發現哪些路段標線和標識需要改進,并給出改進的具體實施方案。漸進式V2E不需要電子通信設備,沒有通信標準和安全問題。在現有道路標線、標牌體系下,就可以大幅改善無人駕駛的可靠性和安全性。
視覺高精度地圖的實現
視覺高精度地圖的實現技術,不是SLAM也不是SFM,這些方法都不適用。要建真正可用的視覺高精地圖,需要從第一原理出發重新設計整個算法。我們構建高精地圖的第一原理是:多張圖像存在視差,利用點的對應關系,可以從2D點恢復出3D點。人眼雙目視覺獲得深度也是這一原理。從基本原理出發,建立高精地圖,需要創造性地解決三方面的問題:
1. 圖像部分。檢測識別語義點。傳統的SLAM或者SFM算法都基于SIFT、ORB等人工設計的特征點。在光照、視角發生變化的情況下,無法準確的檢測匹配原有特征點。換句話說,光照視角發生變化后,原來構建的地圖就無法使用了。我們的方法是定義道路標線、標牌等地標上的點作為語義點,通過深度學習和數據驅動的監督訓練得到模型,可以準確檢測和識別語義點,解決檢測不到、匹配錯誤的問題。
2. 幾何部分。通過眾包間接實現海量攝像頭測量效果。不同車輛,不同時間,經過同一地標,即使光照視角不同,我們也可以通過語義點模型把所有車輛拍攝到的同一語義點關聯起來,這相當于間接實現了多攝像頭測距的效果。我們知道,視覺測量中,攝像頭越多、視差覆蓋越全,測量精度就越高。我們實驗驗證,隨著眾包車次的增加,真實3D點位置估計的準確性有量級上的提升。
3. GPS部分。給每個語義點精確的GPS坐標。我們有幾方面的考慮:(1)讓高精地圖通用。GPS坐標是地圖的通用語言,給每個語義點賦予GPS坐標,便于他人使用;(2)消除累積誤差。單純使用幾何方法構建局部地圖,會有累積誤差。結合GPS,可以解決這個問題;(3)消除局部地圖歧義性。當局部地圖有重合或者語義點缺失的時候,確定局部地圖坐標系很麻煩,但全局GPS坐標系沒有這個問題。
無人駕駛端到端的學習靠譜嗎?
端到端(end-to-end learning)是深度學習中的一個概念,具體指通過深度學習網絡直接學習從輸入到輸出的映射關系。無人駕駛端到端學習指的是輸入視頻序列、輸出剎車油門方向盤的操作序列。英偉達和comma.ai都使用端到端深度學習,開發出了無人駕駛的demo系統。
簡單來說,對于無人駕駛,端到端不適合開發實用無人駕駛系統,可以做demo,然而大規模商用卻非常困難,其原因如下:
1. 不聰明。我們在做駕駛決策時,只關心高精地圖環境、自己當前位置和周圍物體的相對位置,并不關心車的顏色或者路邊的樹葉是綠的還是黃的。端到端學習沒有這些先驗知識,所以需要大量冗余數據和計算。如果把整個無人駕駛拆解成感知、地圖、決策三部分,分別獨立學習再融合,可以大大降低需要的數據和計算。
2. 不靈活。端到端學習的是攝像頭輸入到剎車油門方向盤輸出的直接映射。如果攝像頭設置變化或者增加其他感知設備,就需要重新收集數據學習。如果換輛車,執行機構變化,也需要重新收集數據學習。如果拆解成感知、地圖和決策三部分,就可以大大提高靈活性。比如模擬極端情況,我們只需要在高精地圖圖層中生成車輛3D框,不需要重新渲染真實道路環境和車輛視頻,簡單很多。
3. 難理解。無人駕駛是一個系統工程。遇到問題時,深入系統,診斷出問題模塊,有針對性的改進,是解決問題的行之有效的手段。但是,對于整體端到端學習,一旦出現問題,因為無法對癥下藥,解決問題的難度會增大,需要投入更多的資源和時間。
我并不是完全否定端到端學習,而是無人駕駛端到端學習目前存在以上問題,或許在將來可以得到解決。
考驗一個算法團隊解決實際問題能力的一個重要的方面就是拆解問題——把一個復雜問題拆解成一系列比較簡單的問題,再通過端到端深度學習解決。通常來說,在檢測、識別、分割等簡單基礎的任務上,端到端學習可以獲得更好的效果。復雜問題的拆解是一門藝術。