在GTC 2026大會上,理想汽車發(fā)布下一代自動駕駛基礎(chǔ)模型 MindVLA-o1,該模型通過統(tǒng)一視覺、語言與動作(VLA)的多模態(tài)架構(gòu),讓自動駕駛具備更強的空間理解、推理決策與行為執(zhí)行能力,是自動駕駛技術(shù)從單一感知與規(guī)則驅(qū)動,向具備思考與預(yù)測能力的智能體演進。

MindVLA-o1圍繞五大技術(shù)創(chuàng)新構(gòu)建:3D空間理解、多模態(tài)思考、統(tǒng)一行為生成、閉環(huán)強化學(xué)習(xí)以及軟硬件協(xié)同設(shè)計。在感知層面,通過視覺模型結(jié)合激光雷達實現(xiàn)高質(zhì)量三維環(huán)境理解;在決策層面引入世界模型,可在隱空間中預(yù)測未來場景變化并進行推理;在執(zhí)行層面則通過統(tǒng)一行為生成機制直接生成駕駛軌跡,實現(xiàn)更穩(wěn)定高效的駕駛決策。
為支持模型持續(xù)進化,理想還構(gòu)建了完整的AI框架,包括 MindData(數(shù)據(jù)引擎)、MindVLA-o1(基礎(chǔ)模型)、MindSim(世界模型仿真系統(tǒng))以及RL Infra(強化學(xué)習(xí)基礎(chǔ)設(shè)施),形成從數(shù)據(jù)、訓(xùn)練到仿真的閉環(huán)體系,使自動駕駛能夠在真實與模擬環(huán)境中不斷學(xué)習(xí)與優(yōu)化。理想汽車認(rèn)為,汽車本質(zhì)是“最大的機器人”,自動駕駛只是物理AI的起點。未來,這套VLA基礎(chǔ)模型不僅可用于智能汽車,也有潛力擴展到機器人及其他物理系統(tǒng),推動具身智能通用模型的發(fā)展。

CONTACT US
ICC APP