第682章 提示和设想

“第二,预测与规划模块的transforr化。”卞金麟目光扫过年轻的顾南舟。

“南舟团队主导,正在将transforr强大的序列建模和长距离依赖捕获能力,引入行为预测(预测周围车辆\/行人轨迹)和运动规划(生成自车安全、舒适、符合交规的轨迹)模块。

初步实验表明,在复杂交互场景(如无保护左转、环岛通行)下,其生成轨迹的合理性和安全性显着优于传统基于规则或简单Lp网络的方法。

这是提升高速noA和未来城区noA上限的关键。”

顾南舟推了推眼镜,小脸上满是认真,用力点了点头。

“第三,数据闭环系统搭建。”卞金麟语气凝重:

“这是智能驾驶进化的生命线。

我们正在构建覆盖‘车端数据采集-加密回传-云端分布式存储与处理-场景挖掘与问题诊断-仿真场景生成-模型训练\/评估-otA更新’的完整闭环。

首批路测牌照的获取至关重要,意味着我们能合法合规地在鹏城开放道路采集宝贵的ercase(极端场景)数据。

目前云端数据处理平台已初步搭建,标注工具链在完善,仿真引擎基于cArLA和自有场景库在扩展。

这是长期投入,占比约15%。”

汇报完毕,卞金麟看向徐平和姚尘风:

“徐总,姚总,以上就是智能驾驶产品线围绕启界5量产目标和未来演进的技术布局与进展。

核心挑战在于:量产L2.5功能的最后10%体验打磨、bev感知的实时性突破、以及数据闭环的规模化和效率提升。

资源上...确实非常紧张。”

他最后一句,点出了关键。

会议室内陷入短暂的沉默。

进展是喜人的,但挑战也是巨大的,尤其是时间窗口如此紧迫。

至于卞金鳞为什么没看向陈默,还得从一周多之前的一个会议说起。

当时卞金鳞刚做完技术路径的汇报,就听到了一个声音。

“卞总,”陈默的声音不高,却清晰地回荡在寂静的会议室里,他的目光落在卞金麟身上。

“刚才你们汇报的感知融合方案,核心是不是还在沿用‘前融合+后融合’的传统架构?

激光雷达点云、摄像头像素、毫米波雷达目标,先各自做目标识别和轨迹预测,然后再进行时间戳同步和决策层融合?”

卞金麟被问得一愣,下意识地回答:“是...是的,陈总。这是目前行业主流,也是相对成熟的方案,特斯拉的hydra、小鹏的xpiLot3.0架构都是基于这种思路做优化...”

“主流?成熟?”陈默打断了他,嘴角似乎勾起了一个极淡的弧度。

他起身走到白板前面,没有回头,背对着所有人,手中的黑色马克笔已经毫不犹豫地落在了白板上。

笔尖划过光滑的板面,发出沙沙的轻响。

陈默手腕沉稳,线条流畅而肯定,没有丝毫犹豫。

一个简洁却完全不同于传统感知架构的图形框架迅速在他笔下成型。

“把摄像头采集的原始视频流(rawvideo),”陈默一边画,一边清晰地说道,声音不大,却字字如锤,敲在每个人的神经上,“直接输入到一个统一的、基于transforr架构的编码器(ender)。”

他在白板左侧画了几个代表摄像头的抽象符号,用箭头指向一个代表神经网络的大方框,在方框里重重写下了“transforrender”。

“在这个编码器内部,通过强大的注意力机制(Attentionis),让模型自己学会在像素级别上,跨时间、跨空间、跨摄像头视角,去建立关联,去理解三维空间的结构!

让Ai自己‘看’懂这个世界的几何关系,而不是依赖我们人工预设的规则去分割目标、匹配特征。”

随着笔尖持续移动,在白板中央画出一个代表三维空间特征(3dfeatures)的立体区域,并标注了“bev(bird's-eye-view)representation”。

“在模型内部,自然生成统一、稠密的鸟瞰图(bev)空间表征。

在这个统一的bev空间里,激光雷达点云也好,毫米波雷达目标也好,甚至未来的v2x车路协同信号也好,都只是作为辅助的‘特征’(feature)。

通过跨模态注意力机制(odalAttention)自然地融入、补充、增强这个由视觉主导构建的三维空间理解。”

他在bev空间周围画上代表激光雷达、毫米波雷达、v2x的符号,用虚线箭头指向中央的bev空间,并在连接处标注了“Attention”。

“最终输出的是什么?”陈默的笔尖用力地在bev空间下方画了一个输出箭头,重重写下两个词:“oygrid(占据栅格)”、“flowpredi(运动流预测)”。

“不是一个个孤立的、需要后期费力融合的‘目标框’(boundgbox)和‘轨迹线’(trajectory)。

而是这个三维空间中,每一个‘体素’(voxel)是否被占据的概率,以及占据物未来的运动趋势!

这才是最接近人类驾驶员对周围环境空间和运动态势的直觉感知方式。

这才是通往L3级以上高阶智能驾驶的真正钥匙!”

“沙沙”声停止了。

陈默放下笔,转过身。

会议室内一片死寂。

落针可闻的死寂。

时间仿佛被按下了暂停键。

所有人都僵住了,如同被施了定身法。

会议室里的智能驾驶团队五人组,反应是最为直接且剧烈。