← back

智驾相机全链路:选型、传输与时间同步

以 Tesla 和小鹏为主线,拆解车载相机的完整信号链路:CMOS Sensor(AR0136/AR0233/IMX490/OX08D10)、SerDes(GMSL2 串行器/解串器)、ISP 方案选择、PTP+CPLD 时间同步架构,以及当前仍未解决的工程问题和未来技术方向。

车载相机这个东西,表面上「就是个摄像头」,但从 CMOS 工艺到传输链路到时间同步,每一环都有大量 trade-off。这篇文章以 Tesla 和小鹏的选型演进为线索,把车载相机从传感器到域控制器的完整链路拆开讲一遍。


相机,一分钟就能讲完的事

车载相机完整信号链路:Light → Lens → CMOS Sensor → ISP → Serializer → GMSL2 → Deserializer → SoC

一台相机的核心链路:光线 → 镜头(Lens) → 图像传感器(CMOS/CCD) → ISP → 数字图像输出

镜头负责聚焦和控制 FOV(视场角),CMOS Sensor 把光子转换为电信号,ISP 完成去马赛克、白平衡、降噪、HDR 合成等一系列图像处理。消费级相机追求画质和色彩还原,工业相机追求帧率和精度,而车载相机——追求的是在极端光照下稳定输出可用图像,并且十年不坏

这就是车载相机和其他相机的根本区别。不是分辨率越高越好,不是色彩越艳越好,而是 120dB 动态范围下逆光不过曝、隧道不欠曝、LED 信号灯不闪烁,同时在 -40°C 到 105°C 的温度区间里稳定工作十万公里。


车载相机:和消费级完全不同的物种

车载相机和手机相机、工业相机看起来都是「拍照」,但从需求到器件选型完全是两个世界。

车规级要求

车载相机必须通过 AEC-Q100 认证(芯片级)和 AEC-Q104 认证(模组级),核心要求包括:

车载相机的核心参数

和消费相机盯着像素数不同,车载相机关注的参数优先级是:

动态范围(HDR) > LED 闪烁抑制(LFM) > 分辨率 > 帧率 > 功耗 > 尺寸

动态范围决定了逆光、隧道出入口、夜间对向远光灯这些极端场景下的可用性。LFM 决定了能不能稳定识别 LED 交通灯和 LED 刹车灯——LED 灯以人眼不可见的频率闪烁(通常 90~400Hz),普通相机拍出来会出现明暗交替的条纹甚至完全熄灭的假象,对感知算法来说是致命的。


主流车企的相机选型:以 Tesla 和小鹏为例

Tesla:从 AR0136 到 IMX490 的三代跃迁

Tesla 的相机选型伴随着 HW(Hardware)平台的迭代,是行业里最有代表性的演进路线。

HW3.0(2019~2023)

HW4.0(2023~至今)

跨代提升非常明显——从 1.2MP/60dB 跳到 5.4MP/120dB,这不只是参数变化,直接决定了感知距离从 ~80m 提升到 200m+。

HW5.0(规划中)

目前信息有限,业界推测会采用更高分辨率(800 万像素级)的传感器,可能继续用 Sony IMX 系列或转向豪威(OmniVision)的新一代产品。

小鹏:鹰眼视觉与 OX08D10

小鹏的演进路线和 Tesla 类似,但在 P7+ 这一代上走了一条不同的技术路径。

早期车型(P7/P5/G9)

P7+(2024~):AI 鹰眼视觉

小鹏在 P7+ 上选择豪威而非索尼,核心原因是 OX08D10 的 TheiaCel 技术在 LFM 上的表现更优——对国内 LED 交通灯的适配非常关键。

其他车企选型速览

(以下信息整理自公开拆解报告和行业分析,具体型号可能因车型和批次不同有差异)

车企/平台代表 CMOS分辨率供应商接口
蔚来 NT2.0AR0820 / OX08B8MP安森美 / 豪威GMSL2
理想 AD MaxAR08208MP安森美GMSL2
华为 MDCOX08B / IMX7288MP豪威 / 索尼GMSL2
Mobileye EyeQ6AR0234 / AR08202~8MP安森美GMSL2 / FPD-Link

行业趋势很清晰:前视 8MP 已经成为高阶智驾标配,传感器三巨头(索尼、安森美、豪威)各有千秋,GMSL2 成为压倒性的主流接口方案。


硬核拆解:CMOS → 串行器 → 线缆 → 解串器 → ISP → SoC

一帧图像从光子变成神经网络的输入张量,要经过一条完整的信号链路。下面逐个环节拆开讲。

CMOS Sensor:三巨头的 HDR 技术路线

前面按车企维度讲了「用什么」,这里按供应商维度讲「为什么」——三家的 HDR 实现路径完全不同,这是车载 CMOS 最核心的技术分野。

安森美(onsemi)—— 多曝光合成派

代表型号路线:AR0136 → AR0233 → AR0820 → AR0823。核心技术是 SuperExposure™ 像素架构:同一帧内不同行用不同曝光时间,合成一张 HDR 图像。成熟、成本低、生态最好,但运动场景下行间曝光时差会产生伪影。AR0820 是 8MP 旗舰,但功耗和发热相比竞品偏高。

索尼(Sony)—— Sub-pixel 派

代表型号路线:IMX390 → IMX490 → IMX728。核心技术是 Sub-pixel 架构:单像素内集成大小两个光电二极管,大管感弱光、小管感强光,同时曝光后融合。零运动伪影、HDR 性能最高,但像素面积大、成本高、供货周期长。IMX728 是 8MP 旗舰,面向 L3+ 平台。

豪威(OmniVision)—— LOFIC + DCG 派

代表型号路线:OX03C → OX05B → OX08B → OX08D10。核心技术是 TheiaCel™:横向溢出积分电容(LOFIC)存储高光电荷 + 双转换增益(DCG)切换,单次曝光同时实现 HDR 和 LFM。LFM 表现目前最优,尺寸最小,性价比高。相对较新,量产验证时间还短,品牌认知度和索尼有差距。

HDR 技术路线对比

HDR 三种技术路线对比:多曝光合成(onsemi)vs Sub-pixel(Sony)vs LOFIC+DCG(OmniVision)

技术路线代表原理优点缺点
多曝光合成安森美 SuperExposure同一帧内不同行用不同曝光时间,合成 HDR成熟、成本低运动场景有伪影(行间曝光时差)
Sub-pixel索尼 IMX490单像素内大小二极管同时曝光,大管感弱光、小管感强光零运动伪影、HDR 最高像素面积大、成本高
LOFIC + DCG豪威 OX08D10横向溢出电容存储高光电荷 + 双转换增益切换LFM 最优、尺寸最小相对较新,量产验证时间短

串行器(Serializer)与解串器(Deserializer)

车载相机挂在保险杠、翼子板、前风挡等各种位置,离域控制器(SoC)有 5~15 米的距离。CMOS Sensor 输出的 MIPI CSI-2 信号是并行的短距离接口,根本传不了这么远。这就是串行器和解串器存在的意义。

事实标准。Maxim(现已被 ADI 收购)的方案,几乎垄断了车载相机的高速传输市场。

数据链路

CMOS Sensor → MIPI CSI-2 → 串行器(Serializer) → 同轴线缆(GMSL2 正向通道,最高 6Gbps) → 解串器(Deserializer) → MIPI CSI-2 → SoC

反向通道

SoC → 解串器 → GMSL2 反向通道(低速,用于 I2C 控制和 FSYNC 触发信号) → 串行器 → CMOS Sensor

GMSL2 多路相机系统拓扑:3 组相机 × MAX96712 解串器 → Orin SoC,CPLD + GPS/PPS 的 FSYNC 触发链路

一根同轴线缆(通常是 FAKRA 接口),同时承载正向的高速视频数据和反向的控制/触发信号,这是 GMSL2 最优雅的设计。

常用型号

角色型号关键参数典型搭配
串行器MAX96717 / MAX96717FGMSL2,正向 6Gbps,支持 MIPI CSI-2 4-lane相机端,和 CMOS Sensor 封装在一起
串行器MAX96715GMSL1(旧方案),正向 1.5Gbps低分辨率环视相机
解串器MAX96712GMSL2,4 路输入,输出 MIPI CSI-2 4×4-lane 或 2×4-lane域控端,单片接 4 路相机
解串器MAX96724GMSL2,4 路输入,支持更高带宽下一代平台
解串器MAX9296GMSL2,2 路输入较老平台或低路数配置

典型车端配置

以单 Orin 平台 + 11 路相机为例:

FPD-Link(TI 方案)

Texas Instruments 的竞品方案,Tesla HW3 曾经使用。目前在新平台上已被 GMSL2 大面积替代,但在一些低成本 L2 方案中仍有使用。

ISP(Image Signal Processor)

CMOS Sensor 输出的是 RAW 数据(Bayer 格式),必须经过 ISP 处理才能变成可用的 RGB/YUV 图像。ISP 的位置有三种选择:

方案一:Sensor 内置 ISP

部分 CMOS Sensor 内部集成了基础 ISP(如安森美的 AR0233 支持内部 ISP bypass 或使能)。优点是链路简单,缺点是调优空间有限。

方案二:独立 ISP 芯片

在串行器之前加一颗专用 ISP,典型如 indie GW5200/GW5300。好处是 ISP 调优完全独立于 SoC,画质可控性最强。小鹏 P7+ 的 OX08D10 就搭配了 GW5300。

方案三:SoC 内置 ISP

NVIDIA Orin 内置了强大的 ISP 引擎,可以直接接收 RAW 数据并在片内完成 ISP 处理。这是目前高阶智驾平台的主流方案——相机端输出 RAW,走 GMSL2 传到域控,Orin 内部 ISP 统一处理。

好处:所有相机的 ISP 参数统一管理,便于一致性调优和 OTA 升级。

坏处:对 GMSL2 带宽要求更高(RAW 数据量比 YUV 大 ~1.5 倍),Orin ISP 的处理路数有上限。

三种方案的选择

方案适用场景代表
Sensor 内置 ISP低成本 L2,环视AR0233 内置 ISP
独立 ISP 芯片对画质有极高要求的前视OX08D10 + GW5300
SoC 内置 ISP高阶智驾平台主流Orin ISP + RAW 输入

时间同步:多传感器融合的基石

自动驾驶车上有 812 颗相机和 13 颗 LiDAR,它们必须在同一时刻看到同一个世界。如果相机 A 拍的是 100ms 前的画面,相机 B 拍的是当前画面,融合出来的 BEV 特征就是错的。

同步架构:PTP + CPLD 硬触发

典型的多传感器时间同步采用两层架构:

FSYNC 触发链路

CPLD → FSYNC 脉冲 → 解串器(MAX96712)→ GMSL2 反向通道 → 串行器(MAX96717)→ External Trigger → CMOS Sensor 曝光

所有相机共用一个 FSYNC 源,相机间同步精度可以做到 <10μs。相机与 LiDAR 之间,如果 LiDAR 支持 sync-in 硬触发(如速腾 AT128、图达通灵雀W),可以做到 <50μs。像 Livox Mid360 这种没有 sync-in 的,只能靠 PTP 时间戳做软对齐,精度会退化到百微秒到低毫秒级。

工程上的坑

原理很清晰,但实操中有几个容易翻车的地方:


还有哪些问题没解好?

车载相机的硬件链路看起来成熟,但实际工程中仍然有不少棘手问题。

1. 曝光控制与场景适应

自动曝光(AE)算法在大多数场景下工作正常,但在以下场景容易翻车:

Tesla 的做法是在 ISP 层面定制 ROI 加权 AE(对路面区域给更高权重),同时靠神经网络的鲁棒性去容忍一部分曝光偏差。小鹏在 P7+ 上用独立 ISP(GW5300)做更精细的分区 AE 调优。

但根本性的解决思路是——让感知算法直接吃 RAW 数据,绕开 ISP 的信息损失。这是学术界和工业界都在推的方向,RAW 数据保留了 Sensor 的全部动态范围信息,理论上比 ISP 处理后的 RGB 图像对网络更友好。

2. Rolling Shutter 伪影

目前主流车载 CMOS 都是 Rolling Shutter(卷帘快门),不是 Global Shutter。卷帘快门的每一行像素曝光时刻不同,高速运动或车身振动时会产生图像畸变(倾斜、果冻效应)。

对感知的影响:高速行驶中,目标在图像上下边缘的位置会有 1~2 个像素的偏移,直接影响 3D 检测的深度估计精度。

Global Shutter 的车载 CMOS 正在逐步量产(如 onsemi AR0234CS),但目前 HDR 和动态范围性能不如 Rolling Shutter 方案,成本也更高。这是一个 trade-off。

3. GMSL2 带宽瓶颈

GMSL2 单路最高 6Gbps。对于 8MP@30fps RAW12 的数据流:

8MP × 12bit × 30fps = 2.88Gbps

看起来够用,但加上行消隐、帧消隐和协议开销,实际占用约 3.5~4Gbps,已经接近 6Gbps 上限的 60%~70%。如果未来传感器升级到 12MP 或更高帧率,GMSL2 就会成为瓶颈。

Maxim/ADI 已经在推 GMSL3,带宽提升到 12Gbps+,同时引入了确定性延迟和更强的功能安全特性。

4. Sensor 脏污和退化

相机装在车外,长期经受雨水、灰尘、虫子、鸟粪的考验。镜头脏污直接导致图像模糊或局部遮挡,对感知的影响是灾难性的。

当前的解决方案:

但长期的镜头老化(紫外线劣化、划痕)是无法完全解决的,只能通过定期更换和在线标定补偿。

5. 未来方向


写在最后

我自己做低速无人车的感知,对车载相机的体感是:硬件选型的决策往往不是技术最优,而是综合成本、供应链、部署约束和算法能力之后的平衡点。我们用的是 3MP 的 Sony ISX031,规格比 Tesla HW3 的 AR0136 还高一档,但和主流乘用车的 8MP 前视比就是另一个世界。低速场景下 3MP 配合定制 ISP 和针对性的数据增强已经够用,而高速场景的同行们已经在用 8MP 前视 + RAW 域输入了。

技术在迭代,但核心问题始终是同一个:如何在成本和约束范围内,让相机的每一个像素都产生最大的感知价值。