今日热门!首个基于LBS方案的3D传感器，VoxelSensor解析

对于AR/VR来讲，实时、准确的深度感知有助于实现稳定、良好的混合现实效果，将虚拟内容更好地与物理空间融合。在移动AR场景，我们可以通过手机的ToF、LiDAR传感器对周围环境进行3D测距，而AR/VR设备也开始在探索此类传感器的应用。本文中，Karl Guttag对基于新型3D传感技术Switching Pixels的VoxelSensor进行了解析，发现此方案快速、准确，甚至技术比现有3D传感方案还好。

据青亭网了解，Switching Pixels由晶圆半导体公司VoxelSensors开发，这是一种3D感知和扫描框架，原理基于LBS激光扫描，特点是省电（检测到光才会生成事件）、低延迟、3D传感效果稳定、适合各种照明条件、可追踪活动光源或图案。Switching Pixels的扫描频率可达100MHz，号称比其他3D扫描速度快100倍。

Karl认为，Switching Pixels保持对激光非常敏感的同时，又能排除其它光线。另外，虽然该方案也是在识别到事件后才触发扫描，但其运行方式不同于常见的“事件相机”。简单来讲，Switching Pixels的区别是专注于识别激光事件，性能比普通事件相机更好，但也可以使用事件相机的算法。

【资料图】

原理和细节

最开始，Switching Pixels以Lissajous模式快速扫描整个区域，并生成空间图像。如果空间在扫描过程静止不动，那么该方案便会不断提升分辨率。因此可以认为，Switching Pixels的高分辨率建立在一系列最新的稀疏扫描数据之上。

据了解，Switching Pixels在不到1毫秒时间内，就能生成扫描范围内的完整稀疏图像。相比之下，典型LiDAR方案通常需要16毫秒或更久的扫描时间，再加上数据处理时间，会有一定延迟。因此相比于典型的dToF/LiDAR传感器，VoxelSensors的方案速度快10倍以上，而且在任何时间捕捉到的图像分辨率都更高。为什么呢？因为Switching Pixels的测距准确性不像LiDAR那样受限于光速，也不依赖于大量的光速校准。

如果将两个Switching Pixels模组结合，便可通过三角测量法来识别精确的3D形状、位置、轮廓和运动（每纳秒生成一个新的立体像素），不需要复杂的图像处理过程。

只需要不到1毫秒，就可以捕捉到可定位的深度信息（耗电大约只有几十毫瓦），几毫秒后，便可生成密集的深度信息，用于空间测绘和人机交互。

不过，该方案还在早期演示阶段，硬件重量和体积大，还很难与AR/VR头显集成。VoxelSensors预计，随着Switching Pixels体积不断缩小，未来计划在AR/VR中集成两个这样的模组，来实现3D扫描。

结合OQmented技术

去年12月，VoxelSensors曾宣布与LBS和3D传感方案商OQmented合作，开发可集成AR/VR系统的3D激光扫描传感器。该传感器将结合OQmented的Lissajous模式的MEMS扫描镜，与每帧逐行工作的光栅扫描相比，Lissajous轨迹扫描速度更快，并且能耗很低，它可以更快地捕获完整的场景和快速移动，并且需要更少的数据处理，可满足AR/VR对于低延迟、高效率的需求。

多年来，OQmented也一直在尝试利用Lissajous扫描工艺来制造LBS显示模组，不过Guttag认为，基于Lissajous显示模组意义不大，也没有竞争力。反而是3D传感器方案可能会带来更大价值。因此他建议，OQmented应该专注于研发感知技术，而不是显示技术。

对比常见的AR/VR 3D传感方案

Guttag指出，3D传感的基本目标是生成由XYZ三个维度立体像素组成的点云，并在其中定位现实世界中的物理对象。在AR/VR领域，有以下集中常见的3D感知技术：

1，光学定位（基于可见光或IR）

利用一个或多个摄像头捕捉图像，并输入到图像处理和结构预测算法中，来推算2D/3D定位。如果使用多个相机、捕捉多帧图像，便可以梳理出深度信息。

这是最常见的、且成本最低的3D传感方式，但只具有一定程度的3D感知能力，尤其是深度感知的分辨率和精度很低，需要大量处理过程。

此外，还受到摄像头刷新率、图像处理延迟的限制，因此监测深度速度慢，通常需要多帧图像才能捕捉深度。

2，结构光

该方案会投射一个或多个光图案（常常为红外光），然后再使用一个或多个相机（或红外相机）捕捉。通过处理结构光图案的变形程度，来提取3D信息。

微软Kinect就是基于结构光方案，其基于PrimeSense开发的3D感知技术（该公司在2013年已经被苹果收购），iPhone、iPad上的Face ID功能也是基于该技术。

通常，结构光可以很好的识别深度，而且信息处理时间短。不过在扫描过程中，单结构光模组（例如iPhone X）可能需要移动，才能获得准确的结构。

3，扫描型LiDAR

简单来讲，该方案的原理是发射一束IR光线，通常是激光（或高度聚光的lED），然后检测这束光返回传感器（一个或多个）所需的时间，并根据光速来计算距离。在具体应用中，它需要在X和Y方向发射一个或多个脉冲光束，以在X和Y轴上定位，而Z轴，也就是深度，则是通过计算光返回的时间来测量。

也就是说，该方案通常会搭配光束扫描模组，比如由电机驱动的旋转激光阵列、MEMS扫描镜、震动衍射光栅等等，缺点是扫描过程比较缓慢，多数超过1/60秒。深度测量上受到如发光、传感和测量光速（大约每纳秒30厘米）的整套系统准确性而存在影响。

由于激光的输出强度与人眼安全息息相关，因此该传感方案需要在扫描距离、速度、分辨率、灵敏度、降噪等方面需要作出权衡。比如Intel RealSense L515就是基于LiDAR方案，扫描频率约1/30秒，分辨率根据扫描距离而变化。值得注意的是，初代Quest Pro发布前，曾计划采用Intel RealSense传感器。

4，固态、ToF、LiDAR组合

对比基于狭窄激光束的扫描方案，这个组合方案结合了衍射光栅等技术，使用单个宽光束，或是细光束阵列来扫描整个场景。

此外，该方案配备了测量X、Y距离的微型ToF传感器，常用于手机、AR/VR等设备中。

在实际应用中，固态LiDAR的分辨率取决于ToF相机的分辨率（结合运动信息后，可逐渐提高分辨率）。值得注意的是，单个传感器通常需要捕捉更多光子，才能实现传感，因此需要更长时间。也就是说，该系统检测的物体距离越远，帧速率就越慢，尤其是在AR/VR场景中。比如，HoloLens 2可能需要1秒钟才能识别到较远的距离。

对比VoxelSensors和其他主动传感技术

结论

对比上述典型的3D传感方案，VoxelSensors主要优势如下：

◎ 初始运动检测更快，约1毫秒（其他方案大约要16-33毫秒）；

◎ 对比简单的三角测量、光速测量、大规模立体图像处理方式，VoxelSensors在深度计算的精度、速度、功率等方面具有优势；

◎ Switching Pixels灵敏度高，可实现更高的帧速率、更远的扫描距离、对人眼也更安全。

尽管如此，VoxelSensors当前劣势也很明显，就是体积非常大。接下来还需要进一步缩小硬件体积，降低成本，才能比现有的ToF传感方案更有竞争力。参考：VoxelSensor、KG