Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer

少于 1 分钟阅读时长

发布时间： June 26, 2024

2024年6月，课题组博士研究生时昊、蒋奇、印晓婷、王泽等人的论文《Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer》发表于T-IV期刊。

期刊介绍

IEEE Transactions on Intelligent Vehicles是IEEE旗下智能车辆领域顶级期刊，SCI、JCR一区，2023年影响因子14.0，去除自引影响因子8.4。该期刊在计算机科学/人工智能领域JCR综合排名5/197，在交通科学与技术领域JCR综合排名2/72。

论文主要图表

论文介绍

本文中，我们提出了一种名为“FlowLens”的新型架构，首次通过在线视频补全技术扩展了自动驾驶车辆的视野范围，从而增强场景的可见性、感知力和系统安全性。

传统的视觉传感器由于硬件成本和系统尺寸的限制，其摄像头的视场往往受到限制，无法提供足够的覆盖范围。然而，从时空角度来看，我们可以通过分析过去的视频流来获取摄像头物理视场之外的信息。利用这一技术，FlowLens能够重构未被直接观察到的场景，提供可靠的语义上下文，甚至增强视野外的感知能力。

为了实现这一目标，FlowLens结合了显式的光流技术和隐式的剪辑循环变压器来传播特征。该架构具有两大特色：

剪辑循环中心: 配备了三维解耦交叉注意力（3D-Decoupled Cross Attention, DDCA），用以逐步处理随时间积累的全局信息。
多分支混合融合前馈网络（Mix Fusion Feed Forward Network, MixF3N），以增强本地特征不同频率空间流动的细粒度融合与精确度。

此外，我们利用经过各种视野掩膜处理的KITTI360数据集来促进训练和评估，覆盖了外部和内部视场扩展场景。通过对不同模型进行量化评估和质量比较，我们对视场外的语义和目标检测进行了深入研究。

通过广泛的实验和用户调研，包括在线和离线视频补全以及视场外感知任务，FlowLens证明了其在当前领域的领先性能。为了促进更广泛的学术交流和应用开发，我们已经将源代码和数据集公开。

这项工作不仅推动了自动驾驶技术的前沿发展，也为相关领域的研究人员和工程师提供了宝贵的资源和灵感。我们期待着该技术在未来的实际应用和进一步的研究探索。

代码仓库

Github

BibTeX

@article{shi2022beyond,
  title={Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer},
  author={Shi, Hao and Jiang, Qi and Yang, Kailun and Yin, Xiaoting and Ni, Huajian and Wang, Kaiwei},
  journal={arXiv e-prints},
  pages={arXiv--2211},
  year={2022}
}

分享到

Twitter Facebook LinkedIn

汪凯巍

Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer

期刊介绍

论文主要图表

论文介绍

代码仓库

BibTeX

分享到

你可能感兴趣的

Offboard Occupancy Refinement With Hybrid Propagation for Autonomous Driving

Representing domain-mixing optical degradation for real-world Computational Aberration Correction via vector quantization

One-Step Event-Driven High-Speed Autofocus

Towards Single-Lens Controllable Depth-of-Field Imaging via Depth-Aware Point Spread Functions