研究成果示意图

Cinque Terre

研究方向简介

Cinque Terre

计算成像

新一代智能成像系统,面向移动端大视场成像的新型成像系统设计,构建了基于光学设计、成像仿真、深度学习的计算成像框架,探索小体积、易加工、低成本、大视场、高成像质量的成像系统及其在场景感知领域的应用。



Cinque Terre

事件辅助成像

传统帧相机受帧率和曝光时间影响,在拍摄快速运动物体或者相机快速运动时,画面会出现模糊。事件相机具有高时间分辨率特性,可以借助事件信息对传统帧相机产生运动模糊的情况进行修复去模糊,使得成像结果更稳定清晰(图:左:原始运动模糊图;中:我们基于事件相机的恢复结果;右:传统基于强度相机的恢复结果)。



Cinque Terre

事件人体感知

使用事件相机对环境中运动的人体进行姿态估计和动作识别,可以应用在高动态范围场景,以及易产生模糊的快速运动场景,另一方面使用事件相机只关注运动人体部分,可以使人体分析更高效,计算更快(图:左:我们基于事件点云的轻量框架下人体姿态估计结果;右:DHP19轻量模型基于事件帧的人体姿态估计结果)。



Cinque Terre

光流估计

光流估计能够帮助自动驾驶车辆从时间维度上理解周围场景。在此前最先进的光流算法中,全对相关量的计算扮演着重要角色。然而,过度依赖局部知识限制了模型在复杂街景下的精度。针对以上问题,本实验室提出了一种新型光流网络架构——CSFlow。它由交叉条带相关模块以及相关回归初始化模块组成。交叉条带相关模块利用条带操作将全局上下文编码到相关量中,而相关回归初始化模块则最大程度地利用了全局上下文来进行光流的初始化。我们的方法在公开的自动驾驶数据集KITTI-2015上达到了最先进的性能。



Cinque Terre

全景光流

光流估计是自动驾驶与机器人系统中的基本任务,能够帮助智能系统从时间维度上进行场景解析。自动驾驶车辆显然能够从全景传感器的360°超大视场角中受益,然而,现有的光流网络针对针孔图像进行设计,因此不能令人满意地泛化到全景图像。针对以上问题,本实验室提出一个新颖的全景光流框架——PANOFLOW。作为一种抽象的框架设计,它可以与任何现有的光流估计算法相结合,因此可以与窄视场估计算法共同进步。我们还创建了首个可用于训练的大型全景光流数据集Flow360,可以帮助算法进行训练与定量评估。本实验室提出的PANOFLOW算法在建立的Flow360以及公开数据集上达到了最先进的精度。



Cinque Terre

全景SLAM

视觉同步定位与建图(visual SLAM)是一种基于输入帧图像的、继而计算还原相机运动轨迹并且对周围环境进行粗略重建的技术。当输入图像来自鱼眼、PAL这样的大视场镜头时,slam算法所依赖的相机模型、特征匹配、极线搜索等等模块都要相应做出调整。目前,本实验室基于泰勒相机模型与畸变描述子提出的DPA-SLAM相较ORB-SLAM3在TUM512数据集上的定位精度和鲁棒性有显著提升。(图:上:ORB-SLAM3在tum512-corridor2数据集上的表现;下:我们的DPA-SLAM的表现)



Cinque Terre

视觉场景识别

视觉场景识别(Visual Place Recognition)/ 视觉地理定位(Visual Geo-localization)的目标是——给定一张拍摄的查询图像,在不借助其他传感器信息(例如:GPS等)的前提下,知道这张图是在哪里拍摄的。该任务的难点在于:拍摄到的图像会因光照、视角、遮挡等原因,与事先离线存储的局部地图图像有很大差异,同时在重复纹理较多(树木丛生地点),关键特征较少的复杂或困难场景中定位难度也很大。目前,课题组提出了全景—全景的视觉场景识别方案,查询图像序列和数据库图像序列均由全景图像构成,二者经过同一个特征提取器,得到全局描述子特征用于匹配查找。经测试,该方法在实际场景中有较好的定位表现。


下载数据集以及个人论文

下载