首页 文章 个人博客 利用时间上下文进行对象检测

利用时间上下文进行对象检测

发布时间:2021-09-15编辑:RainNight阅读(84)

生态监测有助于研究人员了解全球生态系统的动态,量化生物多样性,并衡量气候变化和人类活动的影响,包括保护和修复工作的有效性。为了有效地进行监测,生态学家需要高质量的数据,通常会花费大量精力在现场放置监测传感器,例如静态摄像机。虽然构建和运营此类传感器网络的成本效益越来越高,但对全球生物多样性数据的手动数据分析仍然是准确、全球、实时生态监测的瓶颈。虽然有一些方法可以通过机器学习自动进行这种分析,但静态摄像机的数据广泛用于监控我们周围的世界,目的包括山口道路状况对生态系统物候而言,仍然对传统计算机视觉系统构成了强大的挑战——由于功率和存储的限制,采样频率较低,通常不超过每秒一帧,有时由于使用了运动触发器而变得不规则。

为了在这种情况下表现良好,计算机视觉模型必须对经常偏离中心、失焦、光线不足或各种尺度的感兴趣对象具有鲁棒性。此外,除非移动,否则静态相机将始终拍摄同一场景的图像,这会导致来自任何一台相机的数据具有高度重复性。如果没有足够的数据可变性,机器学习模型可能会学会专注于后台的相关性,从而导致对新部署的泛化能力较差. 机器学习和生态社区一直通过LILA BC和Wildlife Insights等场所合作,从许多研究小组中收集专家标记的训练数据,每个研究小组可能在任何地方运行一个到数百个相机陷阱,以增加数据可变性. 这种数据收集和注释过程很慢,并且由于需要跨地理区域和分类群拥有不同的、具有代表性的数据而感到困惑。

file

在Context R-CNN: Long Term Temporal Context for Per-Camera Object Detection 中,我们提出了一种补充方法,通过在算法上改进对新型相机部署的泛化来提高全局可扩展性。这种新的对象检测架构利用网络中每个摄像头部署跨时间的上下文线索,在不依赖来自大量摄像头的额外训练数据的情况下,提高了对新摄像头部署中对象的识别。与人们在面对具有挑战性的图像时可能使用的方法相呼应,Context R-CNN 利用来自同一相机的长达一个月的图像作为上下文来确定可能存在的对象并识别它们。使用这种方法,该模型优于单帧Faster R-CNN跨多个域的显着边际基线,包括野生动物相机陷阱。我们已将这项工作的代码和模型作为TF 对象检测 API 的一部分开源,以便在新的静态相机数据集上轻松训练和测试 Context R-CNN 模型。

file

Context R-CNN 模型

Context R-CNN 旨在利用静态相机拍摄的图像中的高度相关性来提高对具有挑战性的数据的性能并提高对新相机部署的泛化能力,而无需额外的人类数据标记。它是对Faster R-CNN的改编,这是一种 流行的两阶段对象检测架构。为了提取相机的上下文,我们首先使用冻结特征提取器来构建上下文存储库来自大时间范围内的图像(最多一个月或更长时间)。接下来,使用 Context R-CNN 在每个图像中检测对象,它从存储库中聚合相关上下文,以帮助在具有挑战性的条件下检测对象(例如,在我们之前的示例中,大雾遮蔽了角马)。这种聚合是使用attention执行的,它对静态监控摄像机中常见的稀疏和不规则采样率具有鲁棒性。

file

Faster R-CNN 的第一阶段提出潜在对象,第二阶段将每个建议分类为背景或目标类别之一。在 Context R-CNN 中,我们从 Faster R-CNN 的第一阶段获取建议的对象,对于每个对象,我们使用基于相似性的注意力来确定我们记忆库( M ) 中的每个特征与当前的相关程度对象,并通过对M取相关加权和并将其添加回原始对象特征来构建每个对象的上下文特征。然后每个对象,现在添加了上下文信息,最终使用 Faster R-CNN 的第二阶段进行分类。

file

file

结果

我们已经在Snapshot Serengeti (SS) 和Caltech Camera Traps (CCT)上测试了 Context R-CNN ,这两个都是相机陷阱中动物物种的生态数据集,但来自高度不同的地理区域(坦桑尼亚与美国西南部)。下表中可以看到对每个数据集的 Faster R-CNN 基线的改进。值得注意的是,我们看到SS 的平均精度(mAP)相对增加了 47.5% ,CCT 的相对 mAP 增加了 34.3%。我们还将 Context R-CNN 与S3D进行比较(基于 3D 卷积的基线)并看到性能从 44.7% mAP 提高到 55.9% mAP(相对增加 25.1%)。最后,我们发现性能随着上下文时间范围的增加而增加,从一分钟的上下文到一个月。

file

正在进行和未来的工作

我们正在努力在Wildlife Insights平台内实施 Context R-CNN ,以促进通过相机陷阱进行大规模的全球生态监测。我们还在CVPR Fine-Grained Visual Recognition Workshop举办年度iWildCam物种识别竞赛等竞赛 帮助引起计算机视觉社区注意这些挑战。在静态相机中自动识别物种所面临的挑战是生态监测领域之外的静态相机的众多应用,以及用于监测生物多样性的其他静态传感器,例如音频和声纳设备。我们的方法是通用的,我们预计 Context R-CNN 采用的每传感器上下文方法对任何静态传感器都有益。

网盘推荐

微信公众号

书籍标签