学术 | 广涵步落阁

自顶向下的人体关键点跟踪

18/10/18 at 11.58上午 / by 宁广涵 / 0 Comment

导语

人体姿态识别，又称为人体关键点识别，在2016年底至今，发展迅速。单人的人体姿态识别已经在著名公开数据集MPII和LSP上取得了90%以上的准确率。多人关键点识别，是指在自然场景下识别多人的姿态；与单人姿态识别相比，人物并没有预先定位，也没有生成人物在中心的图像ROI区块。2016年开始，COCO数据集开始增加人体关键点识别的任务，实际上指的就是多人的人体姿态识别。

在人体关键点领域，与COCO齐名的数据集有MPII Multi-person Dataset，是MPII单人姿态数据集的一个补充。该实验室Max Planck Institute for Informatics（MPII）在2017年推出了一个更大的数据集：PoseTrack，并相应推出了第一届的PoseTrack Challenge。该挑战赛对应三个任务：单帧多人姿态识别，多帧多人姿态识别，多帧多人姿态跟踪。该数据集的训练集包括300个视频，验证集包括50个视频，测试集有208个视频。数据集公开后成为人体关键点跟踪领域最大最权威的数据集。

第一届PoseTrack挑战赛是ICCV 2017的一个workshop。在挑战赛结束之后，PoseTrack对所有注册用户公开，并推出Leaderboard来实时更新在该数据集上最新的结果。每个注册的方法最多可以提交四次结果，每次结果提交的间隔不得短于72小时。京东大数据与智能供应链组宁广涵主导的开源项目openSVAI在该leaderboard的多人人体关键点识别任务上排名第二，超过第七名Facebook团队的Mask R-CNN方法9个百分点。

今年，作为ECCV 2018的一个workshop，MPII实验室联合Google、Amazon等业界知名公司推出了第二届的PoseTrack挑战赛。在第二届挑战赛中，PoseTrack的数据集得到了扩充，训练集被扩充到593个视频，验证集拥有74个视频，测试集有375个视频，总体扩充了将近一倍。并且，为了吸引更多高校和业界公司的参与，数据集服务器的官方上传格式改变成了与COCO兼容的形式，可以让参加COCO人体关键点检测比赛的团队可以更容易地参与PoseTrack的挑战赛。

京东大数据与智能供应链组参与了这次挑战赛的两个项目：多人的人体关键点识别和关键点跟踪，均取得了第六名的成绩。在没有使用外部数据集的方法中，openSVAI在PoseTrack挑战赛两项任务中的排名分别是第一和第三。

以下是对参赛方法 [1]的干货分享——

方法介绍

人体关键点跟踪是一个新兴的任务，目前有自顶向下和自底向上两种主流的方法。自顶向下的方法是先进行人物的检测，再对检测到的人物对应的ROI进行单人关键点识别，最后将视频中不同人物的关键点通过数据关联的方法赋予一致的ID。

人体关键点跟踪的评估标准和多物体检测（Multi-object tracking）是相似的，用MOTA指标来评估。这种评估准绳会惩罚丢失（missing）、错误（false positive）和不一致（mis-match）三种情况，比人体姿态识别的PCK/OKS评估准则更加严格。

我们遵循自顶向下的方法，顺序地进行人物检测，单人人体姿态识别，多人姿态追踪。这三个模块相互独立，但通过openSVAI进行标准化的结构数据传递。

Pose Tracking有很多应用。openSVAI在人体姿态跟踪的基础上增加分割模块，可以实现更多功能，比如对自动驾驶视频的分析。

（1）物体检测模块

人物检测模块我们使用了标准物体检测的方法：deformable FPN网络 [2]。使用的是在COCO上预训练的80类的物体检测模型。当然，如果使用专门针对人体检测的数据集（比如CrowdHuman）进行增广，并且单独训练人物这个类别，检测模块的准确率仍然可以获得提升。

我们测试了deformable R-FCN和deformable FPN两个网络结构，并且分别测试了ResNet101和ResNet50两个backbone。经过对比，选择了deformable FPN作为物体检测网络。我们根据验证集给出的关键点位置确定bbox的大致位置并将其扩大20%，以此作为人物检测的真值。以此作为真值，我们测试并评估了两个网络的物体检测的准确率。下面图表显示，在不同的IoU阈值下，两种方法的precision和recall。显然，deformable FPN的表现更好。

那么，是不是检测的结果好，人体姿态识别和跟踪的准确率就一定更好呢？的确是的。下面图表中显示，在固定后续两个模块的情况下，使用不同检测方法时，人体关键点识别和跟踪两项任务在验证集上准确率的对比。

我们可以发现，deformable FPN对应的检测结果，在人体姿态识别和跟踪上准确率也更高。

并且，在使用检测的真值时，人体关键点识别和跟踪两项任务分别有7%和6%的提高空间。这意味如果使用专门针对人体检测的数据集（比如CrowdHuman）进行增广，并且单独训练人物这个类别，检测模块的准确率仍然有提升的空间，并可以帮助系统的准确率获得提升。

（2）单人姿态识别模块

主流的单人姿态识别方法是把RGB通道的输入图像经过完全卷积的regression运算，得到人体关键点的位置。具体来说，将人物图像ROI区块进行resize，得到一个固定大小的图像作为输入，比如256×256的大小。然后，根据关键点的位置，生成一个通道数为关键点个数（再外加一个代表背景通道）的heatmap tensor作为真值，分辨率往往要小于图像ROI区块，比如64×64。每个heatmap上都有一个以关键点中心而生成的符合高斯分布的blob。使用heatmap而不使用坐标值的原因是：直接使用坐标值进行回归会导致结果对干扰比较敏感，而人物的关键点并非一个具体的坐标点——一个坐标点真值周围的区域都可以认为是该关节点。

从2016年的Convolutional Pose Machine（CPM）开始，越来越多的人体姿态网络都是fully convolutional，纯粹的卷积运算。Hourglass网络是一个多尺度下进行关键点检测的网络，由于对多尺度的信息进行skip connection和concatenation，网络可以根据关键点的局部视觉特征和关键点之间的整体相互依赖关系得到更准确的真值。

Cascaded Pyramid Networks（CPN）[3] 是COCO 2018关键点任务的winner。和Hourglass相比，它提出了GlobalNet和RefineNet，其中GlobalNet是类似hourglass的结构，而RefineNet根据hard-keypoint mining对GlobalNet产生的heatmap结果进行refine。我们使用CPN的网络结构，进行单人姿态的识别。在得到关键点的热力图之后，我们利用FractalNet [4]中提出的cross-heatmap NMS的方法进行后处理，得到最终的关键点位置信息。

我们在COCO数据集上预训练，然后在PoseTrack数据集上进行finetune。因为COCO的关键点与PoseTrack的关键点种类和数量有所不同，COCO的数据对应的一些PoseTrack关键点是通过插值得到的。在使用COCO预训练之后，有些关键点的位置不够准确，需要在PoseTrack数据集上训练进行矫正。

为了得到更高的准确率，我们使用两个模型来产生最终的关键点预测结果。下面图表中展示，通过均值的方法和专家方法对两个模型产生的结果进行综合，我们得到更准确的结果。两种方法中，专家方法的精度更高。

（3）多人姿态跟踪模块

多人姿态跟踪模块的功能是将检测模块和人体姿态识别模块产生的结果进行后处理，把视频中不同帧中的同一个人物关联起来，对视频中的每一个人物赋予一个独特的ID。我们采用PoseFlow [5] 的方法：首先利用deepmatch获得相邻帧之间的鲁棒点匹配，再根据一段时间内所有关键点的置信度信息通过优化方法得到“姿态流”——一个姿态流类似检测的人物在视频中产生的tubelet，区别在于姿态流包含的是关键点信息。最后，根据自定义的姿态流之间的距离，将姿态流进行最大值抑制和融合，得到最终的姿态流。同一个姿态流的人物和关键点ID都是一致的。

值得注意的是，在MOTA的评估标准下，丢失（missing）、错误（false positive）和不一致（mis-match）都会被惩罚，反映在结果上面。为了提高MOTA的值，我们在多人姿态跟踪模块之后，主动丢弃一些关键点——假如一个关键点的置信度低于阈值，就丢弃该关键点信息。这样一来，某一帧内的一个人物可能只提供部分关键点的信息，而不是全部。在某些遮挡的情况下，错误预测的关键点被丢弃了，因此可以获得更高的准确率。下面图表中展示了不同阈值对最终姿态识别和跟踪准确率的影响：

通过对不同阈值下不同人体位置的关键点留存率的分析，我们发现不同位置的关键点的难度不同，它们的置信度的概率分布并不相同。肩膀的关键点最容易预测，而四肢尤其是手腕脚腕的关键点难度最高。这很可能是因为这些部位的自由度更大，被遮挡的情况也更严重，由于半身像的存在，这些位置的训练数据也相对更少。下面图表展示了不同阈值下关键点的留存率：

假如能够自适应地确立不同位置的阈值，或许可以提高准确率。

最终的人体关键点检测和跟踪的结果如下：

参考文献

[1] Ning, G., Liu, P., Fan, X., Zhang, C.: A Top-down Approach to Articulated Human Pose Estimation and Tracking. In: ECCV PoseTrack workshop (2018).

[2] Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., Wei, Y.: Deformable convolutional networks. In: ICCV (2017).

[3] Chen, Y., Wang, Z., Peng, Y., Zhang, Z., Yu, G., Sun, J.: Cascaded Pyramid Network for Multi-Person Pose Estimation. In: CVPR (2018)

[4] Ning, G., Zhang, Z., He, Z.: Knowledge-guided deep fractal neural networks for human pose estimation. IEEE Transactions on Multimedia20(5), 1246–1259 (2018)

[5] Xiu, Y., Li, J., Wang, H., Fang, Y., Lu, C.: Pose flow: Efficient online pose tracking. In: BMVC (2018)

嵌入式、深度学习和计算机视觉——Jetson TX1能带来什么革命

15/12/03 at 6.14上午 / by 宁广涵 / 0 Comment

前言：

公司最近引入了新设备，这两天我做了一些背景研究和前景预测，写出来跟大家分享一下。

说句题外话，之前提到过，非常欢迎大家分享广涵的原创文章，但是商业转载需要联系我取得授权。最近发现《微头条》把我的公众号(广涵部落阁，guanghan-blog)和文章转载了，虽然没有联系我，但是至少标注了来源和公众号二维码。而某些网站（暂不点名），同样是未经许可进行转载，却连文章来源都没有。如若故技重施，或采取法律手段。希望今后这些网站的运营者能够尊重原创作者的知识产权。

1. 关于背景——什么是Jetson TX1？

它是一个装有GPU的系统级芯片，可以嵌入在移动设备上。利用GPU强大的运算能力，可以利用到人工智能（artificial intelligence）领域最先进的算法——深度学习（deep learning）。

开发者套件11月16日才发售，我们也刚刚拿到手不久。开发者套件的零售定价为 599 美元，学生价格为 299 美元。独立模块版本则定价 299 美元，2016年首季度发货。

下面图片展示的是开发者套件。

公司配置的新玩具——继TitanX之后，又祭出一件神器：Jetson TX1 development kit。果然有时候公司比实验室更有资源之优势。

这个开发者套件是开箱即用的，自带ubuntu14.04的操作系统，只需简单几行命令就可以set up。

安装JetPack (Jetson Development Pack)之后，就有了所有需要的东西：

CUDA
- cuDNN （Nvidia CUDA Deep Neural Network Library，是经过CUDA加速的深度学习库）
Opencv4Tegra （from Opencv community，一般是做实验时快速实现用，此版本是针对Tegra开发板的优化版）
VisionWorks（ from Nvidia，是production的工业级工具，可以直接投入应用）
- OpenVX（from Khronos，是计算机视觉应用跨平台加速的标准）

VisionWorks把CUDA和OpenVX封装好，把OpenVX经过CUDA进行GPU运算的优化。而OpenVX具有跨平台特性，所以开发者在编写代码时相当”舒适“。

其中，VisionWorks官方给出了两个workshop的视频，可以帮我们初步了解它。

workshop视频1：introduction
workshop视频2：simple CV tasks with Vision Works

OpenVX似乎优势明显，虽然作为一个研究者，平时更多地是接触opencv。

2.关于前景——Jetson TX1能带来什么革命：

未来机器人、遥控无人机、监控摄像头、智能汽车都将获得突破。

机器人可以进行人脸核实（face verification）、物体识别（object detection and recognition）、场景识别（scene recognition）、动作识别（action recognition）等等，更好地与人进行交互。

无人机在鸟瞰的视角可以进行动态移动物体的检测和监控。

监控摄像头可以扫描人群，进行人脸识别（face recognition），同时进行异常行为检测（abnormal activity detection）和暴力场景检测（violence scene detection）等等。

智能汽车可以通过车载摄像头获取一个或多个视频录制的街景信息，经过分析综合，实现场景文字识别（scene text detection and recognition），分析路牌店名等。可以结合GPS进行更深层次的信息挖掘（data mining）。还可以利用基于深度学习（deep learning）的计算机视觉（computer vision）算法和其他传感器（sensor）的信息融合（information fusion）实现更棒的自动驾驶。

官方给出了一些初步成功案例，印证了我的期待，比如social robot JOBO，还有遥控无人机Kespy.

除此之外，我预言体育实况转播也将获得突破。与增强现实（AR）结合起来，更直观地表现内容。

在这个网页中，Viz Libero展示了目前可以做到的顶尖水准，但它仍然需要专业的人工干预。

我预测，未来或许会提供虚拟现实（VR）的赛事转播，使得用户戴上虚拟现实设备，能够获得现场观众的视角，像在现场一样可以左顾右盼，和现场其他球迷一样为自己钟爱的球队欢呼。

更进一步，VIP用户可以在某个精彩进球回放时，通过无人机的录制画面，获取球员视角，从主观视角（egocentric view）来”体验“进球的快感。应用在体育教学领域，可以成为更好的教学工具。当然，类似地，也可以成为体育教练更好地讲解分析的工具。

有些公司（比如，VRSE）已经推出了手机和平板电脑上的虚拟现实（VR）app，让我们可以初探究竟。身临其境的演唱会，视频游戏，这些领域最先引起了产业界的重视。

虽然目前的state-of-the-art还不能达到我期待的水准，但不久的未来一定会成为现实。

很高兴我是其中众多研究人员中的一个。当这些都能成为现实的时候，希望我个人的商业计划也可以在那时部署实施。（因为是前所未有的东西，所以暂且卖个长远的关子）

对未来充满期待！

宁广涵

2015年12月2日

【学术心得】如何更有效率地研究一个新的领域？

15/08/03 at 3.09上午 / by 宁广涵 / 0 Comment

1. 找到一个研究领域后的第一步

目标：

了解问题的内涵，了解常用术语
了解问题的哪些部分已经解决了，哪些还没有解决。
了解哪些研究人员从事相关研究，找出大牛，多读大牛的论文，看大牛的项目project，博客，主页，github。

做法：

寻找survey paper，或者review paper，最好是最近5年的。（此时可以根据读的多个paper撰写Introduction的部分了）。

原因：

它能给予我们综述，相当于我们自己阅读了N多paper后获得的总体概况的理解。
它可能比我们自己找paper更全面。

2. 更全面、更深入地了解这个field

目标：

在上一步获得了对新领域整体的了解之后，我们希望有更系统、更深入的理解。

做法：

找大牛们推荐的“书单”：scholarly edited volume of review articles。
这些书里面其实是相应的关键论文按照内容有机地编纂在一起了。
甚至更广泛地，找edited ‘Handbook’，作为上手的入门读物。
通过 Google Books或者豆瓣来查看这些书质量高不高。质量不高的不看, 起到一层过滤的作用，毕竟不可能全都看。

这里有个各领域的推荐书单——

3. 通过上面的阅读，已经能够找到合适的terminology去进行自己的信息检索。

目标：

找到自己的研究问题，在领域里广泛的问题中找到一个感兴趣的并且具有发展潜力的课题，然后着手解决某些细节问题。

做法：

按照自己的兴趣点，通过合适的关键词和术语，在知乎、quora、技术博客、google等地方搜索感兴趣的相关论文和材料。
检索更多零星的paper之后，多读abstract，少读全文。List出感兴趣有帮助的那些paper，挑少量的来源于好conference的文章来细读。

原因：

在此过程中，能参考到别人对某一问题的理解和相应领域的学习方法，尽量少走一些弯路。
大牛的recent publications, 也可以给我们一些条理。

最近Mendeley的网页版用起来很方便了，可以让我们在全平台获取自己论文库的信息。它能记录我们每个论文阅读的进度和笔记，也能帮助我们在撰写自己的论文时更快地完成citation。

4. 做实验、写代码、撰写论文

剩下的故事，我们都已经知道了:)

【论文观点】CVPR2015

15/06/15 at 2.07上午 / by 宁广涵 / 11 Comments

前言

CVPR2015是一个关于计算机视觉的国际顶尖学术会议。一年一度的会议，每年发表很多高质量的文章。CVPR2015刚刚结束，我读了一些会议里的文章，在此记录一下它们的核心思想，也许以后面对某个具体问题的时候能够受到启发，届时引用文章能有迹可循。如果读者能够获益，或者有不同观点，产生思想碰撞，那更是再好不过了。

Continue reading →