前言
CVPR2015是一个关于计算机视觉的国际顶尖学术会议。一年一度的会议,每年发表很多高质量的文章。CVPR2015刚刚结束,我读了一些会议里的文章,在此记录一下它们的核心思想,也许以后面对某个具体问题的时候能够受到启发,届时引用文章能有迹可循。如果读者能够获益,或者有不同观点,产生思想碰撞,那更是再好不过了。
Expanding Object Detector’s Horizon: Incremental Learning Framework for Object Detection in Videos [full paper] [ext. abstract]Alina Kuznetsova, Sung Ju Hwang, Bodo Rosenhahn, Leonid Sigal
检测到的东西如果有足够信心归为一类,那么把它用来作为对模型矫正的材料,这样在以后的检测中有更高的准确率。类似人类的学习过程。
【2】
Web Scale Photo Hash Clustering on A Single Machine [full paper] [ext. abstract]
Yunchao Gong, Marcin Pawlowski, Fei Yang, Louis Brandy, Lubomir Bourdev, Rob Fergus
对hash code进行clustering,通过一个threshold来控制clustering的程度,这样用来进行near-duplicate image的retrieval。
【3】
What do 15,000 Object Categories Tell Us About Classifying and Localizing Actions?[full paper][ext. abstract]
Mihir Jain, Jan C. van Gemert, Cees G. M. Snoek
物品的分类对行为检测有帮助作用。这篇文章是第一篇关于这个话题进行探讨的,是个深坑,大家可以关注一下,考虑占坑。
【4】
A Dynamic Programming Approach for Fast and Robust Object Pose Recognition From Range Images [full paper] [ext. abstract]
Christopher Zach, Adrian Penate-Sanchez, Minh-Tri Pham
关注这篇文章原因有二:
一是因为关于pose recognition,二是因为dynamic programming。这个比较私人了,不一定对大家都有帮助。
【5】
Delving Into Egocentric Actions[full paper][ext. abstract]
Yin Li, Zhefan Ye, James M. Rehg
通过对google glass等设备携带者所录视频进行分析,了解佩戴者的行为。注视,左顾右盼,等等,都为行为分析提供clue。
【6】
Deformable Part Models are Convolutional Neural Networks[full paper][ext. abstract]
Ross Girshick, Forrest Iandola, Trevor Darrell, Jitendra Malik
一个新奇的观点:Deformable Part Model 和 Convolutional Neural Network是一回事。
【7】
Deep Neural Networks Are Easily Fooled: High Confidence Predictions for Unrecognizable Images [full paper] [ext. abstract]
Anh Nguyen, Jason Yosinski, Jeff Clune
文章给了我们一个警示。目前的Deep Learning还是不够智能,没我们想象的那么神奇,它“看到的”我们看到的仍然很大不同。它可能会犯错,而且是很荒谬的错误。
【8】
Hypercolumns for Object Segmentation and Fine-Grained Localization[full paper][ext. abstract]
Bharath Hariharan, Pablo Arbeláez, Ross Girshick, Jitendra Malik
一个很好的思路!以前的CNN或者R-CNN,我们总是用最后一层作为class label,倒数第二层作为feature。这篇文章的作者想到利用每一层的信息。因为对于每一个pixel来讲,在所有层数上它都有被激发和不被激发两种态,作者利用了每一层的激发态作为一个feature vector来帮助自己做精细的物体检测。
【9】
Hashing With Binary Autoencoders[full paper][ext. abstract]
Miguel Á. Carreira-Perpiñán, Ramin Raziperchikolaei
Autoencoder做hashing我捣鼓过一阵子,想出了一个“好的方法”,发现别人早已经发表论文了,叫denoised autoencoder。相见恨晚啊!(这就是不先做背景研究的后果。)现在关于hashing的方法好多,有的用CNN加一个层,有的直接进行矩阵乘法(使用更合理的constraint),autoencoder的优势已经不在啦!
CVPR2015里面关于Autoencoder的相关论文:
Yan Xia, Kaiming He, Pushmeet Kohli, Jian Sun
Venice Erin Liong, Jiwen Lu, Gang Wang, Pierre Moulin, Jie Zhou
Venice Erin Liong, Jiwen Lu, Gang Wang, Pierre Moulin, Jie Zhou
【10】
Collaborative Feature Learning From Social Media [full paper] [ext. abstract]
Chen Fang, Hailin Jin, Jianchao Yang, Zhe Lin
很实际的一个问题,一般来说training data都是label好的,这样训练model。文章提出了一种新的方法,即从社交网络中提取信息,根据用户的行为来判断一张图片应该具有的分类或标签,以此来进行训练。
可以和上面提到的文章【1】的idea结合,即online learning,把推测到的图片分类作为材料,矫正模型。如此一来社交网络的更新也会矫正模型本身。
【11】
Rotating Your Face Using Multi-Task Deep Neural Network[full paper][ext. abstract]
Junho Yim, Heechul Jung, ByungIn Yoo, Changkyu Choi, Dusik Park, Junmo Kim
非常有趣的研究!通过深度学习,得到rotation-invariant的feature,利用它可以复原出多种角度的脸部照片。
【12】
Is Object Localization for Free? – Weakly-Supervised Learning With Convolutional Neural Networks [full paper] [ext. abstract]
Maxime Oquab, Léon Bottou, Ivan Laptev, Josef Sivic
完全冲着名字去看的。它的工作主要是解决手工label物体位置很繁琐这个问题。通过对图片标记某个物品存在不存在,文章中提出的框架可以主动预测出物体的具体位置。
【13】
Finding Action Tubes[full paper][ext. abstract]
Georgia Gkioxari, Jitendra Malik
已经不是第一篇文章使用UCF的dataset进行动作分类和检测了。最近比较火的一个话题吧。这应该是我们导师感兴趣的话题。
另一个导师可能感兴趣的话题: 点人头的。这些嵌入式放在摄像头里面的老板都感兴趣。给老师留着看吧。
Cross-Scene Crowd Counting via Deep Convolutional Neural Networks[full paper][ext. abstract]
Cong Zhang, Hongsheng Li, Xiaogang Wang, Xiaokang Yang
【14】
End-to-End Integration of a Convolution Network, Deformable Parts Model and Non-Maximum Suppression [full paper] [ext. abstract]
Li Wan, David Eigen, Rob Fergus
几个感兴趣的模块的组合。End-to-end。很奇怪为什么之前这种组合没有被explore过。
【15】
ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding[full paper][ext. abstract]
Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, Juan Carlos Niebles
对我而言挺新奇的——Activity Lexicon。以前见过的都是文本的lexicon,比如在scene text的检测上,通过字母之间的关联信息来进行单词的检测。
【PS:含有源代码的文章】
1.
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun
The 13th European Conference on Computer Vision (ECCV), 2014
arXiv Project Slides Poster Code
2.
Sparse Projections for High-Dimensional Binary Codes
Yan Xia, Kaiming He, Pushmeet Kohli, and Jian Sun
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015
PDF Code
3.
Learning a Deep Convolutional Network for Image Super-Resolution
Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang
The 13th European Conference on Computer Vision (ECCV), 2014
PDF Code
4.
Understanding Deep Image Representations by Inverting Them [full paper] [ext. abstract]
Aravindh Mahendran, Andrea Vedaldi
5.
Becoming the Expert – Interactive Multi-Class Machine Teaching [full paper] [ext. abstract]
Edward Johns, Oisin Mac Aodha, Gabriel J. Brostow
6.
Deep Learing of Binary Hash Codes for Fast Image Retrieval [full paper]
Kevin Lin† , Huei-Fang Yang† , Jen-Hao Hsiao‡ , Chu-Song Chen† †Academia Sinica, Taiwan ‡Yahoo! Taiwan
以上可能不全,或者说肯定不全,欢迎留言补充!
The source code of paper “Deep Learning of Binary Hash Codes for Fast Image Retrieval” is available at:
https://github.com/kevinlin311tw/caffe-cvprw15
Thanks a lot!
Your contribution has been added to the PS of this article. Hope it helps people who are interested. I am one of them:)
Thank you. Please correct the authors name.
Very sorry about that! The names are now corrected and the paper link is updated. Thanks!
Understanding Deep Image Representations by Inverting Them这篇文章的code链接没有找到啊
Understanding Deep Image Representations by Inverting Them这篇文章的code链接里没有找到代码啊
这篇文章在这里:http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Mahendran_Understanding_Deep_Image_2015_CVPR_paper.pdf
文章中提到,code的地址是:http://www.robots.ox.ac.uk/~vgg/research/invrep/index.htm
但现在已经404了,可能作者已经把该代码删除了。
可以转载么
这篇文章可以转载,转载时请复制下面一段话声明在正文前,并且请您在转载后把发布的网址通过留言告知我,谢谢!
原文出处:广涵步落阁
原文作者:宁广涵
原文链接:http://guanghan.info/blog/zh/archives/613
heisann Moa ;)jeg er heller ikke helt ferdig med alle ju..mavenel..hmmg.enår skal jeg gjøre det mon tro..??dagene flyr avgårde..men det er ei koselig tid både hjemme og i butikken :)nydelige bilder her hos deg..en fryd stikke innom ;)ha ei fin helg og kos dere med turnering!!klem til deg ;)Anne***
楼主你好,这篇论文的代码可以帮忙找一下吗?我没有找到 非常感谢 Cross-Scene Crowd Counting via Deep Convolutional Neural Networks