前言:
公司最近引入了新设备,这两天我做了一些背景研究和前景预测,写出来跟大家分享一下。
说句题外话,之前提到过,非常欢迎大家分享广涵的原创文章,但是商业转载需要联系我取得授权。最近发现《微头条》把我的公众号(广涵部落阁,guanghan-blog)和文章转载了,虽然没有联系我,但是至少标注了来源和公众号二维码。而某些网站(暂不点名),同样是未经许可进行转载,却连文章来源都没有。如若故技重施,或采取法律手段。希望今后这些网站的运营者能够尊重原创作者的知识产权。
1. 关于背景——什么是Jetson TX1?
它是一个装有GPU的系统级芯片,可以嵌入在移动设备上。利用GPU强大的运算能力,可以利用到人工智能(artificial intelligence)领域最先进的算法——深度学习(deep learning)。
开发者套件11月16日才发售,我们也刚刚拿到手不久。开发者套件的零售定价为 599 美元,学生价格为 299 美元。独立模块版本则定价 299 美元,2016年首季度发货。
下面图片展示的是开发者套件。
这个开发者套件是开箱即用的,自带ubuntu14.04的操作系统,只需简单几行命令就可以set up。
安装JetPack (Jetson Development Pack)之后,就有了所有需要的东西:
其中,VisionWorks官方给出了两个workshop的视频,可以帮我们初步了解它。
2.关于前景——Jetson TX1能带来什么革命 :
未来机器人、遥控无人机、监控摄像头、智能汽车都将获得突破。
机器人可以进行人脸核实(face verification)、物体识别(object detection and recognition)、场景识别(scene recognition)、动作识别(action recognition)等等,更好地与人进行交互。
无人机在鸟瞰的视角可以进行动态移动物体的检测和监控。
监控摄像头可以扫描人群,进行人脸识别(face recognition),同时进行异常行为检测(abnormal activity detection)和暴力场景检测(violence scene detection)等等。
智能汽车可以通过车载摄像头获取一个或多个视频录制的街景信息,经过分析综合,实现场景文字识别(scene text detection and recognition),分析路牌店名等。可以结合GPS进行更深层次的信息挖掘(data mining)。还可以利用基于深度学习(deep learning)的计算机视觉(computer vision)算法和其他传感器(sensor)的信息融合(information fusion)实现更棒的自动驾驶。
官方给出了一些初步成功案例,印证了我的期待,比如social robot JOBO,还有遥控无人机Kespy.
除此之外,我预言体育实况转播也将获得突破。与增强现实(AR)结合起来,更直观地表现内容。
在这个网页中,Viz Libero展示了目前可以做到的顶尖水准,但它仍然需要专业的人工干预。
我预测,未来或许会提供虚拟现实(VR)的赛事转播,使得用户戴上虚拟现实设备,能够获得现场观众的视角,像在现场一样可以左顾右盼,和现场其他球迷一样为自己钟爱的球队欢呼。
更进一步,VIP用户可以在某个精彩进球回放时,通过无人机的录制画面,获取球员视角,从主观视角(egocentric view)来”体验“进球的快感。应用在体育教学领域,可以成为更好的教学工具。当然,类似地,也可以成为体育教练更好地讲解分析的工具。
有些公司(比如,VRSE)已经推出了手机和平板电脑上的虚拟现实(VR)app,让我们可以初探究竟。身临其境的演唱会,视频游戏,这些领域最先引起了产业界的重视。
虽然目前的state-of-the-art还不能达到我期待的水准,但不久的未来一定会成为现实。
很高兴我是其中众多研究人员中的一个。当这些都能成为现实的时候,希望我个人的商业计划也可以在那时部署实施。(因为是前所未有的东西,所以暂且卖个长远的关子)
对未来充满期待!
宁广涵
2015年12月2日
1. 找到一个研究领域后的第一步
目标:
做法:
寻找survey paper,或者review paper,最好是最近5年的。(此时可以根据读的多个paper撰写Introduction的部分了)。
原因:
2. 更全面、更深入地了解这个field
目标:
在上一步获得了对新领域整体的了解之后,我们希望有更系统、更深入的理解。
做法:
这里有个各领域的推荐书单——
3. 通过上面的阅读,已经能够找到合适的terminology去进行自己的信息检索。
目标:
找到自己的研究问题,在领域里广泛的问题中找到一个感兴趣的并且具有发展潜力的课题,然后着手解决某些细节问题。
做法:
原因:
最近Mendeley的网页版用起来很方便了,可以让我们在全平台获取自己论文库的信息。它能记录我们每个论文阅读的进度和笔记,也能帮助我们在撰写自己的论文时更快地完成citation。
4. 做实验、写代码、撰写论文
剩下的故事,我们都已经知道了:)
前言
CVPR2015是一个关于计算机视觉的国际顶尖学术会议。一年一度的会议,每年发表很多高质量的文章。CVPR2015刚刚结束,我读了一些会议里的文章,在此记录一下它们的核心思想,也许以后面对某个具体问题的时候能够受到启发,届时引用文章能有迹可循。如果读者能够获益,或者有不同观点,产生思想碰撞,那更是再好不过了。