kaiyun下载app下载安装手机版 【图文实录】奇虎360公司集团副总裁颜水成——人工智能在视频中的应用
机器学习研究学会简介
本期演讲人:闫水成 | 奇虎360集团副总裁
主持人:雷鸣 | 北京大学人工智能创新中心主任
承办单位:北京大学人工智能创新中心
媒体合作:量子比特
【影片播放合集】
4月25日周三晚,在北京大学“人工智能前沿与产业趋势”第九场讲座中,360首席科学家闫水成分享了人工智能的理想与现实、深度学习的模型与应用,同时还介绍了人工智能与安全的关系。
课程讲师:雷鸣,天使投资人,百度七位创始成员之一,酷我音乐创始人,北京大学信息科学技术学院人工智能创新中心主任,2000年获北京大学计算机硕士学位,2005年获斯坦福商学院MBA学位,国家“千人计划”特聘专家。
主讲人:闫水成,360集团副总裁、人工智能研究院院长、国家千人计划特聘专家、IEEE Fellow、IAPR Fellow、ACM杰出科学家。主要研究领域为计算机视觉、机器学习、多媒体分析等,发表高质量学术论文500余篇,2014、2015、2016年三次入选全球高被引学者(TR Highly-cited researchers)。
其带领的团队是计算机视觉领域两大核心赛事Pascal VOC 2012总决赛和ImageNet 2017总决赛的双冠军团队,斩获ACM MM多媒体领域核心会议最佳论文奖、最佳学生论文奖、最佳技术演示奖等大满贯。
人工智能的理想与现实
今天,我以北大校友的身份,分享一下自己从学生到老师、从学术到产业,在 AI 领域遇到的一些坑。这不是一次深入的学术探讨,大部分内容都是近两年在产业会议上分享的。以下是今天的主题:
人工智能的理想
追求成功是人的天性。对于 AI 从业者来说,在不同角色中,成功的标准是什么?我和一群朋友进行了如下讨论:
1.对于AI博士来说,如果在毕业前能以第一作者身份有一篇论文被引用100次以上,基本可以算是一个非常成功的博士毕业生;
2、AI科研人员,比如科研院所或者大学的教授,如果是第一作者发表的论文,引用次数在一千次以上,基本上可以说已经是AI领域非常优秀的科研人员了。
3、对于想要开发APP相关产品的AI创业者来说,如果一款产品的DAU能够达到5000万,在中国就已经算是非常成功了。
价值在于稀缺性,现在每年有超过4000篇AI相关的论文被录用,因为并不稀缺,所以数量不是那么重要,单篇论文的影响力才是最重要的。
AI表面上看似风头正盛,但现实却依然十分惨淡。
比如在自动驾驶领域,2016年特斯拉因为无法识别卡车撞车;今年Uber在路试中撞到过马路的人。一些公司对自动驾驶过于乐观,但目前的技术还没有达到预期的水平,还有很长的路要走。
记得有位学长说过一个有趣的假设:如果发生灾难,地面上的车道线消失了,身边也没有参照物,你愿意把生命托付给自动驾驶汽车吗,还是希望汽车有一个你可以自己控制的方向盘?短期内,我们不应该期望路上所有的汽车都是自动驾驶的。
对于情感机器人,每个人都有一个梦想:能够通过语音与虚拟角色进行交流。我认为电影《超能查派》里的机器人是最有可能的未来情感机器人:机器人一开始具备一些基本能力,能在路上行走,有简单的交流。通过与周围环境中的人互动、在家里看一些影视资料,它的智能逐渐提高,最终拥有接近小孩的智力。
但现在的现实是怎样的呢?这是我和一个非常成功的聊天机器人聊天的方式:
“我想去旅行。”“也许去泰国吧。”
“多少银子?”“五百以内……”
“胡说”“我不想说什么”
“夏威夷怎么样?”“夏威夷是个好地方。”
“什么好?”“非常好。”
“有什么好的?”“没什么好的。”
开始还好,到后来就完全跟上下文没关系了,核心原因是聊天机器人的整个原理主要还是基于搜索技术,跟人类的沟通机制完全不一样。
此外,人类对于机器人的安全问题也一直心存疑虑,去年深圳高交会就曾发生过一起机器人打碎玻璃伤人事件,无论当时具体情况如何,都反映出人类对于机器人的安全问题一直处于一种恐惧状态。
人工智能的现实
人工智能到底是做什么的?从交互的角度来说,主要处理人、互联网、物联网设备、物理世界之间的关系,涉及的数据包括视觉、语音、语义、大数据等。
人工智能研发有三个不同的状态:
初创公司专注于某一产品或领域,所有开发人员都非常专注。十亿美元的公司,例如Pre-IPO公司,公司内部往往有一个AI实验室/平台部门,为公司的所有AI需求提供全面支持。在价值数千亿美元的公司中,每个部门都有自己专注的AI团队。当公司准备推出一款新的AI产品时,不同的团队可以提供不同的解决方案,获胜者将主导该产品。对于大公司来说,这对于确保成功非常有意义。
对于AI研究人员来说,应该提前明确自己喜欢的工作风格,然后再决定想要去哪家公司工作。
人工智能解决的是两类不同的问题:一类是软任务,只需要一点点进步就能带来立竿见影的效益,比如广告推荐技术,每一个百分点的提升都有非常大的价值;另一类是硬任务,这类问题在很长一段时间内都是未知的,只有技术积累到一定程度、性能达到一定阈值后,才能迅速推进商业化。
你是想成为一个永远在聚光灯下的人,还是想先默默无闻,然后爆红?在选择公司和生意时,你需要提前考虑这一点。
人工智能四元分析
接下来我会用四元分析的方法,给大家介绍一下学术界和工业界从事人工智能工作的区别。
2016年,大家都在讨论人工智能有三要素:算法、算力、数据;2017年,大家开始关注场景,能落地的AI才有价值。
在学术界,比如深度学习领域,导师往往先定义问题,学生要做的就是想尽一切办法让解决这个问题的准确率达到新的极限。比如用更好、更大、更快的模型,更多的模型融合,希望有更多的计算机资源,更方便的训练平台,更好的经验参数。最终的目标是准确率,发表有价值的学习论文,希望这些方法具有普适性,能够帮助解决其他问题。其次,我们也希望我们做出来的东西能够开源,让社会上大大小小的公司都能充分利用你的开源,提高自己的商业能力。
在产业界,大家都知道AI只是一种技术,而不是最终产品。这是从学术界进入产业界的一个很大的挑战。你在学术界可能非常成功,但进入产业界后会发现,纯技术的价值只有30%、40%,这已经很不错了。
要达到好的产品体验,有后端的因素,比如训练平台的架构,后端的服务体系,如何保证千万级DAU运行时系统不崩溃,未来在某些场景下可能还需要AI硬件;前端的算法工程,产品外观设计,产品营销等都很重要。
AI的价值必须和具体的业务场景相结合,业务场景为人工智能提供屏障数据,人工智能再训练出更好的模型,并在场景中运用,不断产生新的、更有价值的数据,不断迭代,才能发挥出最大的价值。
同时,作为初入行业的算法科学家,需要明白没有完美的算法,需要产品工程师和其他工程师共同努力,用不完美的算法打造出完美的用户体验。很多时候,算法工程师和产品工程师无法做出完美产品的原因,就是信息不对称。
比如,如果在娱乐应用中使用了人脸技术,进行了人脸替换,但技术不完善,肯定会出现抖动,不可能产生令人满意的用户体验;但如果不替换人脸,只是加了一个花环或者其他装饰,即便技术不完善,从用户体验的角度看,其带来的快感是没问题的。这就是典型的算法+产品,虽然算法不完善,但并不影响用户体验。
此外,行业在开发基于AI的产品时,需要考虑四个维度:
1、在学校的时候,你有一个idea,做个demo,写篇论文就行了;但在工业界,一个产品要能满足人们的高频、刚性需求,才能是一个成功的产品。
2、技术必须成熟,现在如果想追求像《她》那样的情感交流,技术是不可能实现的。
3.要有技术壁垒。这个时代,花钱很容易被竞争对手或者大公司干掉。无论是工程开发、后端稳定性,还是投入的金钱,都不可能和大公司竞争。
4、商业变现模型。这是学校里很少考虑,但行业里必须要考虑的问题。没有商业变现模型的公司迟早会遇到瓶颈和问题。
从以上分析可以看出,人工智能研发的目标之一,就是实现学术界所追求的精度极限,即在不受算力限制的情况下,将场景和数据固定,通过算法的改进达到精度极限。
按照四元数分析kaiyun 官方网站,场景和数据都是固定的,通过提升算力和算法达到精度极限,比如大家经常参加的ImageNet比赛,LFW-face比赛,TRECVID-video比赛,Switchboard-voice比赛,基本都属于此类。
行业驱动下对产品体验极致的追求,让场景和算力保持不变,在特定场景下不断完善数据积累,不断完善算法,最终数据、算法、场景形成闭环,不断迭代,最终达到产品的用户体验极限。
学术界和工业界各有侧重点,学术界更关注算法的极限,更讲究“用脑”,而工业界更关注如何给用户最好的体验,更讲究“用心”。很多企业觉得两个方向都很重要,于是开始成立自己的AI Lab:精度极限瞄准最前沿,可能是公司半年、一年后的战略方向,而产品体验则确保技术在当前特定场景下的落地。
深度学习模型开发
接下来我们来回顾一下近年来深度学习模型的发展历史,以及应该关注哪些方向。
PASCAL VOC 比赛已经举办了八年,ImageNet 比赛也举办了八年,我带领的团队也参加了八年的比赛。早期的比赛主要采用浅层学习模型kaiyun下载app下载安装手机版,用人工的方法设计新的特征,然后把这些特征输入到 SVM 分类器中进行训练。而深度学习则将特征学习和分类器学习整合到一个统一的框架中,从 2012 年起基本成为参赛的主要算法。
最早2012年提出的AlexNet模型,是5+3的结构,前五层为卷积层,后三层为全连接层,当时效果很好,但模型过于庞大,无法在现实生活中部署在手机上。
后续比较有价值的发展,是一个叫林敏(我当时的博士生,现在在 Bengio 手下做博士后)的年轻人提出的 Network in Network。最初的想法是,人类的神经元具有非常复杂的结构,很难通过卷积加非线性操作来模拟其功能。应该用更复杂的结构来代替,而这个结构可以是任意的网络结构;如果这个网络是一个多层感知器,那么这个网络就变成了在通常的 3×3、5×5 卷积上加上 1×1 卷积,从而提出了 1×1 卷积的概念。
同时最后的全连接参数太多,容易过拟合,所以可以舍弃。由于开头有更复杂的子网络,所以我最后只需要使用全局平均池化就可以得到我需要的特征了。
1x1 卷积在这个领域的价值在于它可以把深度学习模型做得非常非常深。举一个简单的例子,如果要训练一个有 1000 层的网络,如果使用 3x3 卷积,那么每增加一层,感受野就会增加 2。那么训练完 1000 层之后,第 1000 层的一个点在原图中至少会对应 2000×2000 的感受野。但是 1x1 卷积不会改变感受野,所以可以保证最后一层的每个点都有机会对应原图中更小的感受野。这就是 1x1 卷积的主要价值所在。
因为去掉了全连接层,网络参数变得非常小,原来几百兆的模型可以缩减到几十兆,性能和Alexnet相当。
深度学习模型GoogleNet
GoogleNet借鉴了Network in Network中子网络和1x1卷积的思想,子网络设计更加复杂合理,每个子网络有多个通道,包括1x1卷积,1x1、3x3叠加,1x1、5x5叠加,或者3x3 max pooling,1x1叠加,可以实现多个尺度上的感知。GoogleNet也将自己的网络结构称为network in a network in a network。
残差网络
众所周知,Residual Networks 起到了里程碑的作用。我们可以看到,1x1 卷积在后续的大多数新型网络结构(Residual Networks,Densely Connected Neural Networks,Dual-path Networks,…)中都成为了不可或缺的子模块。在 Residual Networks 中,1x1 卷积将 256 个通道变成 64 个,再进行 3x3 卷积,然后再用 1x1 卷积将维度提升到 256,从而起到加速和减少参数的作用。
深度学习模型:GAN
这两年最让人兴奋的进展应该是GAN,即生成对抗网络模型,更准确的说,它是一种模型学习方法,而不是模型结构的进步。
它的基本思想是学习一个数据生成模型。用生成模型来合成图像,并学习一个判别模型,把生成模型合成的图像和真实图像尽可能的区分开来。当它们完全不可分时,理论上生成图像的分布和真实图像的分布是一样的。这样就可以得到各种非常逼真的生成图像。
循环GAN
Cycle-GAN 是 GAN 的一个令人兴奋的进一步扩展。
它有两个域,目标是将一个域中的图像转换为另一个域中的图像,但不存在 1-1 对应的图像。图像从一个域转换到另一个域时,一方面要满足生成图像的真实性,另一方面转换回原始域时,生成的图像需要尽可能与原始图像相似。这种思想可以将任何自然图像转换为梵高风格,将真实图像与绘画图像互换,将没有景深的图像转换为有景深的图像等等。
星型甘
STAR-GAN在Cycle-GAN基础上具有以下特点:
1. 生成图像的真实性受到对抗性损失(Adversarial Loss)的约束。
2.生成的图像的标签满足Domain Classification Loss约束。
3. 通过 Cycle Reconstruction Loss 来约束生成图像与输入图像之间的相关性。
4.通过多库联合训练提高图像生成质量。
Star-GAN 的成果非常令人兴奋,给定任意一个头像,你可以改变其发型、性别、年龄,添加基础,甚至可以将原来的表情改为愤怒、快乐、害怕等,图像非常逼真。
深度学习应用
ImageNet竞赛是第一个海量图像数据库,开启了深度学习时代,准确率的提升有目共睹,该竞赛是深度学习研究的最大推动者。
在具体的垂直领域,深度学习已经取得了非常好的效果,比如人脸检测,在FDDB数据库上最新的结果是,当误报总数为100时,检测准确率达到97.8%,最终检测不到的人脸都是那些非常模糊或者被遮挡的人脸。
对于面部特征点定位,在300-W数据库上的最新结果平均错误率仅为4.38%。
另外,将图像“翻译”成自然语言也很有前景,但目前效果并不好。随着5G的发展,会有大量实时视频流,如果有一个算法能从视频中生成字幕,做推荐和搜索会更加容易,但目前的算法还不能生成令人满意的个性化字幕。
另外还有语音、语义、大数据等应用。语音和语义方面大家已经听过其他嘉宾分享的经验了,今天就不介绍了。大数据很有意思,大家都在想,深度学习会不会给大数据领域带来翻天覆地的变化?我们和很多朋友的经验都发现,在早期,数据清洗远比模型重要,当数据维度达到极致的时候,算法才能发挥更大的作用,产生核心竞争力。
360 AI研发与应用
360是一家以安全为使命的公司,业务场景包括360在网络空间的安全防护,以及对应物理世界安全的产品,包括儿童手表、摄像头、机器人、行车记录仪等,上述安全防护软件助力推动内容服务产品,比如360搜索。
360 AI有通用安全智能、短视频智能、大数据智能三大方向,这些能力的保障包括两部分:一是深度学习计算平台,保证具备图像、语音、大数据分析能力的大规模GPU平台能够快速训练;二是在线云服务平台,保证在大用户访问量的情况下不崩溃。
人工智能:AI 与安全
鉴于安全与智能的交叉,我们提出了“智能代理”的概念。智能代理是指与人工智能相关的代码、训练平台、服务系统、智能设备等。
一方面,人工智能可以提高综合安全能力,既包括网络空间的攻防能力,也包括物理世界中守护人身安全的能力。
另一方面,安全能力可以帮助发现智能实体中的安全风险,例如AI传感器/数据安全、AI软件安全、智能硬件安全等。例如,摄像头存在故障或被误导的可能性,Mobileye的摄像头在激光笔的照射下很容易失明;假车道线也可能误导自动驾驶系统。
然而,Tensorflow和Caffe框架的依赖库存在bug,有研究人员(360李康教授团队)发现这些bug可以用来攻击AI服务系统,劫持服务器。智能硬件也容易受到攻击,因为硬件经常需要联网,一旦联网就会发生网络空间攻击,给物理世界带来安全问题。比如特斯拉、比亚迪等汽车就曾被黑客劫持,这个安全问题已经成为车联网产业发展的一大瓶颈。
人工智能:行业对话
由于时间限制,我们仅简单讨论一个行业场景。
人工智能+区块链
今年区块链的热度甚至超过了人工智能kaiyun体育登录网页入口,那么区块链和人工智能之间还存在哪些协同的空间呢?
我们发现有三家公司在这个领域取得了不错的进展,分别是Ocean、Cortex和Raven PROTOCOL。Ocean是数据交易和共享的,商业模式是利用区块链进行数据共享和交换。Cortex是在线推理的,目标是将AI模型融入智能合约,产生更大的商业场景。Raven PROTOCAL瞄准的是一种利用闲置资源进行分布式计算的商业模式。
最后我问一个问题:如果没有ICO,我们如何找到高频、迫切的需求,把AI与区块链很好地结合起来?
雷明与严水成交谈
您认为未来几年AI+视频研究会出现一些重大突破吗?
目前做视频分析研究,一方面,标注数据存在局限性,不像图像数据库,有时候视频数据应该标注什么并不清楚;另一方面,即使知道要标注什么,标注的成本也很高。
近年来,基于图像特征和运动特征的对偶网络在视频分析中取得了很好的效果。但此后一直没有太大的进展。现在无法预测哪种技术最好。我们只能根据最终的结果来判断哪种技术更好。
推动视频分析的发展,对于现在的产业公司来说更重要,如果能够由国家统一建立一个大数据库,那么大家都可以基于这个数据库来解决技术问题,那么自然就会推动技术路线的发展。
视频分析的核心还是图像部分,在单帧分析的基础上融合图像时间序列来表示视频特征,目前能想到的解决方案并不多,个人认为图像分析的基础模型仍将是推动视频分析的关键点。
另一方面,图像分析目前已经非常复杂,在视频分析中,除了推进提高准确率的模型研究,还要考虑如何降低计算复杂度,降低计算复杂度有助于我们迎接5G时代大规模高清直播视频爆发的到来。
您如何看待AR未来的发展?比如未来会以什么形式呈现?以及您如何看待AR和AI之间的关系?
AR眼镜的必要性:从PC到手机,用户的使用场景和时长都得到了极大的提升。对于手机来说,最大的瓶颈就是必须握在手里。要想继续增加使用场景,增加使用时长,最好的办法就是将手机的功能转移到眼镜上,保证所有场景24小时在线。
在商业方面,无干扰实时智能增强是AR眼镜最吸引人的地方,它可以应用在生活的方方面面,提供各种场景的帮助和互动,弥补一些手机做不到的辅助功能,比如记录你遇到的人、实时识别人等。在AR眼镜上,很多以前和人交流的方式会变得不一样,类似于从PC到手机的转变。这些变化会产生更多新的商业机会,催生更多新的百亿级公司。不过目前AR眼镜确实还存在很多问题,比如光学系统、电池、内容生态等,这些都不会影响AR眼镜,AR眼镜肯定是未来。
AR眼镜的视角和听觉位置和人几乎一样,还具备常用的语音识别、TTS、语义理解,以及终端上实时的视觉理解等,这些都是AR眼镜非常看重的能力。视觉分为两个维度,一个维度是物理感知,感知深度信息,包括3D重建、SLAM等;另一个维度是语义感知,知道某个东西是什么。AR眼镜需要将物理感知和语义感知融合起来,才能提供高质量的服务。
您从科研转到产业的过程中,有没有遇到什么挑战和困难,包括科研的目标制定、管理,以及科研和产业界研发团队的差异等?
对于工业领域的AI研究,需要花更多的时间去思考AI在特定场景下如何更加高效,从研发角度来说,需要从精准度转向速度。
从学术到产业,不要以为一开始就能解决所有问题。从公司内部一个重要的场景入手,将算法与数据进行融合。不要一开始只追求模型准确率的提升,因为数据分析在一开始就能带来更大的价值。等业务逻辑完善、数据流清晰后再去攻克算法的问题更合适。
下一期
下周三晚5月9日18:40,北京大学“人工智能前沿与产业趋势”第十场讲座将由碳云智能联合创始人李英睿主讲。
观看现场直播和重播
直播及播放地址:
我要评论