专业IT科技资讯平台,关注科技、手机、电脑、智能硬件、电脑知识!
当前位置:主页 > VR >

二十一世纪计算 | 人工智能如何在行业中落地?

导读:

原标题:二十一世纪计算 | 人工智能如何在行业中落地?

编者

原标题:二十一世纪计算 | 人工智能如何在行业中落地?

编者按:在第二十届“二十一世纪的计算”大会上,微软亚洲研究院副院长周明主持了一场题为“人工智能的行业实践”的圆桌讨论,4位微软亚洲研究院的院友(科大讯飞副总裁李世鹏、字节跳动副总裁马维英、旷视首席科学家孙剑、清华大学教授徐迎庆)参与了讨论,大家就人工智能发展过程中的技术问题,对人们生活的影响,以及未来的发展方向等问题分享了自己的看法。

“人工智能的行业实践”圆桌讨论视频

主持人:未来人们获取信息的方式会出现什么变化?信息流和搜索引擎之间是什么样的关系?未来信息获取的发展趋势是什么?

马维英:从目前整个市场上的应用来看,连接人和信息主要有四个方式,第一是在PC互联网时代,信息大部分在网站或网页上,搜索引擎帮助人连接信息;后来到移动互联网时代,内容更多地出现在平台上,推荐引擎能更好地了解用户的使用行为,提供个性化的推荐,推荐引擎连接了人和信息;发展到今天,我们可以看到越来越多的私人助理,如Siri、Cortana、Google Assistant等,它们已经逐渐成为了新的连接人和信息的方式;第四个管道是社交网络或社区。这四种方式今天都有机会重新再用AI来定义。

大家看到目前这些进展,一定有机会重新再把这些问题好好思考一下,如何用最新的技术,更大的数据,做出最好的表达方式。另外,我觉得多模态在未来也是一个机会。在今日头条的内容平台上,我们发现有文字、新闻、图片、视频、直播、问答、AR、VR,全媒体、全信息彼此都在关联,所有信号都是连接在一起的,而在传统AI领域,各个部分是相互独立的,但其实大家可以利用一些新的思路把不同数据之间做逆向学习、对偶学习、迁移学习或是多模态的集合学习。任何技术进步都会回到刚刚提到的四个应用里面,AI一定有机会再发展出下一代的形式。

主持人:在选择视觉落地的场景时,哪些场景是最有道理的?怎样找到一个特别好的切入点,在激烈竞争的环境中胜出?

孙剑:其实CV(Computer Vision,计算机视觉)有个很有意思的特性,它其实是解决图像,特别是摄像头拍摄的图像问题的。我们周围的摄像头特别多,例如室内摄像头、室外摄像头、手机摄像头、机器人摄像头、医疗摄像头、车载摄像头等,它的输入形态特别丰富,输出也就有很多,并不是你要把这个图翻译成一个句子,而是你要检测识别哪个物体,知道它在做什么,知道他是谁。目前的现状是国内外CV公司都特别多,但由于对应的场景很多,每个公司能够聚焦做的事情不会特别多,各个公司有各自擅长的不同方面,经过几年的发展,逐渐会有一个分化的趋势。

另外,从大的场景来说,数字化程度越成熟,数据越多的场景或行业,会越容易落地。比如我们最早选择的都是联网的金融行业,后来又做了在中国很早就建设了的安防行业,通过IPC的形式,一根网线就给摄像头提供电,并把所有摄像头都连在一起,这些数据都已经数字化了,而且数据非常多,做起来会比较容易。但有些行业落地就比较困难,比如无人车领域,它的周期会很长,医疗方面缺乏高质量且大规模的数据。这就要求我们在选择的时候,要做出理性的判断。

主持人:如何把不完全成熟的技术巧妙地应用在一个应用场景里,既能让用户满意又能创造一定的效益?

李世鹏:在AI时代,大家对AI的期待值过高,认为AI可以做所有事情,甚至可以取代人。尽管目前在很多领域AI已经取得了不错的成绩,而且能帮助人做很多事情,但是AI远远没有达到成熟水平。在这种不成熟的情况下,人跟机器之间的交互、相处以及合作的形式就显得特别重要,机器的智能和人的智能是一定要结合在一起的。

有很多原因可以说明人工智能需要人的智能介入的必要性。首先,至少在现今,人工智能的主流结构还需要标注的数据,而标注的数据本身就需要人的智能在里面;其次,我们要考虑在机器不工作的时候,人应该如何切入的问题。比如自动驾驶,如果人用辅助驾驶模式太习惯了,一旦有突发状况,人根本没有应对的准备。这就涉及到人机配合,机器在帮助人提高效率的情况下,人也不能完全依赖于机器。

另外,人与机器之间要和谐工作,机器智能和人的智能相互配合才能把人的体验做到更好。以医院使用AI读片为例,机器读完之后医生还需要再看一遍,纠正机器的错误,AI看起来提高效率但实际在降低效率。这就涉及到新的设计,比如在AI读片过程中清楚地区分需要人再进一步看的关键领域,以及很大程度上不需要再看的领域,以此实现真正提高效率的目的。我认为这些实际问题是将来所有人工智能产业都会关注的问题。

主持人:人机交互与终身学习领域目前的焦点和发展趋势是什么?

徐迎庆:2002年,我在微软亚洲研究院的时候发表过一篇40毫秒可以从高兴、正常、愤怒、害怕四种情感里判断出上一句话各种情感所占的百分比的论文,当时也许因为没有这方面的需求,大家并没有什么反应,然而随着时间的推移,现在越来越多人开始关注和思考这个问题。那个项目我当时请了电影学院教电影台词的老师作为顾问,仅仅是“你好”这两个字,那个老师随随便便就可以用140多种情感来表达,让我感受到了语言的魅力。现如今,市场上有很多具有对话功能的智能音箱,其实在人和人的实际交流中,人交流的声音情感是非常丰富的,可能性也非常多,同样的意思用不同的语音语调说出来是完全不一样的,系统需要给出不一样的反馈,但是目前我还没有看到某个音箱具有这样的功能。

我们目前也在关注多模态的用户体验交互,比如把嗅觉和情感的声音理解和识别放到一个驾驶环境里,可以分辨出满身酒气的潜在危险驾驶者,这在一定程度上能减轻酒驾带来的交通隐患,保护公众的安全。我想,在这个领域还有很多跟人工智能有关的。就拿语音这样一个简单的事来说,有时候人会掩饰自己的情感,但如果在实验环节用红外探测仪识别面部的时候,人是无法掩饰的,因为面部的温度可能有所变化。根据这个再结合传统影像数据,也许可以引出一套与传统不一样的数据集,这套数据集可能就会对未来某一类识别有帮助。这些都是我们正在探索的。

二十一世纪计算 | 人工智能如何在行业中落地?

从左至右:周明、马维英、徐迎庆、李世鹏、孙剑

主持人:在小数据的情况下如何构建人工智能系统?