1月28日上午,由中国工程院和清华大学联合主办的“长城工程科技会议”第四次会议工业大数据分会在清华大学信息科技大楼召开。中国工程院院士李伯虎、工业和信息化部信息化和软件服务业司副司长李冠宇、中国工程院制造业科研室专家屈贤明、中国信息通信科研院总工程师余晓辉、百度集团副总裁王海峰、富士康科技集团幕僚长陈辉龍、富士康科技集团新闻长胡智深等出席。会议由清华大学软件学院院长、数据科学科研院副院长、大数据系统软件国家工程实验室执行专家、工业大数据系统与应用北京市重点实验室专家王建民教授主持,主题为“大数据与工业互联网”。
数据派做为独一合作媒介参会,并为大众整理了百度集团副总裁、百度AI技术平台体系总负责人兼百度科研院院长王海峰先生主题演讲《大数据与人工智能》的精华内容:
后台回复关键词“0911”,下载王海峰演讲PPT。
人工智能是第四次工业革命
从18世纪起始,随着技术的发展,以及需要的牵引,人类逐步起始进入技术革命或工业革命。历史上的工业革命有三次,能够大致归纳为第1次机械化革命、第二次电气化革命和第三次的信息化革命,而第四次工业革命则是以智能化——人工智能(Artificial Intelligence,英文缩写为AI)——为标志的。
回顾一下人工智能的发展历史,正式的起点是1956年的达特茅斯会议,诞生了AI这个概念。而在1956年之前,已然显现了迄今仍然很热门的有些人工智能方向,例如设备翻译、自然语言处理、计算机下棋、神经网络等等。而从AI诞生败兴的60数年,人工智能的发展起起落落,从下面的图中可见一斑。
过去10年,随着深度学习的显现,更重要的是“数据井喷”,以及数据支撑的算法和计算能力的突破,尤其是在语音、图像等行业,人工智能再次迎来了发展的新机遇。而这一次的复兴即将带动全部社会产生深层次的变革,这是咱们已然可预见的将来。这次人工智能的爆发,在很大程度上是从互联网起始的,而互联网带来了非常多需要,包含搜索、社交、购物等等。这些需要越来越多的线上化,同期带动了数据的线上化。
数据真正线上化以后,亦带动了更加多的算法去处理这些数据,而需要和数据的在线化亦带动了全部生态的活跃,从而使越来越多的数据开放出来,依托更强大的计算平台,结合更好的AI算法,实现计算能力的突破。例如此刻大众常用的GPU,利用深度学习、深度神经网络算法,就有非常强大的优良。大数据、算法和大计算这三者俨然作为了人工智能复兴的必要要求。
百度人工智能已然扬帆起航
百度从做搜索起始,人工智能的科研和发展已然有十几年了,如自然语言处理基本的分词、短语分析等。而全面布局人工智能大概是在7、八年以前,逐步从NLP、语音、设备学习、图像等方面起始,时迄今天,百度已然形成为了一个较完整的人工智能技术布局,包含基本层、感知层、认知层、平台层、生态层和应用层,共计六层。
数据、算法和计算平台是基本。感知层对应人的视觉、听觉,这些能力是直接感知外界。认知层对应的是人类区别于其他生物特有的,例如人的语言能力、人类对知识的总结、理解、提炼、运用等等,以及对人的理解。AI的开放平台不仅支持百度内部的应用还支持所有的合作伙伴,现已开放了60多个能力,在机构内部,每日大概有几千亿的调用量,而在外边亦有数以亿计的调用。这里基本上,百度期盼跟所有各行各业的合作伙伴一块打造技术的平台,形成良性循环的生态,从而生长出各样各样的创新应用。
百度从做互联网To C(针对消费者)的制品到起始做海量支持To B(面向企业服务)的应用。这些都依赖于人工智能技术布局的实现。下面将对每层技术布局的关键技术展开说明。
1、基本层:大数据、算法和大计算
此刻每一个人每一天会产生非常多的数据,如个人的行径、生理状态的变化,倘若要监测、记录的话,都有非常庞大的数据。况且,每一个人每日都在跟互联网打交道,或是自己建网站,或向网上贡献数据,乃至在运用互联网过程中,亦会产生非常多数据。必定程度上,互联网已然作为全部客观世界的镜像。因此,把握好、利用好、分析好这些互联网数据,在很大程度上亦是对客观世界很重要的刻画和理解。
总体上,大数据技术分为几个方面,例如数据的采集、提炼以及应用。倘若对一个零售商店数据里的用户进行建模,某一个用户可能是白领,另一个是主妇,这般的行业数据经过分析就能够帮忙商户更好地进行营销行径。另一方面,百度基本的计算载体是数据中心,有20多个大型的数据中心,不只是在中国,在世界各地都设立了大数据中心,亦有国内最大的GPU集群,有非常强的带宽和吞吐能力,还有像集装箱同样,模块化的计算中心。
2、感知层:语音、图像、视频、AR/VR
语音技术的突破有非常多方向,如识别、合成和唤醒,这是咱们此刻比较看重的,由于市场应用的需要很大。例如语音识别,已然达到97%以上的准确率。此刻随着人工智能应用的深入,在家居场景、车载场景等等,越来越多的语音识别不是对着麦克风说,而是要有必定距离,这就触及到远场的语音识别。这与此刻手机上的麦克风不同样,首要会有定位,还有一系列新的技术待处理。合成想做得非常好,尤其自然、流畅,况且能够是个性化的,包含把人的心情变化等都带进去,就变得非常难。
这儿不只是语音和声学信号处理问题,同期触及到对语言的理解、对人的理解,这般才可做出有心情、个性化的合成。唤醒,是需要设备的时候就叫一声,它就晓得你要跟它说话,例如家居场景的一个智能音箱或智能电视,此时候就需要唤醒技术。唤醒技术的困难在于咱们要掌控误唤醒,例如在家里放一个智能音箱,倘若不叫它的时候,忽然之间它自己就跳起来了,或睡觉的时候,有点外界噪音,它就忽然跳起来,体验会很差。因此,掌控住误唤醒很重要亦特别有挑战。
图像方面,人脸识别是计算机视觉的一个重要方向。人脸分为静态和动态。静态,如一张照片,检测里面有无人脸,或有两张照片,比对一下两处显现的是不是同一个人,这方面的准确率已然很高了。而识别动态图像的时候更繁杂一点,例如有一段视频,首要要定位这些人脸,而这儿会产生非常多应用,例如在很长的视频流里找到一个人。
另一,咱们能够对图像进行识别匹配,做语义的标注,粒度很细,如一幅图里很详细地找到其中一个部分是什么,这儿能够做非常多细粒度的图像识别。OCR是图像识别里相对详细的方向,如清华亦有OCR方向做得非常好的老师和课题组。此刻OCR技术不仅能够扫描书,更能够识别一个表格或一个很繁杂的结构,如发票,不仅把里面的文字识别出来,还能够把一个区域识别出来的文字结构化,整体上会做非常多定制化的识别。
视频区别于图像有非常多权威的数据集,视频数据集本身还不足成熟。视频很大都是人工标注好的,例如标题、内容,然则还有非常多视频人工标注不足完善,此时候就需要视频语义理解技术把这个视频标注出来,包含这个视频到底是哪一类,视频的标题,倘若相对长的视频,就把其中亮点怎么样亦摘录出来。
设备人视觉触及到怎么样做定位,做地图的重建,包含检测阻碍物等等。领先的SLAM技术,有非常多算法。前面讲的图像和视频技术,在设备人视觉里都会有应用。加强现实(AR/VR)是一个独立的方向,然则跟视觉技术有非常多关系,一般拍一个照片,会触发出加强现实的效果,相应地会触及到三维感知、跟踪、渲染等技术。
3、认知层:自然语言处理、知识图谱和用户画像
自然语言处理的范围广泛,倘若细分的话,有非常多子行业,较宏观地可划分为语言的理解和生成,以及相应的应用系统。一方面要理解人的语言,另一方面要表达,能生成语言。例如,基本的分词、短语分析,核心的处理思路便是做句法的分析和语义的理解或意图的理解。如搜索“想去一家宠物医院,医院周边要有停车位”。这是人的一种自然的表达,倘若让计算机能够理解,就要把意图提取出来,从很繁杂的话中分析出其核心意图,而后再去找相应的答案。
图示:用传统信息检索和搜索算法搜索“蒋英的女儿是谁”和“蒋英是谁的女儿”,会找到一样的答案,由于传统的信息检索是不管语序的。此时候咱们就要做真正的自然语言分析和理解,晓得它们实质上是在找区别的答案。这背面是知识图谱的支撑,大众能够看到结构化的图文并茂的结果。
咱们看一篇文案、一本书,此时候不仅是理解其中每一句话,而是对整篇文案有一个理解,便是篇章的理解。篇章的理解,能够把全部篇章打上主题标签,打上各样实体标签,而这些对计算机来讲便是理解了这篇文案。在应用时,为了区别的应用,标签会有区别的形式,如用在新闻流里,打上这些标签以后,就能够匹配用户的兴趣,从而举荐给用户一篇他可能感兴趣的文案。
除了理解句子、篇章、文字以外,人写一句话、写一首诗也或写一篇文案,都是带有情感倾向的,因此相应地,咱们亦做情感倾向的分析,包含用户看了一篇文案以后,下面有非常多评论,这些评论本身咱们亦会做观点的抽取。
除了分析、理解以外,还有生成。咱们尝试过写诗、写对联等,例如在手机百度信息流里看到的文案,非常多都是人写的,但亦有很大一部分是设备自动写成的。咱们做过各样测试,用户基本上分辨不出来到底是人写的还是设备写的,这说明设备写的还是很不错的。其次,人要与智能硬件展开交互,对话过程中触及到对“人说的话”的理解和预测人怎样说下一句话,相当于理解和生成两方面都在用,这儿面便是对话管理以及交互的技术。
到日前为止,咱们讲的都是一种语言,都是中文,但“百度翻译”是处理多语言问题的,在28种语言之间互译,互译的方向大概是700多个,每日有过亿次的翻译请求。同期亦结合了语音技术、视觉技术,延伸出了语音会话翻译、拍照翻译等等应用。
人类几千年传承下来的知识,是人类能循序渐进持续向前进步的原动力,而做这些知识的累积和传承很重要的载体是知识图谱,知识图谱里面有些基本的单位,如实体,此刻咱们的知识图谱已然有几亿个实体,每一个实体会有非常多属性,实体与实体之间亦会有非常多关系,这些关系就形成非常多事实,如A和B两个人可能是老师和学生的关系,这便是一个事实,咱们已然累积了几千亿事实。
知识不只是静态的存取,况且触及到知识计算和推理。例如,离圣诞节还有多少天,系统晓得今天是哪一天,圣诞节是哪一天,系统会以此动态做一个计算。再例如,民航有有些规章,基于这些规章问一个问题,能不可“带打火机上飞机”,系统会按照这些规章的规则,判断这个问题的答案是“是”还是“否”。其次,咱们要认识用户本身的需要,因此对用户画像亦是非常重要的方向。此刻百度累积了非常丰富的用户画像,有非常多细分的标签,如一个人能够从人口属性、行径习惯、长时间兴趣、位置、短期意图等五个维度去刻画,形成初级的用户画像,构建个体模型。
4、平台以及生态层
这一层更加多集中在百度大脑(ai.baidu.com),完整的生态包含云和端两大部分。百度云是很大的计算平台,不只是百度能够用,况且开放给所有的合作伙伴,变成基本的支撑平台,上面有百度大脑的各样能力。同期还有有些垂直的处理方法,例如基于自然语言的人机交互的新一代操作系统,以及与智能驾驶关联的Apollo。整车厂商能够调用其中她们需要的能力,汽车电子厂商亦能够调用她们需要的相应能力,大众共建全部平台和生态。
5、应用层
语音搜索,是典型的在搜索上引入有些AI能力之后的制品形态,这儿不是一个“语音识别+简单的搜索”,而是咱们直接语音输入咱们想要的字的时候,倘若显现多音字,如俪、莉,就会显现错误,但倘若用户说:“茉莉的莉”,语音纠错就会自动修改成“莉”,而后找到用户最后想要的答案。因此这就需要非常多关联技术的支持。图像搜索亦是,咱们做了非常多图像搜索关联的尝试。
例如,找题很困难,非常多学生做题,题里有图、有公式,想把内容输入进去就很难,因此拍照就变成尤其方便的方式,这儿就会结合OCR的技术,对图像做识别。智能问答、个性化举荐等一样是综合了多种AI能力,如知识图谱、NLP、用户理解等,把答案或新闻更直观、更有针对性地展现给用户。除了互联网应用,咱们亦在尝试AI能力与各行各业的结合,如智能客服、智慧机场等。
人工智能正在作为这个时代技术变革的核心驱动力,AI在To B行业的渗入将会给各行各业带来革命性的改变,亦会对人们的平常生活产生巨大的影响。人工智能应用广泛,其实质功效绝不仅在互联网,就像咱们已然很难想象任何一个行业离开电该怎样运转同样,人工智能亦会是新时代的电力。
能够预见,人工智能必将无处不在。
后台回复关键词“0911”,下载王海峰演讲PPT。
这次会议演讲干货及PPT经演讲嘉宾确认后会在数据派THU第1时间推送。更加多关联信息,请关注微X公众号数据派THU(ID:DatapiTHU)。
回顾往期活动干货:
IBM苏中:怎样利用深度学习、加强学习等办法加强信息处理效率
......
|