图灵奖获得者：机器学习将推动下一次工业革命的到来

显示全部楼层 · 发表于 2017-12-2 04:15:58

John E. Hopcroft

　　新浪科技讯 12月1日晚间消息，在今日举办的“全球思想盛筵-人工智能与人类文明”上，图灵奖获得者、美国国家科学院院士、美国国家工程院院士John E. Hopcroft发表主题演讲，称机器学习将推动下一次工业革命的到来。

　　John E. Hopcroft认为，人工智能的许多项目还不能提取一个物品的本质，或者是理解物品的根本功能以及其他重要方面。所以要想真正的具有全智能性还需要再进行一次革命，让我们看到一个物品能够立刻理解。

　　John E. Hopcroft表示，AI现在还处在一个比较早期的阶段，下一步可能还要花一段时间才能够实现。AI不是唯一一个在驱动革命进程的一个技术基础。大数据能力、互联网、云计算、物联网等等都提供了可用数据，这些都是驱动因素。我们需要做的事情就是去决定哪些灵域是合适的，哪些是不合适进入的。

　　在演讲的最后John E. Hopcroft建言年轻人，考虑事业的时候要面向未来，这样才会有更美好的明天。(泽宇)

　　以下为John E. Hopcroft演讲实录：

　　非常高兴出席今天下午的盛会，我的主题就是人工智能技术的前沿领域，此次人工智能不仅影响了工业也影响了农业，首先我们发现在工业革命的时候所有的体力活都进行了自动化，这改变了整个社会和生活的运作模式。大家面临这样的问题，人类是不是能够完成我们所需要的所有的食物和服务？工业革命这是我们思考的一个主题。

　　今天我想和大家分享的就是人工智能AI，它的背后是机器学习，因为机器学习会推动下一次工业革命的到来。机器学习在过去的10到15年间，我们主要关注的是监督式学习，我们会去培训所有的数据和一些标签式数据，现在我们转了一个方向做非监督式的学习。在这样大的背景下，包括图像识别，举个例子我们走到一家商场中这个商场可以确定你需要什么样的产品，你是谁，可能还会帮我们找到一瓶我们需要的饮品，同样我们也关注语音识别，比如给公司打电话可以直接给我们转接到真人，这些日常生活场景都是通过自然语言处理实现的，我们可以阅读这些文件和包括找到酒店信息，这些阅读量哪些是有效的，大概50%都是非自然语言处理。

　　在美国我们通过立法之前通常有那么一段时期所有的公民都有权利和机遇提供他们的建议为该法提供建议。我们会有2万条相关的建议，但是政府既不能忽略也不能全读一遍，所以我们需要一些机器找到一些正面、负面的意见进行筛选。

　　同时我们也考虑到了无人驾驶，在美国总共有350万人工驾驶和相应的司机他们会失去职业，我小时候非常喜欢拉杠杆，比如当我们学习了整个简单的电梯的运行原理之后就不需要这样的服务人员了。其实自动驾驶一开始要从卡车开始，比如现在卡车司机在美国的话，他只能每天开一段时间，是有时间限制的，假如说自动驾驶的卡车的话，卡车可以24小时开着不停。也许这会降低某些工种，但是同时也降低了生产卡车的数量，那背后的影响会涉及社会的方方面面。

　　现在，亚马逊在布局自己的智能仓库，也就是说我们在进入一家仓储式购物中心的时候自己进行遴选和结算。背后的助力是什么？就是人工智能。我简单和大家介绍一下人工智能的一些基本点。

　　首先在40年代的时候一位叫皮特斯的专家提出了神经元的理论，从40年代开始到现在，尤其在2022年会有什么事情发生？我们看未来的场景，在做图片识别的时候，在图片识别场景中有12亿收集到的图片在当时我们可以写一个电脑程序，我们会设计一些任务的模型来判断究竟我们的算法怎么样去处理这些数据和模型。在2012年的时候，当时的错误率是15%，2013年只是提高了0.2%，到2014年的时候错误率降到了6%。其实和2013年相比是一个重大的进步，这也鼓励大家利用深度学习在各个行业去实践，成果也是斐然的。包括金融和其他的一些社会行业。

　　但是当时大家似乎不明白深度学习背后的逻辑，这就是为什么后续我们有很多这样的基础工作，又过了两年谷歌地图将错误率降到3.57%。最后我们去对比人类的错误和机器的错误，其实人类错误保持在5%，此时机器就超越了人类。

　　这个时间节点上我们的网络可以不断的生成，可以生成为几千个层级，监督式学习下我们加入一个图片，在最后把图片进行分类，有人会想做一些不同的尝试，他们首先选择一张图片让网络通过训练能重新生成图片，通过图片的生成我们可以了解在中间这些层级上他们会以更好的方式表现原图。在这个节点上，我们有很多生成，假如说这个图片是一只猫，没有人教这个程序什么是猫，这个程序自己决定了这是一只猫，它做出了准确的一个选择，这就是非监督式学习的成果。

　　同时，还想跟大家介绍一下，在现代生活中的人们，我们感受到一个强烈的影响那就是生成对抗式网络。现在我们在写程序的时候希望加入一些图片，比如说我们想要输入一张猫的图片，想要生成这样的图片，但是有时候生成的情况非常不佳，所以工程师首先就找到了一个图片的筛选器当你提供一张图片的时候，不管是真实的还是合成的图片它都可以加以判断。同时这两个对抗网络平行运行，你把图片生成器输入图片，此时的区别器无法区别真实的图片和加工的图片，但是通过反复的实验，图片的生成器可以生成一个最终合理图片，可能听上去非常枯燥，只是生成图片罢了。

　　那么我们看看怎么生成翻译？通过A语言到B语言，比如从英文到德语，现在传统的做法就是找到很多文本，这些文本可能是双语的文本都能够收集，我们来生成翻译的文本，现在我们怎么做？我们去培训一个网络，它们在网上找到英语的原语，提供相关的德国语相对的单词，不是一个句子，同时培训这个区分仪，找到这个鉴别器进行鉴别和培训，然后你再找到另一个鉴别器，它输入一些德语，然后生成一些句子，再然后你将这所有的要义都一块进行培训，然后就可以让它实现德语到英语这样的一个翻译功能。

　　怎么去还原成英文呢？就是利用鉴别器返回到英文，这些都是德英互译，通过鉴别器实现的功能。

　　我们能做什么？假设我们有两个任务，你可以同时训练两大网络，可能大家会问这两大任务有什么共同点吗？你需要做的事情可能就是其中两大网络会有一定的分享，如果你对整个网络进行培训的话，比如说这里这个点，它会了解到两个任务之间的交集，下面的这些点能够学习到第一个任务具体特殊地方在哪里。我画了这张图就是希望给大家展示一下，我们如何能够利用这样的一些训练网络？

　　为了保证我不超时，我讲快一点当你训练这些深度网络的时候会发现它们有很多局部最小值，问题是哪一个最小值是你应该采纳的，哪一个数值可以给你带来一些生成对抗能力。我们看一下人们是怎么想的，这里是你的训练数据，上面纵轴列了训练数据错误率，这是一条曲线，我这里箭头指向了两个极小值，两个值不一样，这个地方曲线非常宽，这个地方曲线非常陡，选择哪个数值才能确定测试数字最大准确度，我建议大家选择这个宽的，为什么呢？因为你的这个训练数据它是随机选择的，从整个数据库中随机抽取。也就是说，我们这个数据库的错误功能会和这个数据功能没有太大的区别，而这样的一个曲线就代表的是我们测试数据的错误情况。你会看到这个错误的发展曲线它虚线和实线有一定的区别，它的错误率差别并不是很大。对于较陡的这个极小值同样的横坐标会发现两大曲线错误值差别很了大，很多人在这方面做了很多研究，因为人们希望能让这两大网络进行压缩，让它们靠近。他们希望手机上就可以做深度学习，但是现在这样还是有很大难度的。比如你选择的是这样的一个小网络，并且希望能对它进行训练，准确的进行分类，你会发现这样的训练是很难做的。

　　如果你选的比较大的深度网络再进行训练的话，我们看上面这里的激活空间，训练小网络它的激活量和上面深度学习激活量相比，明显上面更优，所以压缩的时候我们选择上面的可能性更大一些。

　　接下来给大家介绍一下所谓的激活空间。如果这里我输入了一张图片，会得到一个矢量，比如有200个激活矢量板，我把这些矢量对每一个图像设置一定的关联，然后得到这些不同的数值，我刚才谈到了这里形成了这样一张图表，可能存在一个交错的关联。如果你有一个神经元，然后和它通过矢量和图像建立联系的话，我会在两方激活之间反复进行交换，每一年我都会邀请中国大概30到50名学生，到美国康乃尔大学进行交流大概一个月的时间，这一个月的时间中国学生要做一些研究，这些学生一般都是刚刚完成他们第一学年的学习，其中有一个学生拍摄了他眼中的康乃尔大学。他就问康乃尔大学看起来应该是什么样的，如果康乃尔是在中国的话这样的大学校园应该是什么样的？他就给我展示了他的一个艺术作品，他说我接下来要做的事情就是找到其中的一个激活矢量，从康乃尔这张照片里找到一个矢量作为我图像的内容输入。

　　然后我再找到中国国画这张图片里面的矢量，然后看一下两者的对比。他说把两个激活矢量进行整合，这就是如果康乃尔在北京的话它应该有的样子了，这是一个大学一年级的学生作的，他当时在我们学校交流关于深度学习的课程。

　　我觉得激活空间是非常大非常高的纬度，如果大家着眼于所有猫咪图片的话，它们的流型纬度相对较低，什么叫流型？这里面两张照片大家说都是猫咪，有人训练网络发现了猫咪，他后来又改变了一点像素，突然深度网络提示说这是汽车不是猫咪。所以如果大家利用深度网络帮你开车的话你可能就要小心了，而实际上这两张都猫咪，你会发现人类只是改了一点像素识别结果就不一样了，其实这两张图片是一样的，都是猫咪。因为相邻两个像素之间的关系不是有直接关联的，所以对于机器学习来说造成了一定的困扰。

　　我们再想一下刚才的所谓流型图片，如果你有一只猫，然后你改变了它的激活矢量，你最后得出来的结果可能就会被定义为这张图片显示的是猫，这是正常的一个学习结果。

　　这里是我的家人拍的一张照片，这个照片里有很多基础的物品，比如说汽车、猫、狗等等，我当时过了几天，我们家人一起出去散步，我的女儿当时跟我你看这就是我书本上显示的消防车，她就指向了这个物品，回想了当时读到的照片，网络就是一样的道理，我们有数以万计照片对机器进行训练让它们理解怎么区别两张不一样的照片。

　　如果大家看照片的话，到底能学到什么？我们来看一下，这个照片树枝是不会飞走的，鸟是会飞走的，这就给我们一个提示，大家做处理的时候要让这些移动物品和背景进行分离，有许多这样的物品。每次我做类似演讲的时候都会面临一个问题，有人总会问我，AI到底是真正的全智能的吗？答案就写在第一行里，在目前这个阶段，人工智能它主要指的是图像识别，是在高纬度的空间的图像识别。人工智能的许多项目它现在还没有能够提取一个物品的本质，或者是理解物品的根本功能以及其他重要方面。所以我觉得要想真正的让它具有全智能性的话还需要再进行一次革命。

　　我曾经看过人类每一次革命的间隙，我看到了人类随着进化的过程，比如说从智人的发展到至今，我们花了十万年的时间才有了农业等等，每一次巨大社会变革速度都是越来越快的，基本都是以10倍的速度缩短每一次革命，工业革命到现在已经是300多年的时间了，我们觉得下一次的工业革命这样推算下去的话可能要花40年的时间，那么下一次革命将会是什么领域的？我猜有可能是我们看到一个物品的时候能够立刻理解它的功能。

　　放了这样一张照片，大家如果训练过网络的话，它能够经过训练识别图片的话，比如说火车或者是发动机等等，然后你突然把这张照片给到机器，那它接下来会做的事情可能是对这张图片进行分类。比如说它会说这是有一些东西放在上面的一般的卡车等等。如果你仔细看的话，再仔细一点，他们可能会发现这里有一个发动机，可能有的时候没有外在的壳体，他们慢慢的还会逐渐理解，它有点像一般的机动车运作原理是一样的。好像和我们的货车机制比较相似，它们是逐步通过识别一步一步靠近答案的。

　　我想说的是AI现在还处在一个比较早期的阶段，下一步可能还要花一段时间才能够实现。我们还不知道下一步要怎么做，目前还没有理清思路，当我们着眼于一件东西的时候，大家不要只看它的外在，它的形状，相反，你要提取它的本质。比如说这个物品你看到了它有了视觉，它的功用是什么，目的是什么，怎么使用，然后才能实现很多的事情，可能是现在我们无法完成的事情。

　　还有，AI不是唯一一个在驱动我们现在的革命进程的一个技术基础。我们的大数据能力、和互联网、大计算，物联网等等都提供了可用数据，所有这些都是可用的驱动因素。我想提出的一点就是我们需要关注有一个概念关于早上提到的安全和隐私，隐私已经受到侵犯了。我们需要做的事情就是，我们去决定这个领域哪些是合适的，哪些是不合适进入的？

　　给大家举个例子，我们发现在我的汽车里，实际上我去到哪里都有一个GPS定位，然后我看一下我过去3个月期间行车记录仪记录着我去了哪里，我发现它不仅是一些有趣的回忆而且是非常有用的信息，那么最后得到什么答案呢？我们的GPS导航系统虽然给我提供了很多信息，但是它总是会让我行车都是在一些主路上，不太希望把我导航到一些形状不太规则的小路上。但是本土的这些司机他们非常熟悉路况，知道怎么开车，所以每一次你在开车的时候我们的GPS公司可以下载你的这些相关的导航数据，如果他们利用你的这个具体实际开车情况对于系统进行改良，能够提高1%的结果的话，可能就会给他们省下很多钱。

　　我不知道我的这些GPS记录有没有被下载，因为我可能需要查一下这些公司只要知道了我晚上车停在哪里就知道我在哪里工作哪里购物，这是不希望导航公司知道的事情，这就是隐私的问题。

　　当然，围绕着隐私其实还两个背后的原理，第一个就是零知识批复，就是我们要不要给对方一个批准？比如说我们是不是需要提供给公司关于我个人的一些信息？比如我的病史都在网上可以找到，假如有一天我在中国生病了，医生可以直接在网上下载我之前的病史为我提供更好的治疗方案。

　　换一个方面，我的保险公司我很不希望他看到这一切，因为保险公司不需要了解这么清楚，他们不需要知道我看过什么医生接受过什么样的治疗，保险公司他们只需要一个数字上的批准。比如多少医生等效多少钱，多少保金。现在已经有很多相关从事批准技术上面的工作，他们可以获得任何人的病史，可是我希望他们只需要读到数据，而不是任何关于个人的描述。现在有很多研究人员都在做这方面的准备工作。

　　我想我要重复AI的一点本质，因为AI的确是下一次工业革命的推力，它会改变我们的生活和相关的生活方式。作为国家就应该清楚的了解多少人，多大的比例能够获得就业岗位，能够支持他们的家庭。假如说大部分人没有工作的话，他们不能够在家无所事事，你怎么帮助大部分职业人从事有意义的工作？这是政府和国家层面需要考虑的。

　　此外这些发展中国家的出路何在？有人觉得以后世界上只有两大国家受益于人工智能革命，那就是美国和中国。因为这两大国家有足够的投资金额，也有足够的信息量，他们会直接去变现，但是对于绝大多数发展中国家他们会缓慢的增长，他们的整个生产体系会日益复杂和冗余。那么我觉得我们必须要思考，从长远来看怎么帮助这些发展中国家找到出路。

　　假如他们不能参与新一轮人工智能的话，那么世界人口会越来越两极化，世界经济和政治都会不稳定。

　　最后一张幻灯片我就提到了，这些人口、这些企业和这些国家他们会越来越意识到世界级的变化，他们也会发现自己该怎么样去获得人工智能新一轮红利。我想跟大家分享一下我的职业生涯，我之前是做电子工程的，当时我在年轻的时候还没有计算机工程。我在普林斯顿大学念的本科，当时一个教授让我直接教计算机的课程，我反问他我教什么？因为没有这个课程，我当时没有意识到其实教课过程中会让我成为世界上第一个计算机科学家，正是因为这个机遇，美国就非常关注一些资深的计算机科学家，我就被当选了。其实当时我年龄不大，我们总统给我打电话，他想评选我为全国科学委员会的会长，大家可以考虑一下，假如说我是做高等物理学的，我就等着退休就可以了我就没有这个机会了。

　　所以通过这个例子告诉在座的年轻人，如果我们考虑事业的时候面向未来的话就会有更美好的明天！

　　田薇：谢谢！请稍等一会，您刚刚说到了一定要定位于未来，请问怎么定位未来？

　　John E. Hopcroft：我知道所有的一切都在细节，细节决定一切，大家思考一下未来，思考一下变革。同时我们要想，假如有一天为企业打工，那么企业只是过去150年才来到工业时代的，之前是没有企业的。之后也不会有企业，所以请大家思考一下，未来的变化会是什么？变革会是什么？我想要精神一点点，其实我把自己的定位就是信息推动者、信息革命者。

　　大家在找工作的时候如果想人只有一辈子，想到要享受人类的方方面面，大家就不要做一些不喜欢的工作。大家一定要找到自己的乐趣所在。

　　田薇：不光有总统给定打电话，也有学校给您打电话。同时有来自于悟空问答上面读者的问题。他们知道您来中国的时候，帮助中国科学家了解算法、了解计算机，来帮助当地的工程师和学生的时候，大家都非常激动。主办方也选了几个问题，我可以代主办来问这几个问题。

　　第一个问题，现在AI已经推动了一次革命的发展，它会迅速改变我们的生活和生活模式，那么AI究竟归为我们带来更多的社会成就，比如像社会公平，还是说往相反的方向去演进？

　　John E. Hopcroft：我觉得答案是否定的，在未来的15年。为什么我会说不对呢？因为现在探讨的是深度学习。深度学习并没有思考图片以外的一些种类，这个问题可能我们需要了解更多复杂的原理才能够回答。可能是在下一代吧，所以这种复杂的问题要放到下一代，而不是未来短期。

　　田薇：下一个问题，众所周知，我们都非常关注生成对抗网络，因为这将会持续变革和演进，但是文本却是条例分明的，您觉得生成对抗网络能不能应用到文本中呢？能不能两者结合，它为未来能够带来更高质量的文本？

　　John E. Hopcroft：我觉得已经用上了，可能不是高质量的文本，可能在文本中是有所使用的。我的演讲只是简单处理了一下文本，当然深层次学习还可以用到很多行业，不只是图片还有文本。但是我们的生成对抗文本和卷积神经网络还有点不一样。

微信扫一扫 分享朋友圈

图灵奖获得者：机器学习将推动下一次工业革命的到来

微信扫一扫分享朋友圈