Jeff Dean撰文：谷歌AI 2018研究成果汇总

2021-07-15 18:50:58

稳定性测试谷歌AI团队负责人Jeff Dean今天发表博客文章，总结了谷歌的研究团队在2018年的主要研究成果。

【编者按】谷歌AI团队负责人Jeff Dean近日发布博客文章，总结了谷歌的研究团队在2018年的主要研究成果。内容包括：AI道德原则与以人为本的AI、辅助技术、量子计算、自然语言理解、感知研究、计算摄影、算法和理论、软件系统、AutoML、TPU、开源软件和数据集、机器人技术、人工智能在其他领域的应用、医疗AI、研究推广、AI道德原则与以人为本的AI。

文章转载自新智元，原作者Jeff Dean，经整理编辑发布，供业内人士参考。

在过去的几年里，我们观察到人工智能的重大进步及其对我们的产品和数十亿用户日常生活的积极影响。我们认识到，AI是一种造福世界的力量，它应该被合乎道德地应用，也应该应用于对社会有益的问题。今年我们发布了《谷歌人工智能原则》(Google AI Principles)，提出一系列负责任的人工智能实践，并概述了实施的技术建议。

AI用于解决现实社会问题的潜力是显而易见的。一个例子是谷歌在洪水预测方面的工作。这项研究旨在提供关于洪水可能的程度和范围的准确、及时的细粒度信息，使那些在洪水易发地区的人们能够更好地决定如何最好地保护他们自己和他们的财产。

第二个例子是我们在地震余震预测方面的工作，我们展示了机器学习模型可以比传统的基于物理的模型更准确地预测余震的位置。更重要的是，由于ML模型的设计是可解释的，科学家们已经能够对余震的行为做出新的发现，这不仅可以得到更加准确的预测，而且对余震的理解理解也达到了新的水平。

我们还看到大量的外部研究者，有时与谷歌的研究人员和工程师合作，使用TensorFlow等开源软件应对广泛的科学和社会问题，例如使用卷积神经网络识别座头鲸，检测新的系外行星，识别病变的木薯植物等等。

▌辅助技术

我们的大部分研究集中在使用ML和计算机科学来帮助用户更快、更有效地完成任务。通常，研究团队与不同的产品团队协作，研究成果被应用于不同的产品特性和设置中。一个例子是Google Duplex，这个系统需要研究自然语言和对话理解、语音识别、文本到语音转换、用户理解和有效的UI设计等。

其他的例子包括Gmail的Smart Compose工具，使用预测模型给出关于如何撰写邮件的相关的建议；以及声音搜索技术Sound Search，能够让用户快速、准确地搜索到正在播放的歌曲；等等。

▌量子计算

量子计算是一种新兴的计算范式，它能够解决经典计算机无法解决的具有挑战性的问题。在过去的几年里，我们一直在积极地进行这一领域的研究，我们相信该领域正在展示在至少一个问题上的尖端能力(所谓的量子霸权)，这将是该领域的一个分水岭事件。

在过去的一年里，我们取得了许多令人兴奋的新成果，包括开发了一种新的72量子比特的量子计算设备：Bristlecone，它可以扩大量子计算机可解决的问题的范围。

我们还发布了面向量子计算机的开源编程框架Cirq，并探索了如何将量子计算机用于神经网络。最后，我们分享了我们在理解量子处理器性能波动方面的经验和技术，并分享了一些关于量子计算机作为神经网络的计算基础的想法。我们期待2019年在量子计算领域取得激动人心的成果!

▌自然语言理解

谷歌的自然语言研究在2018年取得了令人兴奋的成果，既有基础研究，也有以产品为重点的合作。我们对2017年提出的Transformer架构进行了改进，开发了一种名为Universal Transformer的新的实时并行版本，该版本在翻译和语言推理等自然语言任务中显示出强大的优势。

我们还开发了BERT，这是第一个深度双向、无监督的语言表示模型，只使用纯文本语料库进行预训练，然后可以使用迁移学习对各种自然语言任务进行微调。BERT在11个自然语言任务上比以前的最先进的结果有了显著的改进。

BERT在非常具有挑战性的GLUE基准测试中将最优结果提高了7.6%

▌感知研究

感知研究致力于解决让计算机理解图像、声音、音乐和视频的难题，并为图像捕获、压缩、处理、创造性表达和增强现实提供更强大的工具。

2018年，我们的技术提高了Google Photos中组织用户最关心的内容的能力，比如人和宠物。Google Lens和Google Assistant 让用户了解自然世界，实时回答问题，并能在谷歌图像中使用Google Lens做更多事情。

Google Lens可以帮助你了解你周围的世界

在音频领域，我们提出了一种用于语义音频表示的无监督学习方法，以及对富有表达性的语音合成的显著改进。多模态感知成为一个越来越重要的研究课题。Looking to Listen将输入视频中的视觉和听觉线索结合起来，以隔离和加强视频中所需的说话者的声音。这项技术可以支持许多应用，从视频中的语音增强和识别、视频会议，到改进的助听器，尤其是可以应用于多人讲话的场景。

在计算资源有限的平台上实现感知变得越来越重要。MobileNetV2是谷歌的下一代移动计算机视觉模型，被广泛应用于学术界和工业界。MorphNet提出了一种学习深度网络结构的有效方法，在计算资源限制的条件下，可以全面提高图像和音频模型的性能。最近有关自动生成移动网络架构的研究也表明，继续提高性能是可能的。

▌计算摄影

在过去的几年里，手机摄像头的质量和功能都有了显著的提高。部分原因是手机中实际使用的物理传感器有所改进，但更大的原因是计算摄影这一科学领域的进步。

我们的研究团队发布了最新研究技术，并与谷歌的Android团队和消费硬件团队紧密合作，将最新技术应用在最新的Pixel和Android手机及其他设备中。2014年，我们提出了HDR+技术，通过该技术，摄像机捕捉到一组帧，然后在软件中对齐这些帧，并将它们与计算软件合并在一起。HDR+的工作最初是为了使图片具有比单次曝光更高的动态范围。然而，通过捕