俞东访谈:多模态是走向通用人工智能的一个重要方向

雷锋人工智能科技评论出版社:随着语音识别、自然语言处理和计算机视觉等人工智能技术越来越成熟,并逐渐登陆实际场景,如何实现大规模应用登陆或如何导致通用人工智能成为这些领域研究者探索和思考的课题。

在这样的探索和思考下,“多模态”已经成为人工智能领域许多领先专家学者关注的研究方向。例如,自然语言处理领域的专家刘群教授提到,多模态是诺亚方舟语音语义实验室目前的主要研究方向之一。德国汉堡科学院成员张兼维认为,人机交互的未来是一种多模态共享模式。计算机视觉领域的专家贾家亚教授在几次演讲中提出了这一观点。

腾讯作为业界关注这一研究方向的代表之一,自2018年2月以来一直关注多模态研究,并于2018年11月宣布探索下一代人机交互模式:多模态智能。

9月2日,腾讯哀牢(Tencent哀牢)与自然研究(NatureResearch)及其两大期刊《自然-机器智能》和《自然-生物医学工程》联合举办了全球首次“自然会议-人工智能和机器人会议”。语音识别领域的领军人物之一、腾讯哀牢副总监、多模态虚拟人项目负责人俞东博士,基于他在多模态技术方面的研究成果,带来了关于“虚拟人中的多模态合成技术(Multi-modal Synthesis Technology in Virtual Human)”的演讲报告。以虚拟人项目为载体,介绍了多模态的技术优势,分享了腾讯哀牢在这方面的研究和应用探索。

会后,《人工智能科技评论》还对俞东博士进行了专访,进一步探讨了多式联运的应用和探索。其中,俞东博士在将多模态的研究方向视为对一般人工智能的突破的同时,也以更冷静的态度指出,多模态将是未来人工智能的一个非常重要的方向,但不是全部。

因为人工智能是一个非常宽泛的概念,我们目前可能只知道一点点。通向一般人工智能的道路到底是什么?每个人仍处于探索状态。

同时,《人工智能技术评论》也借此机会与俞东博士谈了他领导深度学习技术应用于语音识别的历史渊源、他从微软研究院到腾讯哀牢(Tencent哀牢)的职业转型以及他对语音识别未来发展的看法。

让我们先看看俞东博士在这次会议上分享了什么。

为什么多模态是人机交互的发展趋势?人机交互经历了键盘交互和触摸交互等几个阶段。目前,许多设备采用语音交互。

交互模式每次变化背后的驱动力是对人机交互的便利性、自然性和准确性的更高要求。

为了更好地满足人机交互的需求,俞东博士指出了一个非常重要的研究方向或发展趋势,那就是多模态人机交互。

同时,俞东博士也解释了为什么多模态交互是人机交互的发展趋势。有四个要点。首先,多模态交互使人类能够选择不同的模态组合在不同的场景中进行交互,从而整体上提高人机交互的自然性。其次,在多模态技术下,一种模态可以弥补另一种模态的不足,通过融合多模态的信息,可以更准确地估计用户、情感、场景和说话人的位置;第三,多模态交互具有“相互监督”的优势,即当机器无法获得某一模态的明显信息时,其他模态可以为机器提供微弱的监督信息,使机器能够不断进行系统自适应调整。第四,多模态可以使人们在与机器互动的过程中有多维的感受,从而能够从视觉、听觉、触觉等方面体验机器的情感和表达语义。

除了这些优势之外,余东博士认为多模态交互还可以给行业带来更多的想象力空例如,人机交互技术可以用来做虚拟解释、虚拟前台、虚拟公司等。

正是因为多模态交互的这些优势及其带来的想象力空他还带领团队启动了虚拟人的研究项目。

接下来,俞东博士还以虚拟人的研究成果为载体,详细介绍了多模态交互技术。

俞东博士首先介绍了多模态交互的系统框架,主要包括三个部分:多模态输入、中间认知和决策控制环节以及最终输出。

此外,俞东博士向我们展示了多模态技术的阶段性成果——虚拟人合成技术的过程:系统首先从文本中提取各种信息,包括动作、表情、情绪、压力位置和兴奋程度等。然后,将信息输入到动作表达模型中生成动作和表情,同时输入到榴莲多模态合成系统中,同步生成语音、嘴形和表情参数,从而合成真人或卡通图像。

其中,语音和图像同时合成的榴莲模型(DurIAN model)作为多模态合成技术的核心成果,是俞东博士此次要介绍的关键内容。

俞东博士认为,与传统语音合成方法和最新的端到端语音合成方法相比,多模态合成技术的杜里安模型(DurIAN model)的应用在自然性、鲁棒性、可控性、泛化能力和实时性方面取得了更好的效果。

传统语音合成方法VS端到端语音合成方法在正式引入榴莲模型之前,俞东博士首先介绍了传统语音合成方法、端到端语音合成方法及其各自的优缺点。

传统的语音合成方法主要基于BLSTM+WORLD模型,它具有稳定性和可控性强的优点,同时也存在合成语音的机械感太强的缺点。

然而,由于其强大的稳定性和可控性,该框架主要用于工业实际系统中。

端到端语音合成方法的优点在于其高自然度,而缺点在于其稳定性和可控性差。其中,最常见的问题是缺词和重复。

以文献中提取的结果为例,系统中漏词或重复错误的概率为1%-5%。

因此,这种方法尚未在实际系统中得到广泛应用。

然而,这种方法最近取得了很大进展,比如2018年提出的谷歌的Tacotron模型与WaveNet相结合。

与传统的语音合成方法相比,端到端语音合成模型Tacotron的优势主要包括四个方面的改进:一是使用基于神经网络的编码器模型代替人工设计的语言特征;其次,它用丰富的信息直接预测频谱,而不是源滤波器的声学特性。第三,引入自回归模型来解决合成过程中的过度平滑问题。第四,采用基于注意力机制的端到端训练方法。

首先,用基于神经网络的编码器模型代替人工设计的语言特征。其次,它用丰富的信息直接预测频谱,而不是源滤波器的声学特性。第三,引入自回归模型来解决合成过程中的过度平滑问题。第四,采用基于注意力机制的端到端训练方法。

然而,这种端到端的注意机制也带来了稳定性差的问题。

通过分析,俞东博士的团队发现注意机制是模型中出现缺词和重复问题的主要原因。

下图右侧有两个组合案例,其中省略了蓝色字符。

使用多模态技术的语音合成系统:DurIAN模型基于端到端语音合成模型Tacotron中缺失单词、重复等问题的原因的发现,余东博士的团队在DurIAN模型中提出了一种解决方案,即保留Tacotron模型中有利于语音合成自然性的部分,即上面提到的前三个改进部分,然后用时间长度预测模型来代替端到端注意机制。

基本方法是训练音素持续时间预测模型,然后在给定的时间长度下首尾相连地训练模型。

这样,榴莲模型不仅保持了端到端语音合成模型的高自然度优势,而且在保证不漏词和重复问题的情况下,解决了系统的稳定性和可控性问题。

其中,榴莲模型可以进一步实现可控性的精细控制。基本思想是采用监督学习方法,但不需要对训练语料进行精细标注,如语音是否兴奋或速度是快还是慢。

在训练期间,让每个控制变量学习方向性向量;在合成过程中,精细风格控制只能通过缩放相应向量的连续值来实现。

榴莲模型除了稳定性和可控性外,还大大提高了鲁棒性、泛化能力和实时性。

为了解决以往端到端语音合成系统鲁棒性和泛化能力弱的问题,DurIAN模型引入了语言信息,特别是标点符号和韵律边界,即充分利用汉语语音中的韵律结构来提高模型的泛化性能。

具体方法是用榴莲模型中的韵律结构(SkipEncoder)代替塔科龙模型中的编码器结构,从而有效地在汉语句子中引入韵律结构。

SkipEncoder的基本思想是在输入时用额外的框架明确表达这些语言信息。然而,由于标点符号和韵律边界是一个时间点而不是一段时间,跳过编码器输出的附加帧,使得每个帧的编码器输出仍然对应于频谱的帧。

在实时性问题上,谷歌此前提出了韦弗恩模型。虽然它比最初常用于神经声码器的波形网速度快得多,经过精心的工程优化后可以实现实时,但实时性不好,语音合成成本高。

作为回应,俞东博士的团队提出了一种多波段同步waveRNN技术。它的基本方法是将语音信息分成频带,并在每个步骤中使用相同的声码器模型来同时预测多个频带的值。如果它被分成4个频带,那么在每个步骤中可以计算4个值,计算时间是原始频率的四分之一。

同时,在合成过程中,声码器预测多频带值后,可以通过上采样和特殊滤波器设计恢复无失真的原始信号。

除了语音合成之外,俞东博士还展示了榴莲模型在同步合成多模态信息方面的优势,即该模型中的时长预测模型可以使系统同步合成语音、嘴形和面部表情参数,最终生成卡通图像或具有真实图像的虚拟人。

未来工作展望尽管DurIAN模型在自然性和鲁棒性、风格可控性、语音、嘴形和面部表情的实时同步合成方面做得很好,余东博士也指出,对于这项技术还有很多要探索空的,他的团队在未来还有很多工作要做,主要包括四个方向:一是在模型优化上,需要探索基于DurIAN结构的端到端训练方法,以更好地支持端到端优化;其次,在控制能力方面,该模型需要进一步的全面控制能力,即能够在不同场景、情绪、音色和音色信息下合成相应的语音。第三,在训练语料库方面,有必要使系统能够从低质量语料库中学习节奏,从高质量语料库中学习声音质量。第四,有必要进一步探索模型的定制,以便在少量的语音语料库(< 15分钟)中,还可以训练新的声调颜色。

AI科技评论专访俞栋博士对话实录:多模态在虚拟人项目中的应用探索问:本次您的报告主题是《虚拟人中的多模态合成》,您在演讲中重点介绍了虚拟人这一最新成果以及多模态在虚拟人中的技术应用,那您一开始研究这个项目的俞东访谈:多模态是走向通用人工智能的一个重要方向契机是什么?俞栋:第一,我们越来越意识到单一技术能做的事情非常少,因而需要将很多的技术组合起来,这样才能做出比较有影响力的成果。人工智能科技评论俞东博士访谈:多模态在虚拟人项目中的应用问:你的报告主题是“虚拟人中的多模态综合”。在你的演讲中,你聚焦于虚拟人的最新成就和多模态技术在虚拟人中的应用。你有什么机会开始研究这个项目?俞东:首先,我们越来越意识到单一技术几乎无能为力,所以我们需要将多种技术结合起来,才能获得更有影响力的结果。

其次,腾讯哀牢(Tencent AILab)从成立之初就刚刚建立了虚拟人所需的各种研究方向,包括语音、自然语言处理、机器学习、计算机视觉等。因此,我们目前虚拟人项目的条件相对成熟。

第三,多模式互动是历史发展的必然趋势。我们预测这项技术在未来几年将变得越来越重要。

问:虚拟人项目进展如何?俞东:我们在去年下半年开始计划这个项目。今年年初,我们真正开始有组织地做这个项目。经过八个月的研究,这个项目也取得了一些进展。

(相关进展见以上报告)本项目大致分为三个核心部分:一是虚拟人的输出;第二是虚拟人的输入,包括对诸如观看、聆听和触摸等事物的感知。第三个是认知和对话模块,它成熟度最低,但也是一个非常重要的模块。

对于认知模块,业界已经研究了很长时间,不知道什么是正确的方法。

我们不确定这一部分能在多大程度上实现,但我们仍然需要朝着这个方向组织我们的部队。

问:现在人工智能领域的研究人员,包括腾讯优图实验室主任贾家亚教授,正在研究多模态技术。在最近的演讲中,他还提出了“多模态是人工智能发展的未来”的观点。你认为这个观点怎么样?余东:我认为应该说多式联运是未来的一个重要方向。

人工智能是一个非常宽泛的概念。事实上,到目前为止,我们可能只知道一点点,包括认知推理和因果推理的基本问题,以及为什么机器的泛化能力如此之弱。我们还没有理解他们。

通向一般人工智能的道路到底是什么?每个人仍处于探索状态。因此,强化学习和多模态交互都是普通人工智能的重要尝试,但并不是全部。

几年后,也许每个人都会找到另一种能够真正实现通用人工智能的技术。

学术研究经验:就学术研究而言,你的简历已经很丰富了。它是首次将深度学习技术应用于语音识别的研究领导者之一。你已经和杰弗里·辛顿、李征等人进行了深入的合作。无论是论文、专著还是研究成果,你的表现都非常出色。一开始你是如何基于机会选择语音识别的研究方向的?余东:当我在小学的时候,我读了一本叫做《奇怪的机器狗》的课外书籍。现在它提到的许多事情都已经实现了,包括机器可以理解人们所说的话,可以和孩子们互动,帮助他们解决学习问题,还可以带孩子们去玩,等等。

因此,事实上,我小时候就对这些智能机器人感兴趣。

与语音识别的真正接触是在本科阶段。

我在浙江大学主修自动控制。我当时参加的班级是浙江大学设立的一个特殊班级。它被称为“混合班”。所有进入这个班的学生都是当年最好的100名新生。

这个班的老师将来会把我们的学生培养成特殊的研究者,所以我们一入学就开始关心“国家科技团队”的概念。

大学三年级时,我们进入研究小组进行研究,这正好是人工智能发展的高峰期(1989 ~1991)。其中,主要有两个热点方向。一个是专家系统。我当时的高年级学生吴赵辉(现任浙江大学校长)在这方面做了更多的研究。另一个方向是当时刚刚开始升温的神经网络。当时我的方向之一是神经网络。

毕业后,我计划去中国科学院,因为那时,中国科学院被公认为国家科技团队。

由于本科专业是自动控制,我去自动化学院找了一个导师。在这个过程中,我找到了黄太一先生,他的研究方向符合我的兴趣。他的研究是语音识别。

巧合的是,我在“混合班”的大四学生徐波(现在是自动化学院的院长)也在和黄太一先生一起攻读研究生。

于是我终于去了黄太一的研究生院,开始进入语音识别的研究领域。

问:事实上,在深入学习的早期阶段,这种方法并没有得到真正的重视。你是在什么背景下开始深入学习的?余东:正如我之前提到的,当我第一次接触神经网络时,神经网络是当时人工智能的研究热点之一。

后来,当我去黄太一当研究生时,黄太一和他实验室的其他老师也用神经网络做语音识别。因此,在自动化研究所的硕士论文中,我使用神经网络进行语音识别。

这为我后来将深度学习引入语音识别任务的一系列工作奠定了基础。

问:今年,韩丁等三大深度学习巨头获得了2018年图灵奖,深度学习对人工智能领域的变革性影响早在几年前就已经发生。你认为这是深度学习的晚期荣誉吗?此外,你如何评价这三位研究人员的工作?余东:我认为这基本上是及时的。

由于科学发展的许多进步,当它们在那个时候首次出现时,这个领域的人们很难看出它们的影响有多大。一般来说,承认有所延迟。有些人可能只需要几年时间,有些人甚至不得不等到发明者去世后才能被认可。

因此,我认为现在是他们获得这一荣誉的时候了。

首先,他们很早就开始深入学习。在我第一次在大学接触这份工作之前,他们做了很多准备工作。其次,它们在这个方向上已经坚持了很长时间,即使在低潮期,它们仍然坚持,这是一个值得我们研究者学习的品质。

问:将深度学习技术应用于语音识别是你最有代表性的工作吗?你在语音识别领域的主要研究方向是什么?余东:我认为这是一部比较有代表性的作品。当然,我们在这一研究方向上做了一系列的工作,从而在促进这一领域发挥了相对较大的作用。如果只是一部作品,角色就不会那么大。

目前,我们关注的研究方向之一是多模态,它是一种涵盖视觉、声音、符号语言、嗅觉和触觉等信息的技术,而与语音相关的技术,如语音识别、语音合成、语音增强、语义分离、声纹识别等。,都用于多模态。

从微软研究院到腾讯哀牢(Tencent哀牢):除了学术研究,你的行业经验也非常丰富。2017年5月,你离开微软研究院加入腾讯哀牢。你对工作内容和角色做了哪些改变?余东:当我在微软研究院工作的时候,我相对来说更专注于我的研究方向和技术方面。

加入腾讯哀牢后,我的角色不再是纯粹的技术研究。除了技术研究,我还需要扮演经理的角色。

相对来说,开始时有两个困难很难适应。首先,我必须花很多时间在管理上,花更少的时间在技术上。我需要找到一个更好的平衡。第二,因为我负责的团队在西雅图,由于时差和总部的其他原因,我需要在晚上和中国开会。晚上的空闲时间比MSR少得多。

为了减少交流问题,我增加了在中国实验室的时间。

问:目前,国内科技巨头已经建立了人工智能相关实验室。你认为腾讯哀牢在其中的地位如何?俞东:现在这些企业已经建立了人工智能实验室,并招募了许多优秀的科学家。我认为这是一个很好的趋势,将对整个人工智能的发展起到很好的推动作用。

相比之下,腾讯哀牢略有不同,因为我们的研究不像其他实验室那样接近产品。

其他公司的实验室更像一所工程学院,更喜欢在一些论文中复制这些技术,然后把它们投入产品中。

然而,我们更加关注能否开发出尖端技术,这与其他企业实验室的侧重点并不完全相同。

问:你的团队对学术界语音识别领域的进展给予了多少关注?除了声音,你的团队还关注哪些其他研究方向?俞东:我们非常关注尖端技术。

就我个人而言,我每年至少会参加一次与演讲有关的会议和一次自然语言处理会议,而我团队的其他成员也会参加相关会议,所以我们基本上有同事参加重大学术会议。

除了语音之外,我们还更加注重自然语言处理、计算机视觉、图形和图形,以及机器学习和人工智能技术的基础理论。

语音识别领域的现状和未来发展:与其他人工智能领域相比,语音识别在工业登陆方面处于领先地位,但目前仍暴露出许多问题。你认为哪一个更严重?俞东:事实上,问题仍然是稳健性。

目前,基于深度学习的系统鲁棒性比以前好得多,但仍不能达到预期的效果。

目前,我们的主要方法是增加目前很难收集的训练语料,即使收集的语料很大,一旦机器处于一个全新的前所未见的不匹配环境中,也不能达到太好的效果。

一个典型的例子是,现在许多语音识别器的错误率为67%,即使在相对嘈杂的环境中也更好。然而,如果两个人同时说话,错误率可能达到50-60%。

此外,如果说话者的口音很重,语音识别器的效果不会很好。

我们以前也尝试过许多解决方案,包括提高模型的泛化能力和使模型自适应。目前,这些解决方案仍有很大改进空。

问:在你看来,语音识别的发展经历了什么阶段,目前处于什么阶段,理想状态是什么?俞东:根据难度,语音识别与人工智能其他领域经历的阶段非常相似:开始时做一些非常简单的任务,比如音素识别和单词识别;接下来是连续语音识别阶段。隐马尔可夫模型建立后,连续语音识别变得可行,进而实现大词汇量连续语音识别。然后是即时语音识别阶段,它要求机器能够理解人们自由交谈。

现在是完全真实场景中的语音识别阶段。例如,许多研究人员目前正试图研究鸡尾酒会场景中的语音识别。

这也是我们将在下一阶段突破的方向。真实场景中的语音识别还包括在非常嘈杂的环境中或说话者带有浓重口音的场景中的语音识别。

在我看来,机器的理想状态应该是能够识别比人更多的东西。

在未来的某一天,计算机应该能够在不同的场景中识别出比人类更多的人。

问:在未来三到五年内,语音识别领域有哪些突破方向或技术?俞东:我认为在未来三到五年里,语音识别领域有三大突破:第一是多模态;二是适应能力更强、更快的模型。第三,鸡尾酒会场景中的语音识别也是一个可以探索的方向。

(End)附件是下载榴莲原型论文的链接:在此次会议上,腾讯哀牢网还正式发布了《人工智能与机器人42大问题》,可以免费查看和下载。

未经允许不得转载:威尼斯人棋牌娱乐 » 俞东访谈:多模态是走向通用人工智能的一个重要方向
分享到:
赞(0)

评论抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址