中能建控股集团有限公司

新闻中心

媒体聚焦

首页 > 新闻中心 > 媒体聚焦

突破自然语言处理瓶颈需大数据与富知识双轮驱动

发布日期：2019-11-01 信息来源：科技日报

“今年美国国家科技理事会发布的国家人工智能八大战略中，有三项与自然语言处理有关。”近日，北京智源人工智能研究院首席科学家孙茂松表示，“自然语言处理是全球人工智能战略之关键。”然而，当前与自然语言处理的相关技术远未成熟，许多问题亟待突破。那么，目前有哪些解决途径？

　　“学术领域叫自然语言，其实指的就是人类语言。自然语言处理可以说是从人工智能这个词尚未出现前，就是一个重要研究对象。”孙茂松表示。

　　“语言，是人独立于动物的重要特征之一。但是大家不要把自己看得太高明，更不要认为人的语言就是模板，动物的语言也很强大，其中不乏超过我们的。” 孙茂松指出，比如鲸鱼的神经细胞有370亿个，人有200多亿，本身它的神经系统就比我们发达，语言也极其丰富。而鱼在海洋光线不好的情况下，能够做很强的交流，到现在人类也对其语言的理解十分有限。尽管动物的语言和人的语言有很大不同，但共性即是语言是两个个体之间交流的桥梁，桥梁作用就是研究的关键。

　　上世纪60年代，机器翻译系统已经出现。相关部门用《圣经》中的句子进行了测试，句子直译的意思是“精神是愿意的，但是肉体是虚弱的”，但用当时的机器翻译成俄文，再用俄文系统翻译成英文时，就变成“伏特加是好的，但肉却腐烂，酒喝不成了”。如今把这个英语句子用谷歌翻译系统翻译成中文，基本上可以保持语义保持完好，这就是显著的进步。

　　但现在大数据驱动下的自然语言处理遇到的瓶颈，是一位著名机器翻译专家提出机器翻译中“pen”的问题。即“pen”有两个意思：钢笔和围栏，而无论是谷歌还是微软的机器翻译，都还不能很好地根据不同语境将其译成合适的意思。“如果见过这句话的情况机器可能会翻译准确，而没见过就需要知识的积累。大数据驱动下的自然语言处理有很大局限性，即运用知识处理问题的能力几乎没有。”孙茂松指出。

　　近些年，自然语言处理在全球范围受到学术界的高度重视，美国国防高级研究计划局(DARPA)对基于知识的语言智能投入相当大，涉及到数据知识与行为、低资源语言处理、知识指导模式推理、自动知识获取等。

　　据介绍，目前我国基于大数据驱动的深度学习已经取得显著进步，这些年来很多重要进展都是基于这个层面。有专家指出，今后自然语言处理需要通过知识驱动实现突破。孙茂松认为，“大数据与富知识双轮驱动”或成为解决问题的关键，即在大数据驱动的基础上加入富知识驱动，两者结合，缺一不可。他强调，这个知识是系统性的，而不是用破碎的知识。

　　为此，北京智源人工智能研究院“自然语言处理”课题团队，将致力于解决多类型知识资源构建、自然语言深度理解、可控自然语言生成、融合知识的机器翻译、智能语言学习、对话系统等问题。

媒体垂询

E-mail:ZNJ@chinaech.com

中能建控股集团有限公司

新闻中心

突破自然语言处理瓶颈 需大数据与富知识双轮驱动

媒体垂询

突破自然语言处理瓶颈需大数据与富知识双轮驱动