网易首页 > 网易手机 > 正文

深度解读谷歌SyntaxNet:全新TensorFlow自然语言处理模型

0
分享至

(原标题:深度解读谷歌SyntaxNet:全新TensorFlow自然语言处理模型)

上周,谷歌开源了其基于人工智能系统Tensorflow的自然语言解析模型分析库SyntaxNet。在过去的两年时间里,谷歌研究人员利用这个分析库 发布了一系列神经网络分析模型。自从SyntaxNet发布以来,笔者就一直关注它,当然也一直也期待这个软件能够开源。不过,本文尝试围绕本次开源的相 关背景做一些探讨,比如本次开源有什么新料,开源又有何重要意义?


在自然语言文本处理库中(比如spaCy),SyntaxNet提供了非常重要的模型。如果你把自然语言处理的概念”缩小”一点,就会意识到,这种你正在关注的技术可以拓展计算机的应用范围。即便是现在,你依然无法编写软件去控制一辆汽车,也无法用你的语气来回复电子邮件,更无法用软件来分析客户反馈,或为规避重大商业风险去监测全球新闻。诚然,自然语言处理无法操控无人驾驶汽车,但等下先,语言是人类最与众不同的能力,人类已经不可避免地掌握了这种技能,但是自然语言处理技术也很优秀,我们甚至难以预测它的潜力。谷歌搜索就是一种自然语言处理应用,所以你会发现这项技术其实已经在改变世界。不过,在笔者看来,自然语言处理还有很大发展空间。

在更大的价值链里,SyntaxNet其实算是一种较低级别的技术,它就像是一个改良的钻头,钻头本身无法给你石油,石油本身无法给你提供能量和塑料,能量和塑料本身也无法自动形成某种产品。但如果整个价值链的瓶颈是石油开采效率,那么大幅提高钻头技术(虽然是一种底层技术)也是非常重要的。

在笔者看来,在自然语言处理中语法解析就是一个瓶颈技术,如果它有四、五年时间做优化改进,将会对自然语言处理产生巨大影响。现在你可能会说,我之所以觉得这是个问题,是因为这项技术正从学术研究转变为商业化应用。但我所能说的就是,这其实是一种逆转因果关系:正是因为我理解问题的重要性,所以我投入其中,而不是相反。

好了,我知道即便某个技术遇到瓶颈,但也无法否定其重要性。SyntaxNet如何向前迈一大步呢?如果你已经在Stanford CoreNLP中使用了神经网络模型,那么可以肯定的是,你正在使用的其实是一种算法,在设计层面上这种模型和算法其实是完全一致的,但在细节上却不一样。使用spaCy语法解析模型也是如此。从概念上讲,SyntaxNet的贡献可能会让人觉得没那么大,毕竟它主要用于试验,优化和改进。然而,如果谷歌不做这项工作,可能就没有人会去做。可以说,SyntaxNet为神经网络模型打开了一扇窗,人们从中看到了一个充满各种想法创意的美丽风景,研究人员也正忙于探索这一切。当然啦,行业内也会有一种偏见,认为SyntaxNet会让研究人员看上去(感觉上)更聪明。可能,我们最终会有一个非常准确的语法分析模型,但是这个模型无法实现正确的假设(当然在系统设计的角度准确性是十分重要的),继而导致未来神经网络模型的发展越来越慢。在CoreNLP模型说明推出后的六个月,首个SyntaxNet论文才发布出来,他们使用了更大的网络,更好的激活函数,以及不同的优化方法,不仅如此,SyntaxNet还应用了更具原则性的定向搜索方法,进而取代了目前更多工作。使用 LSTM模型可以实现同样准确的并行工作,而不是按照SyntaxNet论文里描述的那样,同时发布前馈网络。

SyntaxNet用来做什么?

SyntaxNet语法解析器可以描述一个句子的语法结构,帮助其他应用程序理解这个句子。自然语言会产生很多意想不到的歧义,人们通常可以利用自己的知识过滤掉那些产生歧义的。举个大家比较喜欢的例子:

他们吃了加凤尾鱼的披萨(They ate the pizza with anchovies)

图片来源:spaCy

正确的语法分析是将“with”和“pizza”联系在一起,也就是他们吃了加凤尾鱼的披萨;

图片来源:spaCy

而不正确的语法分析是将“with”和“eat”联系在一起,他们和凤尾鱼一起吃了披萨。

图片来源:spaCy

如果你想要更形象地感受这个技术,不妨可以看下我们的displaCy demo,或是看一个简明的,基于规则方法的例子,去了解语法树是如何计算出来的。“单词与单词”关系熟也可以用来识别一些简单的语法语义,这样可以便于扩展形成“单词包”技术(比如word2vec,它是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。)举个例子,我们解析去年Reddit论坛上的每一个评论,相比于严格限制空格分割单词的方法,使用word2vec显然更有帮助,因为后者可以分析短语,实体和单词生成一个很不错的概念图。

SyntaxNet是一个训练和运行句法依赖解析的模型库。这个模型可以较好地权衡语义分析速度和准确度。可能是为了显得更时髦些,谷歌给这个模型起了个很酷的名字——Parsey McParseface。希望他们能够继续延续这种时髦的命名方式,我觉得未来应该有个更好的方式,让模型发展时间轴显得更清楚一些,自然语言处理技术也应如此。

SyntaxNet带来多大进步?

虽然打上了“当今世界上最准确的语义分析”标签,但Parsey McParseface其实只比最近的相关语义分析研究领先了一点点而已,如今的语义分析模型使用了更加复杂的神经网络架构,但有更多限制性的参数调整。因此,很多相似的技术也将不再会局限在学术圈。另一方面,如果你关心这种模型是否能够实实在在做一些事情,那么现实可能会让你有些失望了,目前这些技术还无法真正去“做事”。自从去年SyntaxNet论文发布之后,笔者本人一直在断断续续的研究神经网络模型spaCy,但是效果并不太好,我们想要让spaCy便于安装,我们想要它在单CPU上快速运行,我们还想要它保持多线程,不过所有这些要求目前都很难实现。

对于语义分析基准,Parsey McParseface在每秒600个单词的速度下,准确度可以超过94%。同样地,spaCy每秒识别1.5万字的精准度为92.4%。这个准确度可能听上去不是很高,但对于应用程序来说,其实已经算非常好的了。

任何预测系统,通常最重要的考虑因素就是基准预测的差异,而不是绝对进度。一个预测天气的模型,今天和昨天的准确度可能是一样的,但是它不会增加任何价值。关于依存关系语法分析,大约80%的依赖关系都很简单明确,这意味着,一个只正确预测那种依附关系的系统正在注入少量额外信息,这种能力不是只查看每个单词就能做到的,而是要考虑词和词之间的关系。

总而言之,我认为在目前人工智能的大趋势下,Parsey McParseface是一个非常好的里程碑。重要的是,它可以实现多快的速度,以及能实现多么先进的自然语言处理技术。我觉得以前有很多想法不能实现,但是肯定会有那一刻的到来,一瞬间所有都变得可行了。

下一步是什么?

最让我兴奋的是,通过Parsey McParseface模型设计,自然语言处理技术有了一个非常清晰的方向,这时你可能会说:“好的,如果它有作用就太好了。”2004年,语义分析领域的领军人物之一 Joakim Nivre表示,这种类型的语法解析器可以一次性读句子,继而减少错误理解。它适用于任何状态表达,任何行为集合,任何概率模型架构。举个例子,如果你解析一个语音识别系统的输入,你可以让语法解析器优化语音识别器,在基于句法环境下猜测对方要说的话。如果你使用知识库,那么可以扩展状态表达,使其中包含你的目标语义,让它学习语法。

联合模型和半监督学习一直是自然语言理解研究最完美的体现。从来没有人怀疑它们的优点——但是如果没有一个具体的方法,这些技术也只是陈词滥调罢了。很明显,理解一个句子需要正确地拆分单词,但这样做会带来很多问题,更难以找到一个满意的解决方案。此外,一个自然语言理解系统应该可以利用现有的大量未标注文本,这同样需要不同类型的模型支持。我认为,针对上述两个问题,一个过渡的神经网络模型能够给出答案。你可以学习任何架构,你看到的文本越多,你学习的就越多,而且神经网络模型也不需要添加任何新参数。

显然,我们想要在Parsey McParseface和spaCy模型之间构建一座桥梁,这样在spaCy应用程序接口的支持下,你才能使用更加准确的模型。不过,对于任何单独用例,让这种技术真正发挥作用总是会出现一些变数。特别是每一个应用程序中总会存在不同类型的文本,如果数据模型能调整到域,准确度才能够有实质提升,比如一些完整编辑的文本,像财务报告,你必须要让语义分析模型把“市值”这个词考虑成决定性指标,才能更好地理解全文;但是如果在理解Twitter上的推文时,你让语义分析模型将“市值”理解成决定性指标,通常是没有什么意义的。

我们的目标就是要提供一系列预先训练模式,去解决这一问题,让语义分析模型适应不同的语言和风格。我们也有一些令人非常兴奋的想法,尽可能轻松地帮助每个用户训练属于自己的自定义模型。我们认为,在自然语言处理中,算法总是冲在最前面,而数据往往滞后。我们希望解决这个问题。

via spaCy

相关推荐
热点推荐
贾跃亭再次回应周鸿祎:已偿还了100多亿美元债务,造车成功并还债之日,就是回国之时

贾跃亭再次回应周鸿祎:已偿还了100多亿美元债务,造车成功并还债之日,就是回国之时

每日经济新闻
2024-04-25 17:12:09
北京多家酒店全面取消“强制刷脸”

北京多家酒店全面取消“强制刷脸”

财联社
2024-04-25 16:52:12
集团副总裁以上高管,请退还前3年所有奖金

集团副总裁以上高管,请退还前3年所有奖金

资本百科
2024-04-25 16:54:09
发生泄密了吗?神舟十八号4月25日发射升空,外网为何却抢先知道

发生泄密了吗?神舟十八号4月25日发射升空,外网为何却抢先知道

星球上的科学
2024-04-24 22:05:50
五一将至,这些高颜值、天价“智商果”又出来骗人了

五一将至,这些高颜值、天价“智商果”又出来骗人了

火锅局
2024-04-25 09:53:27
爱情公寓秦羽墨扮演者新开美甲店被吐槽技术不好,店员回应

爱情公寓秦羽墨扮演者新开美甲店被吐槽技术不好,店员回应

金羊网
2024-04-25 15:23:17
大搞权色、钱色交易的“老虎”,在市委书记、副省长等岗位上敛财超千万

大搞权色、钱色交易的“老虎”,在市委书记、副省长等岗位上敛财超千万

政知新媒体
2024-04-25 18:02:29
工商银行突然设立人民武装部,释放了什么信号?逻辑是什么?

工商银行突然设立人民武装部,释放了什么信号?逻辑是什么?

云姐闲聊
2024-04-24 17:15:35
俄国防部副部长被抓,他是绍伊古的“老搭档”

俄国防部副部长被抓,他是绍伊古的“老搭档”

中国新闻周刊
2024-04-25 18:19:22
全面崩盘!10年经济成果面临洗劫,像极了1998亚洲金融危机

全面崩盘!10年经济成果面临洗劫,像极了1998亚洲金融危机

云姐闲聊
2024-04-25 07:58:00
爱德华兹转发了自己单挑KD成功后舔唇的世界名画:

爱德华兹转发了自己单挑KD成功后舔唇的世界名画:

直播吧
2024-04-25 14:40:16
杭州26岁妻子失踪后续:人已找到,两个人爬了一个晚上,太累了

杭州26岁妻子失踪后续:人已找到,两个人爬了一个晚上,太累了

户外小阿隋
2024-04-25 10:23:20
男子报警称妻子与异性爬山迷路,评论区亮了

男子报警称妻子与异性爬山迷路,评论区亮了

金陵隐士
2024-04-25 16:49:19
谈判再次破裂?我国或将关闭大使馆?外交部提醒:中方公民勿前往

谈判再次破裂?我国或将关闭大使馆?外交部提醒:中方公民勿前往

星辰故事屋
2024-04-22 18:16:54
杭州一男子称妻子与异性朋友登山迷路失联,最新进展:已找到

杭州一男子称妻子与异性朋友登山迷路失联,最新进展:已找到

潇湘晨报
2024-04-25 11:07:10
102岁杨振宁庆祝“瓷婚”,翁帆母亲罕露面!墙上百万名画很抢眼

102岁杨振宁庆祝“瓷婚”,翁帆母亲罕露面!墙上百万名画很抢眼

娱乐团长
2024-04-18 21:00:03
三个反美的国家,紧紧地抱在了一起!

三个反美的国家,紧紧地抱在了一起!

3号视频
2024-04-24 14:33:16
美国“学运”爆发,学生举A4白纸支持巴勒斯坦,防暴警察下场镇压

美国“学运”爆发,学生举A4白纸支持巴勒斯坦,防暴警察下场镇压

不掉线电波
2024-04-25 17:24:17
1951年,一特务被捕后语出惊人:害死杨靖宇的叛徒,还在北京当官

1951年,一特务被捕后语出惊人:害死杨靖宇的叛徒,还在北京当官

我是斌哥哥
2024-03-04 18:51:19
缘分呐!亚冠决赛双方主帅正是04-05赛季欧冠决赛首发前锋

缘分呐!亚冠决赛双方主帅正是04-05赛季欧冠决赛首发前锋

直播吧
2024-04-25 15:55:11
2024-04-25 19:24:49

头条要闻

俄副防长被抓:进国防部3年升副部长 系绍伊古"老搭档"

头条要闻

俄副防长被抓:进国防部3年升副部长 系绍伊古"老搭档"

体育要闻

当胜利变成意外,就不要再提未来……

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

曙光已现?瑞银开始转而看好中国地产业

科技要闻

北京车展,被穿红衣服的他们占领

汽车要闻

全新哈弗H9亮相 大号方盒子硬派SUV入列

态度原创

艺术
本地
时尚
游戏
家居

艺术要闻

艺术名画︱爱尔兰画家大卫·科因的刀画作品

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

我该怎么办?总是觉得渣男很有魅力!

《庄园领主》IGN7分:或能复制《博德3》的成功之路

家居要闻

光影之间 空间暖意打造生活律动

无障碍浏览 进入关怀版
×