网络安全检测|网络安全服务|网络安全扫描-香港墨客投资移动版

主页 > 业界资讯 > ddos防御

想形容那个啥特别那什么,怎么个词来着?点进

“怎么形容春天的生机让人觉得很开心?”

“如何形容消失在人海之中?”

“如何描述夏日暴雨?”

在豆瓣文字失语者互助联盟,超过 30 万人在给自己的语言能力“举哑铃”。越来越多的人患上了这种时代病——不知如何将感受化为文字,或话到嘴边却发现词不达意、言不由衷。在厌倦了网络用语复读机似的轰炸之后,我们如何找回正常的语言表达?

机器有答案。

输入你想要表达的意思,就能获得对应的词语,名为 WantWords(曾叫做“万词王”)的“反向词典”工具拯救了失语的人们。输入“平静中有一点点开心的状态”,就会给出“怡然自得”、“恬然自足”、“泰然”这样的结果,也会让人偶遇一些生僻词汇,像是“塌心”、“姁”、“松范”、“逸豫”,也都表示心情安定愉悦。

系统每次都会给出 100 个词语,背景色由深至浅,代表系统心目中这个词的接近程度。但通常,在前十个词里你就能找到自己想要的那一个(正式研究中,前十个词的命中率是75%)。每天,有两万多用户用它处理失语和词穷的困扰。

图片来源:影视截图

它怎么能“猜”得这么准?

以下为这个反向词典系统开发者的讲解(岂凡超,清华大学计算机系博士生,主要研究人工智能和自然语言处理):

WantWords 的运作原理跟人类的思维模式有些相像。

当人类根据一个描述去猜词的时候,脑子里会经历一个怎样的过程呢?我们常常也不是一下就知道答案的,而是从多个方面,先去做推测。

比如,“ road where cars go very fast ”,车在上面走得很快的路。

乍一看,你可能不知道具体对应的是哪个词,但肯定知道这指向一个名词。英文语境下,你会猜它大概包含 way 这个词素;中文的话,你会猜,这个词很可能包含“路”、“道”等字。

这些信息拼贴在一起,就可以帮助你推断出,它可能是“expressway”、“快速路”、“高速公路”这样的词。

当你在 WantWords 中输入一句话时,我们的模型也会经历一个这样的过程,先分析这句话都体现出词语的哪些特征:是形容词、名词、动词还是副词?它里面有哪些词素?再去找拥有对应特征的词。

expressway 能分离出“快”和“路”两个词素丨受访者供图

看起来,好像只是给输入和输出加了几道筛选条件,但却很有效地弥补了传统反向词典的一些不足。

和人一样,机器也拼阅读量

在此之前,英文世界已经存在多部反向词典。

它们背后的技术,是人工智能领域最主要的分支之一——自然语言处理(Natural Language Processing,NLP),一项旨在让机器理解和说出人类语言的技术。

图灵奖得主, AI 三巨头之一的 Yoshua Bengio(约书亚·本吉奥)曾表示:能否将反向词典任务做好是衡量 NLP 模型学习能力的一个重要的指标。

因为人类的语言表述是多样且复杂的。如今,机器已经能在特定任务上做得很好,比如客服、问答,但如果你只是随便跟它说点什么,它可能就不太理解。

而反向词典本质上就是通过随机的一句话,找到语义相近的一个词。显得机器很懂你。

2000 年,Bengio 提出了“词嵌入”(word embedding)技术,将人类语言转化为机器能够理解的“语言”,也就是数字(词向量)。2013 年, Google 发明的一套工具大幅提高了这个过程的效率。

“词嵌入”为代表的一系列向量表示学习技术赋予了语义的可计算性。根据运算结果,就可以判断两个向量背后的语言单元在语义上的相似性——不出意外的话,离得越近越相似,离得越远越无关。

词向量示意图(意思相近的词语聚在一起)丨受访者供图

本质上,机器并不理解,它只是越来越精确地识别词语之间的相对位置。

就像我们有的时候看书,或者学习一门外语。手边没有词典,不让你查不认识的词是什么意思,但当看到一个词经常出现在特定的上下文之中,久而久之,很多人也能理解它的意思。

我们也会塞给机器大量的文本,随着“语料”喂得越来越多,机器就开始明白:为什么这几个词会连在一起?为什么这个词后面经常出现那个词?

这都是有一些潜在规律的,这就是它的特征。

机器从大量文本中学习丨unsplash

现在这样的语料库很多,最大的包含上百亿个词语。拿着训练好的词向量,去做词语之间相似度的关联是很简单的。

这也是我们实验室在做的事情,训练词向量,拿它们去做应用。但在这个过程中,我们发现了一个问题:对于一些词,机器总是“学”得不太好。

比如低频词,它们在文本中出现的次数很少。出现次数少,对模型来说,就很难准确地学到它的意思。

还有就是一些相关词,可能会有很相近的词向量,因此被机器误判为同义词。

比如“汽车”跟“轮胎”或者“马路”。它们肯定不是一个意思,但因为平时在文本中经常会一块儿出现,这就会让模型误以为,它们是差不多的。

(责任编辑:admin)