网络安全检测|网络安全服务|网络安全扫描-香港墨客投资移动版

主页 > 业界资讯 > ddos防御

想形容那个啥特别那什么,怎么个词来着?点进(2)

问题还会出现在反义词身上。“我很‘喜欢’这个苹果”,“我很‘讨厌’这个苹果”。你会发现,上下文完全一样啊,那模型就会误以为“喜欢”和“讨厌”是一个意思。

为解决这些问题,就要去借助语料之外的东西了。

以人类的知识约束机器

于是我们就想到,可以人为地加上几层筛选条件,让机器更容易找到那个“正确的”词。

除了词性、词素这两个词语本身具有的特征,我们还加入了两个人为规定的外部特征。

一个叫“层次体系”。这个系统会区分一个词是实体还是概念,实体下面又会分出各种各样的实体。

英语词语的层次体系实例丨受访者供图

另一个叫做“义原”。在语言学里,它被定义为语义的最小单位。词是语言学中最小的单位,但从语义上还可以再去拆分。比如“男孩”这个词,它的意思可以被分成“人类”、“男性”、“儿童”。

义原能帮助机器更灵活地表达和理解一个词的意思。像“ expressway ”这个词,它其实有个义原,就是“道路”,还有一个义原是“快”。这两个义原都能在原本的那一句话描述中找到相应的词语。

这四个特征相当于在原本的结果上,又加了很多筛选条件。

回到之前那个例子,“汽车”和“马路”的词向量有点近,因为它们经常同时出现。但这两个词,类别也不一样,义原也不一样,机器就还是能明白:它们是两个不一样的词。

词语的义原标注示意图丨受访者供图

词语的义原信息来自于义原知识库。因为义原并非显式存在,只能由人来定义,有哪些义原,以及一个词应该被标有哪些义原 —— 所以这个过程有点像编词典。

我们使用的 HowNet 义原知识库从上世纪 90 年代就开始构建,“编词典的人”是董振东和董强先生父子。他们在上面投入了十几年的时间,2000 年代初完成第一版并发布,后续不断更新和扩充。

如今,HowNet 已经是一个非常有特色的知识库,也成为中国给世界自然语言处理领域的重要贡献。

OpenHowNet Logo丨受访者供图

2019 年,董振东先生过世,我们实验室主要是我把 HowNet 知识库的构建和维护接了过来,将其开源并重命名为 OpenHowNet。我的主要研究方向之一就是基于 HowNet 去做各种各样的自然语言处理应用。比如,它目前只有中文和英文,我们正尝试将其扩充到两百多种语言。

我的博士论文也与此相关:如何将义原代表的人类知识,与现在深度学习这种纯数据驱动的模型结合起来,来让计算机更能理解人类语言。

义原的应用也为这个时代热议的“人工智能偏见”提供了一种解决思路。

我们当然可以单纯用语料,喂出一个很懂概率,且越来越准确的模型,但数据中那些固有的偏颇是无法通过数据量的堆积而消除的。这种偏颇不是机器的问题,它只是对投喂信息的反馈——当这些信息自带偏见时,机器输出的结果必然也是有偏见的。

当我们用人类的知识给机器加上一层约束,机器就能变好一些。

但人们最喜欢的

仍是同义词替换功能

WantWords 反向词典的第一版产品最早在 2019 年就做出来了,主要由我和实验室的另一名同学张磊合作完成。

在我们思考义原知识库的应用时,发现了这种可能,就去做了探索。这时看到国外有 OneLook (英文反向词典)这样的产品,而国内并没有,就想着可以在研究的基础上做一个演示系统。

(责任编辑:admin)