ACL2018乔治城大学英语介词和所有格综合超义消歧
你和“懂AI”之间,只差了一篇论文
很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。
为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。
同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。
读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。
这是读芯术解读的第95篇论文
ACL 2018 Long Papers
英语介词和所有格综合超义消歧
Comprehensive Supersense Disambiguation of English Prepositions and Possessives
乔治城大学
Georgetown University
本文是乔治城大学发表于 ACL 2018 的工作,本文为英语中介词和所有格的歧义消除提出了一种新的标注方案、语料库。不同于以前的方法,本文的标注方案对这些token的类型标记得非常全面;使用广泛适用的超义类而不是细粒度字典定义;在同一类目录下统一介词和所有格;并区分标记的词汇贡献及其在谓语或上下文语境中的作用。较高的语料标注一致率和成熟的监督消歧方法,都说明了本方案的可行性。
1 引言
语法可以比喻为一个共享工具箱,辅助语言使用者构建和解构一些有意义且流畅的话语。英语具有高度的可分析性,主要依赖于词序和虚词,如介词、限定词和连词。虽然虚词很少包含语义内容,但它们对语义表达却至关重要。例如介词:用来传达地点和时间(We met at/in/outside the restaurant for/after an hour),表达诸如数量、所属、部分/整体和成员关系(the coats of dozens of children in the class),在论元结构中表示语义角色(Grandma cooked dinner for the children vs. Grandma cooked the children for dinner)。像for这样出现率较高的介词,多义性很强,它们的解释主要取决于介词作用的对象——I rode the bus for 5 dollars/minutes——以及介词短语(PP)的主导者:I Ubered/asked for $5.。所属关系也同样模糊不清:Whistler’s mother/painting/hat/death。语义解释需要一定形式的语义消歧,但要达到一种足够灵活、以达到跨用法和类型进行概括的语言表示,同时又足够简单以支持可靠标注的形式,一直是一项艰巨的挑战。
本文在前人研究的基础上,提出了一种描述英语介词和所有格语义学的方法。鉴于介词和所有格之间的语义重叠(the hood of the car vs. the car’s hood or its hood),我们使用相同的语义标签目录。本文的贡献包括:
-
一个新的包含50个超义类的层次化目录(”SNACS”),广泛记录在英语指南中。
-
全面标注的黄金标准语料库:所有类型与介词和所有格的消歧(如下图)。
-
一项标注一致性研究表明,本方案切实可靠,且可在各风格下推广。经验证明,一个介词的词汇语义有时可以从PP的语义角色分离出来。
-
提出包含两个监督分类架构的消歧实验以确定任务的难度。
2 模型
标注机制
除了规范介词和所有格之外,还有许多在词汇和语义上重叠的封闭类项目,这些项目有时被归类为其他词类,如副词、助词和从属连词。《剑桥英语语法》主张对“介词”进行广泛的定义,包括这些其他类别。实际上,我们决定鼓励注释者关注这些功能项的语义,而不是它们的语法,所以我们采取包容性方法。
另一个考虑是开发可以适用于其他语言的标注指南。这些语言包括有后置词、介词或嵌入词而不是介词的语言;这类项目的一般术语是词缀。英语所有格标记(通过’s或所有格代词,如my)是格标记的一个例子。注意,介词(4a-4c)在词序上与所有格(4d)不同,尽管在语义上介词的宾语与所有格名词形式一起:
在跨语言交际中,词缀和格标记是密切相关的,一般说来,两种语法策略都可以表达相似的语义关系。这也进一步激发了创建一个通用的语义清单的命题和案例。涵盖多词介词(例如,Outoof,InFrimthoof),不及物小品词(He flew away)),目的不定式子句(Open the door to let in some air),介词加上子句补语(It rained before the party started),以及惯用介词短语(at_large)。本文的标注指南给出了进一步的细节描述。
SNACS层次
Adposition and Case Supersenses(SNACS),介词和所有格的超义层次结构,如图2所示。它比它的前身Schneider等人(2016)的介词超义层次结构在大小和结构复杂性上都更简单。
SNAC在4个深度级别上有50个超义,以前的层次在7个级别上有75个超义。顶级类别是相同的:
CIRCUMSTANCE:环境信息,通常是事件的非核心属性(例如位置、时间、手段、目的)
PARTICIPANT:在事件中扮演角色的实体
CONFIGURATION:事物,通常是实体或属性,涉及到与其他实体的静态关系。
解释分析法
Hwang等人已经指出将介词语义分离和概括化的危险,以便每个用法都有一个清晰的超义标签。他们指出的一个关键挑战是预设本身和动词所建立的情境可能暗示不同的标签。例如:
以上例子中场景的语义是相同的:它是雇佣关系,而PP包含雇主。SNACS为此目的具有标签ORGROLE,同时,(a)中强烈建议一种位置关系,它将对标签LOCUS作出响应。(5b) 类似于 BENEFICIARY: the employee is working on behalf of the employer。
解释分析的另一个有用的应用是动词put,它可以与任何位置PP结合来表达目的地:
解释分析的另一个有用的应用是动词put,它可以与任何位置PP结合来表达目的地:
标注评论语料
我们将SNACS标注方案应用于STREUSLE语料库中的介词和所有格,该语料库是从英语网络树库中获取的在线消费者评论的集合。来自英语Web Treebank的句子还包括英语通用依赖的主要参考树库。下表显示了当前标记的总数,总共5455个tokens被标注为场景角色和功能。
新的层次结构和标注指南是通过协商一致制定的。原始介词超义标注放在电子表格中并讨论。虽然大多数token是明确标注的,有些情况下需要对整个语料库进一步分析。例如,for的功能非常广泛,在将集群映射到层次标签之前,需要对其进行(手动)分类。在正确的超文本不清楚的情况下,指南中包含了具体的说明和实例。所有格没有被原来的介词超义注释所覆盖,因此从零开始注释。
下表显示了作为场景角色和功能发生的最常见和最不常见的标签。在标注语料库中从未出现过三个标签:TEMPORAL从CIRCUMSTANCE层次结构,PARTICIPAN和CONFIGURATION都是各自层次中最高的超文本。虽然所有剩余的超验都被证明为场景角色,但也有一些永远不会发生的功能,如ORIGINATOR,通常被实现为POSSESSOR或SOURCE,以及EXPERIENCER。有趣的是,每个环境的CIRCUMSTANCE(除了TEMPORAL)都表现为场景角色和功能,而其他两个层次的许多子类型被限定为角色或功能。这反映了我们的观点,介词主要捕获诸如空间和时间之类的间接概念,但是已经扩展到了其他语义关系。
标注一致性研究
由于在线评论语料库对我们的方案是如此重要,所以我们试图在一个新语料库上测试标注方案的可靠性。下表展示了所有标注者之间的平均标注率。在场景角色上的平均一致性为74.4%,在函数上的平均一致性为81.3%(行1)。功能时隙上的一致性高于场景角色时隙上的一致性,这意味着前者比后者更容易完成。词缀的功能更加词汇化,更少依赖于上下文,而角色依赖于上下文(场景),并且可以高度地地道化。
3 实验
我们现在介绍识别和消歧SNACS标注介词和所有格的系统。目标识别启发式首先确定哪些tokens(单词或多词)应该接收SNACS超义。监督分类器然后预测每个识别目标的超验分析。研究目的是:(a)研究统计模型学习介词和所有格的角色和功能的能力;(b)比较两种不同的建模策略(多特征和神经网络)以及句法分析的影响。
实验设置
实验使用上文提出的评论语料库,采用正式的训练/开发/测试分裂的普遍依赖(UD)项目;所有系统只对训练集进行训练,并在测试集上进行评估;开发集用于调整超参数。命名实体识别标注采用默认的12类CORNLP模型,实体识别的实验结果如下。
为了便于手动标注和自动分类,我们开发了用于识别标注目标的启发式算法,通过5种不同的启发式来过滤词缀、所有格、从属连词、副词和不定式。这些过滤器大部分是基于从STREUSLE语料库的训练部分学到的词汇列表,但是对于处理主题的不定式有一些特定的规则。消歧实验结果如下图所示。
消歧的下一步是预测标签的角色和功能标注。本文采用两种方式,一种是采用丰富的介词关系分类特征构建模型进行分类,一种是采用结合BiLSTM的MLP多层感知器。实验结果如下。
4 总结
本文介绍了一种综合分析英语介词和所有格语义的新方法,由一个完全文档化的层次结构和标注语料库支持。本文提出了良好的标注一致性方案,并提供了初始监督消歧的结果。我们期望未来工作开发扩展标注过程的方法,而不仅仅需要训练有素的专家;将这个方案应用到其他语言上;并研究我们的方案与更结构化的语义表示的关系,使模型更加健壮。我们的指南、语料库和软件见https://github.com/nert-gu/streusle/ blob/master/ACL2018.md。
论文下载链接:
http://aclweb.org/anthology/P18-1018
留言 点赞 发个朋友圈
我们一起分享AI学习与发展的干货
推荐文章阅读
EMNLP2017论文集28篇论文解读
2018年AI三大顶会中国学术成果全链接
ACL2017 论文集:34篇解读干货全在这里
10篇AAAI2017经典论文回顾
长按识别二维码可添加关注
读芯君爱你
版权声明:以上内容为用户推荐收藏至Dreamgo网站,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知copyright@dreamgo.com进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系info@dreamgo.com