EMNLP2017罗彻斯特理工学院一个用于语言概念案例研究学习的分析和可视化工具

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第75篇论文



EMNLP 2017 System Demonstrations

一个用于语言概念案例研究学习的分析和可视化工具

An Analysis and Visualization Tool for Case Study Learning of Linguistic Concepts

罗彻斯特理工学院

Rochester Institute ofTechnology


【摘要】我们提供了一种将计算语言学资源整合到非技术性的本科语言科学课程中的教育工具。我们致力于通过将该工具与证据驱动的教学案例研究结合起来,为学生提供切实可行的方法,使他们能够有机会理解语言概念,并从现实问题的角度进行分析。案例研究通常应用于法律、商业和健康教育环境,在语言学的教学和学习上却较少。本文引入的方法也有助于鼓励不同训练背景的学生继续进行计算语言分析课程。

1 引言


计算语言学社区提供了可用的软件资源,用于对语言输入进行结构和意义相关的语言分析。虽然这些工具和模型在研究环境中被广泛使用,并且在计算语言学教学中早已被使用(Meurerset al., 2002; Baldridge and Erk, 2008),但他们也有能力在语言学上提高非计算性的教学方法。


我们提出了一种教育创新,其旨在提供学生在本科语言科学课案例主动学习的机会,使他们能够积极面对在课本和和课堂讨论(或作为补充材料刺激学习)中遇到的语言概念和方法,在实践中强调学习和实践语言科学的应用性质。计算语言学软件资源倾向于为精通技术的用户设计,并期望在计算、计算语言学、课程或类似的环境中获得知识。他们经常需要了解有关计算机编程和计算语言学原理和方法的技术细节。虽然有网络语言语料库资源,潜在用户的交互往往是局限于“关键词-上下文”搜索和查找等功能相对简单的结构模式,而不是为跨专业学生提供在计算语言学发展模型之上的管理、评估和批判分析能力。

图1 Linguine基于标签的显示三个完整分析页的界面


Linguine (演示:tinyurl.com/ritlinguine)是一个基于web的工具,具有一个友好接口(图1),适合于语言科学课程的教学使用(github.com/ritlinguine)。它在开放领域利用自然语言处理,为用户提供研究一系列的语言结构和在书面语言输入语义模式的能力。


语言学Linguine的动机包括:(1)在本科语言学课程中,使得非计算专业的学生易于使用计算驱动的语言分析;(2)为语言信息分析提供实用的、格式化的机会;(3)引导学生进行用户友好的分析,并直观地展示自动处理的结果,使他们更容易解释。因此,语言学与诸如CLARINO语言分析门户(Lapponiet al .,2013)这样的资源在教学目的和可视化分析配对上形成对比。Linguine还能提供更广泛的语言分析功能。


这项工作的主要创新是将这个工具的应用配对,以案例研究作为语言科学的主动学习工具。案例研究任务的学生寻求面向真实现实世界的语言学问题,以证据为基础的解决方案和建议。他们还致力于培养学生在口头和书面交流方面的分析、建议和评论。虽然案例研究法是商业和法律等领域公认的学习工具,但在语言学课程中广泛应用却并不常见。这种方法与传统语言学概念讲授和分析的标准方法不同。语言学的功能和可视化支持促进了情境问题的解决和能采用案例分析的亲自实践的批判性思维。采用案例研究法,进一步寻求培养学生运用语言以解决社会上存在问题的经验。学生们也可以提高他们对语言技术的局限性和潜在效用的理解。


本文主要介绍了Linguine及其是如何在语言科学中使用案例研究教学法的。我们报告学生调查和老师观察,以提供对与Linguine系统有关的案例研究模型的效用的见解。

2 用Linguine学习语言学

Linguine是一个为教育目的而设计的web应用程序。它提供了一个易于使用的界面,允许与预加载的默认或自定义上传的纯文本进行交互,以执行基于语言的分析。图1显示了选择结果分析的界面。对于分析功能,Linguine继承了执行自然语言处理的大量可用资源,包括NLTK(Birdet al., 2009),斯坦福CoreNLP(Manninget al., 2014),和SPLAT【http://splat-library.org】,以及web技术NodeJS【https://nodejs.org/en/about/https://nodejs.org/en/about/】和d3【https://d3js.org/】。将Linguine分开的一些方面是它专注于使课堂活动和主动学习,以及它将机器处理结果转换成直观的可视化的能力。可视化依赖于所执行的分析,包括句法树的逐句显示、数据汇总表、显示顺序注释的工具提示和文本中的彩色标记。用户可以在工具内的结构化表示中检查结果。结果也可以以JSON格式下载,以供用户在必要的背景下进行离线分析。

图2 Linguine框架概述。虚线表示文本上传。实线表示分析生成。NodeJS将用户的分析请求转发给Python,它在数据库中定位文本,通过分析执行预处理,并将处理过的文本发送到适当的框架进行分析。生成的分析存储在以后使用。NodeJS生成适当的可视化。


图2显示了通用Linguine组件之间的数据流。该架构由一个Python服务器组成,该服务器与NodeJS服务器和MongoDB(https://www.mongodb.com/)数据库进行交互。这些组件作为RHEL7虚拟机的系统服务运行。Python服务器接收来自NodeJS服务器的分析请求。它从数据库中获取相关文本并执行预处理操作。预处理的文本被传递到队列进行分析。分析是用预期的资源并行进行的。分析时间取决于文本的大小和分析的类型。目前,Linguine是一个以英语为中心的环境,目的是在英语系的计算语言学家提供的语言科学课程。然而,它的框架支持为基于文本的分析提供额外的资源。例如,对其他语言培训的模型,或者可能是其他形式的非结构化数据,可以与调整可视化相结合。


SPLAT库计算了ngrams、部分语音标签、音节和消音的统计数据。SPLAT还计算了语言的复杂性度量,包括内容和思想密度、Flesch可读性、Flesch- kincaid等级和类型标记比。图3、图4(左)和6(右)显示了Linguine用SPLAT功能制作的可视化图形。使用斯坦福CoreNLP的输出,Linguine结合了需要复杂建模的分析选项,包括带有情绪标签的语法树(图5)和命名实体识别(图6,左)。分析被保存到数据库中,允许用户返回可视化,而不必重新处理他们的分析。


图3 可视化:Isaw her walking her dog on Monday. POS(左);代词词频(右)


图4 对于阿瑟柯南道尔的节选的复杂度量(左)和术语平率(右)


图5 “Thisis the best news I’ve heard all year!”的带有情绪标签的语法树


集成的技术需要管理Python和其他子系统之间的异步通信。Linguine内的数据传输是由龙卷风Tornado【http://www.tornadoweb.org/en/stable/】,一个用HTTP请求传输信息的Python框架。目前,该工具被设想用于25人的课堂。对不同用户群体的资源利用率的详细分析,将在以后开展。


图6 可视化命名实体识别(左边)和语音转录中的连贯(右)


3 案例分析

到目前为止,我们已经为两门课程开发了三种案例研究:一门语言科学基础课程和一门英语语言历史课程。结合案例研究与Linguine的功能,为学生提供了虚拟现实的场景,以解决使用语言数据的主动查询。每个案例研究包括一组设计元素,遵循使任务清晰有效的设计和原型的模板:


  • 案例描述包含一个设置问题的叙述,以及提供在Linguine收集证据时执行基于语言的分析所需数据的背景。这包括循序渐进的分析指令和问题回答,以及提供工作的指导方针,准备书面报告,以及完成一个评估规则和一个测试。


  • 选择和准备课外和课内分析的数据。


  • 两个阅读,学生可以咨询关于案例推理:一个应用,广大观众阅读对学术阅读。


案例研究扩展了一个开发和教学指南,概述了文本选择的动机,详细的文本预处理,并包括了他们的问题的预期答案。最初的案例研究是:


  • 痴呆症的语言:学生分析了DementiaBank语料库(Beckeret al .,1994)的一组图片描述,目的是帮助一名医学研究员识别阿尔茨海默氏症Alzheimer’sdisease的语言标记。阅读材料包括Szatloczki et al.(2015);Goldstein et al.(2010)。


  • 英语的历史变种:学生在各个时间段检查文学的摘录,帮助学校老师为他们的课程选择合适的阅读材料。阅读资料包括,例如,Perera(1980)。


  • 商务交流礼仪:作为培训机构的分析师,学生使用电子邮件数据(Klimtand Yang, 2004; Pavlick and Tetreault, 2016)来批判性地设想职场沟通的指导方针。阅读材料包括Pavlick和Tetreault(2016);Lebowitz(2015)。


4 案例分析探索结果

在语言学入门课程中,学生先在指定的团队中用Linguine学习痴呆症语言,然后在几周后进行学习商务交流礼仪。在这两种情况下,学生都使用了Linguine,并与提供的课内外数据进行接洽。学生小组在简短的演讲和个案讨论报告中对同学们进行口头报告。英语历史课的第三个案例是由更少的学生单独完成的(本文的一个合作者曾担任课程讲师)。学生被要求完成案例组成部分,然后回答一个匿名的案例满意度调查(表1- 2)。这提供了一个自我报告学习经验的机会。

表1 满意度协议声明


表2 源自满意度调查的开放式反馈


教师对课堂互动的观察表明,出现了一些教学效益。首先,学生在课堂上对分析、数据和方法进行批判性思考。其次,报告锻炼培养了共同学习,学生可以观察其他人如何处理问题,并选择可视化、总结和呈现结果。第三,案例方法为团队合作提供了一个结构化的框架。


图7显示,大多数学生对该活动的评价都是积极的,认为这是一种吸引人、有教育意义、有趣的体验,并激发了批判性思考和学习(Q1、Q5、Q9、Q14、Q15)。学生们报告说,活动和工具是明确而直接的(Q2,Q11,Q12)。最重要的是,大多数学生都觉得这段经历与课堂材料有关联,并练习了课堂材料,增强了他们对语言学的理解,并使他们致力于问题解决(Q3,Q6,Q7,Q8)。

图7 一个课堂上两个案例的回复百分比(N=14vs 11)。顶部:对案例研究活动1和2的反馈表明,用户对表1中大部分声明都是一致的。底部:对工具的反馈和它的输入表明积极的用户体验,并且随着工具熟悉程度的增加而增加。


学生也有机会对他们的经历提供定性反馈,如表2所示(第6页)。近一半的学生报告说他们特别喜欢学习语言学的实际应用。他们认识到课堂上所见的概念与案例研究之间的联系。学生们在第二个案例研究(从电子邮件数据)中发现了特别有趣的文本,与第一个案例研究相比,他们很欣赏这种案例研究的开放性。


负面评论集中在三个问题上:(1)为分析提供的有限的数据量;(2)Linguine的约束(例如,允许下载结果为JSON,而不是csv);(3)在第一个案例研究中,少数学生发现重复性的报告经验。这一反馈对于继续加强Linguine和基于案例的教学材料很有价值。


5 结论


我们在课程中使用这个工具介绍了教学web应用程序的语言和案例研究的集成。我们将继续探索该制度及其教育使用和效率。未来的工作是为新的案例研究研发一个系统化的过程。规划的系统和材料的扩张包括增加对处理意义的关注,并扩大对转录语言的分析潜力,以便在语言科学案例研究中进一步加强分析口语和书面语言数据的教学衔接。


论文下载链接:

http://www.aclweb.org/anthology/D/D17/D17-2003.pdf

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


推荐文章阅读

10篇AAAI2017经典论文回顾

收藏 | 2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里


长按识别二维码可添加关注

读芯君爱你


Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to copyright@dreamgo.com. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to info@dreamgo.com.
版权声明:以上内容为用户推荐收藏至Dreamgo网站,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知copyright@dreamgo.com进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系info@dreamgo.com