代码编织梦想

 

意义到文本的生成

1 国际研究现状

不同于文本到文本的生成,意义到文本的生成这一任务的输入在学界并没有达成一致,其根本在于不论是哲学家还是语言学家对何为自然语言的语义都未能形成较为一致的定义。

在计算语言学领域,研究人员普遍遵循的语义研究原则建立在“真值条件(Truth Condition)” 的基础上,认为寻找到了能够使自然语言语句成真的条件,即是在某种程度上刻画了自然语言的语义。在真值条件假设基础上,学者普遍采用逻辑的方法来对语义进行表征,并分别从模型论(Model Theory)和证明论(Proof Theory)两个角度来展开研究,很多学者也常常称这类型的语义为逻辑语义。目前已有的意义到文本的生成研究,普遍假设使用逻辑语义表征——以逻辑表达式为代表——作为输入,而以自然语言语句作为输出,本文也围绕这些研究展开介绍。图 3.1 给出了一个基于类型 λ 演算进行语义表征的实例,在该例子中,问题的输入是一个 λ 表达式,而输出是一个英语句子。

      意义到文本的生成和组合语义分析(Compositional Semantic Parsing)密切相关,语义分析旨在对线性的词序列进行自动句法语义解析并得到其真值条件。因为在分析过程中遵循了弗雷格所提之组合原则(Principle of Compositionality),因而称为组合语义分析,以与分布式语义(Distributional Semantics)相区别。组合语义分析是自然语言处理的一项核心技术,是迈向深度语义理解的一座重要桥梁,在多个自然语言处理核心任务中有着潜在应用,如智能问答、机器翻译等。从问题自身的定义来看,意义到文本的生成与组合语义分析是一对互逆的自然语言处理任务。在当前的国际研究中,仅专注于意义到文本的生成这一任务的学者并不多,部分以句法语义分析研究为主的学者会兼顾这方面的研究。

1.1 基于深层语法的文本生成

       在早期的自然语言处理研究中,计算语言学发挥了很大的作用,计算语言学家从形式化、可计算的角度对自然语言进行建模,提出一系列的旨在解释语言运作机理的句法语义模型,并根据这些模型构建自然语言处理系统。相关研究在上个世纪八九十年代取得了丰硕的研究成果,一系列兼具语言本体解释力和可计算性的语法范式(Grammar Formalism)被提出,如组合范畴语法(Combinatory Categorial Grammar;简称 CCG)[59]和中心语驱动的短语结构语法(Head-driven Phrase-Structure Grammar;简称 HPSG)[60]等。不同于目前句法分析所主要使用的上下文无关文法(Context-Free Grammar;简称 CFG),上述语法范式具有超越上下文无关的表达能力,其语法推导过程往往更复杂,蕴含更多的信息,而这些信息可以用来做更透明的语义分析,简单而言,这些深层语法范式能够更好地支持句法语义同步的语言分析。在深层语法的支撑下,通过句法语义的协同推导可以获取自然语言的组合语义;而当以语义表征作为输入,通过其逆过程可以完成意义到文本的生成。

        Shieber [61]提出了一个统一的框架用于进行句法语义分析与生成。在这一框架中,Shieber 将语言处理统一理解为逻辑推演(Deduction)过程,其差别在于推演的始点——公理——与推演的终点——目标——不同。在这一视角下,传统的句法分析(Parsing)技术可以移植到文本生成上来,如线图分析法(Chart Parsing)技术可以转化为线图生成(Chart Generation)技术[62]。Shieber 后续又同其他学者合作,将推演的思想细化,利用合一语法来表达句法语义接口(Syntax-Semantics Interface),提出了语义中心驱动的生成[63]。

       深层语法复杂度较高,如何构造对错综复杂的语言现象具有高覆盖度(Broad Coverage)的语法规则本身是一个极大的难题。以上研究主要是对原型算法进行讨论,而因为真实可用的大型深层语法当时没有得到很好的开发,以上研究并没有呈现极具代表性意义的经验结果。经过十余年的漫长开发,研究人员在 HPSG 理论的基础上开发了英语资源语法(English Resource Grammar;简称 ERG)[10] [64],它是一个比较成功的具有较高覆盖率的深层语法规则系统,而围绕的 ERG 所展开的文本生成研究也取得了有益的进展。Carroll 和 Oepen [65]基于ERG 和真实测试数据重新讨论了基于线图的生成技术,给出了极具参考意义的经验评估;另外,他们也提出了两项新的技术来改进基于合一语法的可行解紧致表示(Compact Representation)及其相关解码算法——Selective Unpacking,尤其后者,有效地利用了判别式学习模型来改进文本生成过程中所遇到的歧义消解。

       组合范畴语法是一个广受自然语言处理领域学者关注的语法范式,其设计遵循了类型透明(Type Transparency)的原则,具有精简的语法语义接口,常常被语义分析[66]和文本生成[67]模型所采用。White 和 Baldridge [67]讨论了如何将线图生成法与组合范畴语法结合,并开发了开源的基于组合范畴语法的句子实现(Realization)工具——OpenCCG[11]。White 又同其他学者联合提出了一些进一步改进文本生成的算法[68][69][70]。

1.2 基于同步文法的文本生成

       在过去的二十年间,统计句法分析与统计机器翻译是公认的两个取得长足进步的自然语言处理任务。除了从成熟的统计句法分析中借鉴成功经验——如判别式消歧——之外,不少学者也尝试复用成功的机器翻译模型来完成文本生成。机器翻译的目标是将某种自然语言语句翻译成另外一种自然语言的语句,并尽量保持意义不变;而文本生成则可以视为将某种形式语言语句翻译成一种自然语言语句,二者具有极强的可比性。

       Chiang [71]提出了层级基于短语的翻译模型(Hierarchical Phrase-based Model),其核心是利用同步上下文无关文法(Synchronous Contex-Free Grammar)来协同源语言语句的解析和目标语言语句的生成。目前同步文法也已经被借鉴到文本生成的研究中[72][58]。Wong 与Mooney [72]两位作者讨论了两种形式语言用于表征意义:第一种是用于指挥机器人动作的形式语言,第二种是一种无变量的数据库检索语言;而 Lu 与 Ng [58] 则针对表达能力极强的类型 λ 表达式(Typed λ-expression)展开研究。两项研究的共同点是构建形式语言的基于树的结构,在将相关结构与待生成的自然语言的树结构建立一致性对应,从而完成文本生成任务;另一个共同点则是广泛地使用了现有的机器翻译技术(包括开源软件等)来进行文法抽取、解码等。

2 国内研究现状

      国内语言学界与计算语言学界针对自然语言语义的形式化研究较少,针对汉语进行全方面组合语义刻画的研究目前尚属空白。另一方面,从事自然语言处理的研究人员也较少涉猎深层语言结构处理问题,而对意义到文本的生成研究则更是鲜有,很少能见到相关学术成果发表在重要学术会议和期刊上。

3 发展趋势与展望

       随着深层自然语言理解的发展,研究者将越来越多的目光投向了意义到文本的生成这一自然语言生成核心任务上。意义到文本的生成这一任务随着意义表征体系的不同问题的复杂度也会随之变化,传统的基于深层语法分析的生成方法面临的解码效率差、语法鲁棒性不够等问题仍需要更好的技术解决方案。近些年来,有零星的一些工作尝试将较为成熟的组合优化技术应用到在句法分析和机器翻译,如拉格朗日松弛[73][74],尝试去求解一些所涉及到的NP 难问题。应对意义到文本的生成这一复杂度高的问题,我们也可以尝试应用相关技术。而针对深层语法鲁棒性不够的问题,基于数据驱动的语法近似(Grammar Approximation)[75] 取得了不错的结果,结果显示低阶语法近似能够有效改进深层语法分析的鲁棒性,如何应用相关思想来解决文本生成中所遇到的问题也是一个非常值得研究的方向。

       而就针对汉语的文本生成研究来说,需要国内外学界做出更大的努力。首先,在语言本体分析方面,需要学者们建立相关的语义表征体系及针对汉语的特殊语言现象的分析,以支持汉语的深层处理。其次,在文本生成算法方面,也需要我们投入更多的科研精力设计适合汉语自动生成的模型算法等。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/jinhao_2008/article/details/115947911

文本自动生成研究进展与趋势_zhangzeyuaaa的博客-爱代码爱编程

摘要 我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文 本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可包括文本 到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等。上述每项 技术均极具挑战性,在自然语言处理与人工智能领域均有相当多的前沿研究,近几年业界也 产生了若干

自动问答研究进展、现状及趋势_老辣椒的博客-爱代码爱编程

(摘自《中文信息处理发展报告(2016)》) 1. 任务定义、目标和研究意义 自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞

如何使用 rnn 模型实现文本自动生成_csdn_csdn__ai的博客-爱代码爱编程

在自然语言处理中,另外一个重要的应用领域,就是文本的自动撰写。关键词、关键短语、自动摘要提取都属于这个领域中的一种应用。不过这些应用,都是由多到少的生成。这里我们介绍其另外一种应用:由少到多的生成,包括句子的复写,由关键词、

【转载】文本自动生成研究进展与趋势_lsyou_2000的博客-爱代码爱编程

CCF 中文信息技术专业委员会 万小军 冯岩松 孙薇薇 北京大学计算机科学技术研究所,北京 摘要 我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文 本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可包括文本 到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等。上述每项 技术均

(2017转)文本自动生成研究进展与趋势_lijuce的博客-爱代码爱编程

NLP文本生成调研过程找到的综述性文章,由于找不到出处,只能将已有CSDN文章转过来了。由于其它两篇CSDN中转的这篇文章要么不显示图片,要么没有参考文献,特此将此二者结合起来,方便阅览。由于图片找不到出处,因此没有去

《生成式对抗网络GAN的研究进展与展望》论文笔记-爱代码爱编程

本文主要是对论文:王坤峰, 苟超, 段艳杰, 林懿伦, 郑心湖, 王飞跃. 生成式对抗网络GAN的研究进展与展望. 自动化学报, 2017, 43(3): 321-332. 进行总结。 相关博客地址:生成式对抗网络GAN的研究进展与展望,http://blog.sciencenet.cn/blog-2374-1040501.html 读后总结:该

python下mxnet 编译安装遇到问题汇总(一)-爱代码爱编程

首先说一下为什么编译安装 通过pip install  mxnet 安装遇到 Illegal instruction (core dumped) 已经过一番查找,原来是因为服务器cpu 指令集sse 不支持,mxnet pip安装支持编码集是avx, 查看命令:cat /proc/cpuinfoflags        : fpu de pse ts

场景文本检测与识别:最新进展及未来趋势-爱代码爱编程

Scene text detection and recognition: recent advances and future trends 文章目录 摘要1、介绍2.场景文本检测与识别的最新进展2.1 场景文本检测相关工作2.2 场景文本识别相关工作2.3 端到端文本识别相关工作2.4 场景文本检测与识别的相关应用及产品3 基准数据集和评

文本自动生成研究进展与趋势之图像到文本的生成-爱代码爱编程

图像到文本的生成 1 国际研究现状         图像到文本的生成技术是指根据给定的图像生成描述该图像内容的自然语言文本,例如新闻图像附带的标题、医学图像附属的说明、儿童教育中常见的看图说话、以及用户在微博等互联网应用中上传图片时提供的说明文字。依据所生成自然语言文本的详细程度及长度的不同,这项任务又可以分为图像标题自动生成和图像说明自动生成。前者需

文本自动生成研究进展与趋势之总结与展望-爱代码爱编程

总结与展望       文本自动生成研究进展与趋势 系列也到尾声,最后对文本自动生成研究进展与趋势进行总结和展望        本文对文本自动生成技术进行了全面的介绍,包括文本到文本的生成、意义到文本的生成、数据到文本的生成、图像到文本的生成等。由于上述每项技术均有众多的研究者在研究,相关的学术成果也层出不穷,因此本文的总结难免有遗漏之处。希望本文的内

文本生成 计算机语言,文本自动生成研究进展及趋势.PDF-爱代码爱编程

文本自动生成研究进展与趋势 CCF 中文信息技术专业委员会 万小军 冯岩松 孙薇薇 北京大学计算机科学技术研究所,北京 摘要 我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文 本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可包括文本 到文本的生成、意义到文本的生成、数据到文本的生成以

基于预训练语言模型的文本生成研究综述-爱代码爱编程

每天给你送来NLP技术干货! © 作者|李军毅 机构|中国人民大学高瓴人工智能学院 研究方向|文本生成与预训练语言模型 来自 | BUC AI Box 本文介绍的是一篇有基于预训练语言模型的文本生成研究综述。文章下方评论留言,交流探讨! 导读:本文将参考上述综述论文,从预训练语言模型应用于文本生成任务的三个挑战出发: 如何对输入数据