代码编织梦想

文本到文本的生成现状

1、国际研究现状

       文本到文本的生成技术主要指对给定文本进行变换和处理从而获得新文本的技术,具体说来包括文本摘要(Document Summarization)、句子压缩(Sentence Compression)、句子融合 (Sentence Fusion)、文本复述(Paraphrase Generation)等。国际上对上述不同技术均进行了多年的研究,相关研究成果主要发表在自然语言处理相关学术会议与期刊上,例如 ACL、EMNLP、NAACL、COLING、AAAI、IJCAI、SIGIR、INLG、ENLG 等。国际上几个主要的研究单位包括密歇根大学、南加州大学、哥伦比亚大学、北德克萨斯大学、爱丁堡大学等。需要指出的是,机器翻译从某种程度上也可看作是一种从源语言到目标语言的文本生成技术,但由于机器翻译自身是相对独立的一个研究领域,因此本文的内容不再涵盖机器翻译技术。

1.1 文本摘要

文本摘要技术通过自动分析给定的文档或文档集,摘取其中的要点信息,最终输出一篇短小的摘要(通常包含几句话或上百字),该摘要中的句子可直接出自原文,也可重新撰写所得。摘要的目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的内容描述。

根据不同的划分标准,文档摘要可以主要分为以下几种不同类型:

根据处理的文档数量,摘要可以分为单文档摘要和多文档摘要。单文档摘要只对单篇文档生成摘要,而多文档摘要则对一个文档集生成摘要。

根据是否提供上下文环境,摘要可以分为主题或查询无关的摘要和主题或查询相关的摘要。主题或查询相关的摘要在给定的某个主题或查询下,能够诠释该主题或回答该查询;而主题或查询无关的摘要则指不给定主题和查询的情况下对文档或文档集生成的摘要。

根据摘要所采用的方法,摘要可以分为生成式和抽取式。生成式方法通常需要利用自然语言理解技术对文本进行语法、语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。而抽取式方法则相对比较简单,通常利用不同方法对文档结构单元(句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。抽取式方法应用较为广泛,通常采用的结构单元为句子。

根据摘要的应用类型,摘要可以分为标题摘要、传记摘要、电影摘要等。这些摘要通常为满足特定的应用需求,例如传记摘要的目的是为某个人生成一个概括性的描述,通常包含该人的各种属性,例如姓名、性别、地址、出生、兴趣爱好等。用户通过浏览某个人的传记摘要就能对这个人有一个总体的了解。

文档自动摘要的研究在图书馆领域和自然语言处理领域一直都很活跃,最早的应用需求来自于图书馆。图书馆需要为大量文献书籍生成摘要,而人工摘要的方式效率很低,因此亟需自动摘要方法取代人工高效地完成文献摘要任务。随着信息检索技术的发展,文档自动摘要在信息检索系统中的重要性越来越大,逐渐成为研究热点之一。文档自动摘要技术的第一篇论文来自 Luhn (1958) [[1]],经过数十年的发展,同时在 DUC1与 TAC[2]组织的自动摘要国际评测的推动下,文本摘要技术已经取得长足的进步。值得一提的是,由南加州大学 Chin-Yew Lin 博士(现就职于微软亚洲研究院)开发的摘要质量自动评估工具 ROUGE[3]的广泛使用也是自动摘要技术快速发展的一个推动力。国际上文档自动摘要方面比较著名的几个系统包括 ISI 的NeATS 系统[2],哥伦比亚大学的 NewsBlaster 系统[4] [3],密歇根大学的 NewsInEssence 系统[5] [4] 等。2013 年雅虎耗资 3000 万美元收购了一项自动新闻摘要应用 Summly,标志着新闻摘要技术走向成熟。

目前的文本摘要方法主要基于句子抽取,也就是以原文中的句子作为单位进行评估与抽取。这类方法的好处是易于实现,能保证摘要句子具有良好的可读性。该类方法主要包括两个步骤:一是对文档中的句子进行重要性计算或排序,二是选择重要的句子组合成最终摘要。第一个步骤可采用基于规则的方法,利用句子位置或所包含的线索词来判定句子的重要性;也可采用各种机器学习方法(包括深度学习方法),综合考虑句子的多种特征进行句子重要性的分类、回归或排序,例如 CRF[5], HMM[6], SVM[7][8], RNN[9]等。第二个步骤则基于上一步结果,需要考虑句子之间的相似性,避免选择重复的句子(如 MMR 算法[10]),并进一步对所选择的摘要句子进行连贯性排列(如自底向上法[11]),从而获得最终的摘要。近几年学界进一步提出了基于整数线性规划的方法[12][13][14]以及次模函数最大化的方法[15][16],可以在句子选择的过程中同时考虑句子冗余性。

不同于上述方法,压缩式文本摘要方法则考虑对句子进行压缩,以在较短长度限制下让摘要涵盖更多的内容。最有代表性的做法为同时进行句子选择与句子压缩[17][19][19],能够取得更优的 ROUGE 性能。除了压缩之外,部分工作还利用句子融合等技术来对已有句子进行变换,得到新的摘要句子[20][21]。

国际上还有部分研究者研究真正意义上的生成式摘要,也就是通过对原文档进行语义理解,将原文档表示为深层语义形式(例如深层语义图),然后分析获得摘要的深层语义表示(例如深层语义子图),最后由摘要的深层语义表示生成摘要文本。最近的一个尝试为基于抽象意义表示(Abstract Meaning Representation, AMR)进行生成式摘要[22]。这类方法所得到的摘要句子并不是基于原文句子所得,而是利用自然语言生成技术从语义表达直接生成而得。这类方法相对比较复杂,而且由于自然语言理解与自然语言生成本身都没有得到很好的解决,因此目前生成式摘要方法仍属于探索阶段,其性能还不尽如人意。

上述摘要方法均面向新闻摘要,而近年来针对学术文献的摘要越来越受到大家的重视。一方面,可以利用学术文献之间的引用关系以及引文来帮助进行学术文献摘要[23];另一方面,对学术文献进行自动综述也是一个很有意思的研究问题 [24]。更多的有关文本摘要技术的内容可参考综述[25]。

1.2 句子压缩与融合

句子压缩与句子融合技术一般用于文本摘要系统中,用于生成信息更加紧凑的摘要,获得更好的摘要效果。

句子压缩技术基于一个长句子生成一个短句子,要求该短句保留长句中的重要信息,也就是重要信息基本不损失,同时要求该短句是通顺的。下面给出一个句子压缩的例子:

原句:But they are still continuing to search the area to try and see if there were, in fact, any further shooting incidents.

压缩后的句子:They are continuing to search the area to see if there were any further incidents.

学界尝试了多种方法实现句子压缩,包括从句子中删除词语[26],或对句子中的词语进行替换、重排序或插入[27]。其中,从句子中直接删除词语的做法因其复杂程度较低而成为主流方法。研究人员提出多种方法用于实现基于词语删除的句子压缩,包括噪声信道模型[28],结构化辨别模型[29],树到树的转换[30], 整数线性规划[31],等等。但就总体效果而言,对于大部分句子所删除的词语一般较少,压缩效果体现并不明显。

句子融合技术则是合并两个或多个包含重叠内容的相关句子得到一个句子。根据目的的不同,一类句子融合只保留多个句子中的共同信息,而过滤无关的细节信息(类似于集合运算中的取交集运算),另一类句子融合则只过滤掉多个句子之间的重复内容(类似于集合运算中的取并集运算)。下面给出两个相关的句子以及人工合并后得到的句子:

句子 1:In 2003, his nomination to the U.S. Court of Appeals for the District of Columbia sailed through the Senate Judiciary Committee on a 16-3 vote.

句子 2:He was nominated to the U.S. Court of Appeals for the District of Columbia Circuit in 1992 by the first President Bush and again by the president in 2001.

合并后的句子(取交集):He was nominated to the U.S. Court of Appeals for the District of Columbia Circuit.

合并后的句子(取并集):In 2003, his nomination by the first President Bush, and again by the second Bush in 2001 to the U.S. Court of Appeals for the District of Columbia sailed through the Senate Judiciary Committee on a 16-3 vote.

针对句子融合问题,MIT 的 Regina Barzilay 和哥伦比亚大学的 Kathleen McKeown 提出一条流水线算法,包括共同信息识别(Identification of Common Information)、融合网格计算 (Fusion lattice computation)、网格线性化(Lattice linearization)三个步骤 [20]。研究人员针对句子融合问题提出的其它代表性方法包括基于结构化辨别学习的方法[32], 基于整数线性规划的方法[33], 基于图最短路径的方法[34]等。

上述研究均面向英文,少数研究者在网上公开了所使用的数据集,但这些数据集的规模相对较小,覆盖面较窄,业界也没有组织过句子压缩或融合相关的评测。近些年,与句子压缩与句子融合技术相关的学术论文比较少见,与上述因素不无关系。

1.3 文本复述

文本复述生成技术通过对给定文本进行改写,生成全新的复述文本,一般要求输出文本与输入文本在表达上有所不同,但所表达的意思基本一样。文本复述生成技术应用相当广泛,例如,在机器翻译系统中可利用文本复述技术对复杂输入文本进行简化从而方便翻译,在信息检索系统中可利用文本复述技术对用户查询进行改写,在儿童教学系统中可利用文本复述技术将难以理解的文本简化为儿童容易理解的文本。

根据实际的需求,通过复述生成技术得到的输出文本与原文本相比,可以只是一两个词发生了改变(如例 1),也可以是整段文本面目全非(如例 2)。

例1:all the members of => all members of

例2:He said there will be major cuts in the salaries of high-level civil servants. =>He claimed to implement huge salary cut to senior civil servants.

简单的文本复述生成可以通过同义词替换来实现,也可以通过人工或自动构建的复述规则来实现[35],例如根据变换状语位置的一条规则,可以获得下面句子的简单复述句子:

输入:He booked a single room in Beijing yesterday.

输出:Yesterday, he booked a single room in Beijing.

为了实现复杂的文本复述生成,研究人员提出了基于自然语言生成的方法[36]、基于机器翻译的方法[37]与基于支点(Pivot)的方法[38][39]等。基于自然语言生成的方法模拟人类的思维方式,首先对输入句子进行语义理解,获得该句子的语义表示,然后基于得到的语义表示生成新的句子。基于机器翻译的方法则将文本复述生成问题看作是单语言机器翻译问题,从而利用现有机器翻译模型(例如噪声信道模型)来为给定文本生成复述文本。基于支点的方法则将当前语言中的输入文本翻译到另一种语言(支点),然后将翻译得到的文本再次翻译回当前语言。由于每次翻译过程均要求源语言和目标语言中文本的语义保持一致,因此可以预期最后得到的文本在语义上能跟输入文本保持一致。注意支点语言可以只采用一种语言,也可采用多种语言。例如,下面的例子中采用意大利语作为支点语言,通过两次翻译为输入的英文句子生成复述文本:

输入英文句子:What toxins are English most hazardous to expectant mothers?

翻译后的意大利文句子:Che tossine sono più pericolose alle donne incinte?

再次翻译后的英文句子:What toxins are more dangerous to pregnant women?

总体而言,现有方法能够为给定文本生成具有较小差别的复述文本,但是难以有效生成高质量的具有很大差别的复述文本,原因在于对于改写甚多的复述文本而言,一方面难以保证其与原文本的语义一致性,另一方面则难以保证该文本的可读性。近几年已经极少在自然语言处理重要会议上看到文本复述生成相关的学术论文,表明针对该问题的研究已经遇到了瓶颈。

需要指出的是,句子简化(Sentence Simplification)可以看作是一类特殊的复述生成问题,其目的是将复杂的长句改写成简单、可读性更好、易于理解的多个短句,方便用户快速阅读。在实现上仍可采用上述各类方法,例如基于单语言机器翻译的方法[40],基于树转换的方法 [41] 等。针对句子简化问题的很多研究都采用维基百科[6]以及对应的简单维基百科[7]数据来进行学习和测试。简单维基百科面向的阅读对象为儿童以及正在学习英语的成人,简单维基百科的作者要求使用简单的词汇和简短的句子来撰写文章。一个简单维基百科文章一般对应一个普通维基百科文章,因此通过这种文本之间的对齐关系能够获取大量的有用语料。爱丁堡大学的 Kristian Woodsend 与 Mirella Lapata 则提出基于准同步文法(Quasi-synchronous grammar) 与整数线性规划模型将普通维基百科文章简化为简单维基百科文章[42]。

2 国内研究现状

2.1 文本摘要

       相比机器翻译、自动问答、知识图谱、情感分析等热门领域,文本摘要在国内并没有受到足够的重视。在文本摘要方面从事过研究的单位包括北京大学计算机科学技术研究所、北京大学计算语言所、哈工大信息检索实验室、清华大学智能技术与系统国家重点实验室等。其中,北京大学计算机科学技术研究所在文本摘要方面进行了长期深入的研究,提出了多种基于图排序的自动摘要方法[43][44][45][46]与压缩式摘要方法[47],并且探索了跨语言摘要、比较式摘要、演化式摘要等多种新颖的摘要任务[4[8]][4[9]][50]。在学术文献摘要方面,则分别提出基于有监督学习和整数线性规划模型的演示幻灯片的自动生成方法[51]与学术论文相关工作章节的自动生成方法[52]。

       国内早期的基础资源与评测8举办过单文档摘要的评测任务,但测试集规模比较小,而且没有提供自动化评价工具。2015 年 CCF 中文信息技术专委会组织了 NLPCC 评测9,其中包括了面向微博的新闻摘要任务,提供了规模相对较大的样例数据和测试数据,并采用自动评价方法,吸引了多支队伍参加评测,目前这些数据可以公开获得。但上述中文摘要评测任务均针对单文档摘要任务,目前还没有业界认可的中文多文档摘要数据,这在事实上阻碍了中文自动摘要技术的发展。

       近些年,市面上出现了一些文本挖掘产品,能够提供文档摘要功能(尤其是单文档摘要),例如方正智思、拓尔思(TRS),海量科技等公司的产品。百度等搜索引擎都能为检索到的文档提供简单的单文档摘要。这些文档摘要功能均被看作是系统的附属功能,其实现方法均比较简单。由于这些模块均未参加公开评测,因此其性能不得而知。

2.2 句子压缩与融合

        国内有少数单位与学者对句子压缩问题进行了研究,例如北京大学语言计算与互联网挖掘研究室提出基于对偶分解的句子压缩方法[53],清华大学智能信息获取研究小组提出基于马尔科夫逻辑网的句子压缩方法[54], 等等。而对于句子融合问题的研究,国内单位和学者基本没有涉猎。

国内学者的上述研究仍面向英文数据,主要原因在于缺少相关的中文评测数据,而构建一个高质量的中文句子压缩或融合评测数据集并不简单,需要依靠对语言有深刻理解的标注者。

2.3 文本复述

        国内有少数单位和学者对文本复述生成进行了一些研究,例如哈工大信息检索中心与微软亚洲研究院、百度等单位合作,提出利用多种资源(包括多种词典、平行语料等在内)改进基于机器翻译的复述生成方法[55]、利用多种机器翻译引擎的复述生成方法[56],以及面向不同应用的复述生成方法[57]。

上述研究仍面向英文领域,采用英文数据进行评测,而中文复述生成技术则极少有人涉足,这是一件很令人遗憾的事情。

 

3 发展趋势与展望

       文本到文本的生成包括多项任务,这些任务之间具有紧密的联系,很多方法也都对不同任务具有通用性。在未来几年,随着深层语义分析技术的发展,研究者可以在研究过程中充分利用深层语义分析结果,此外,深度学习技术的成熟则为我们的研究打开了另外一扇门,但是大家需要认真思考如何才能用好深层语义分析技术与深度学习技术。而随着社交媒体的广泛使用,我们也可充分利用社交媒体数据为我们的研究服务。

为了更好的推动文本到文本的生成技术的发展,业界可从以下几个方面着手:

其一,构建大规模评测数据集。数据是研究的基石,大规模、高质量的评测数据集对于研究工作至关重要,而目前上述多个任务均缺少大规模评测数据集,尤其是中文评测数据集。数据集的构建需要耗费大量人力物力,因此一个可行的途径就是采用众包的方式。

其二,构建开源平台。尽管针对上述各项任务业界均提出了多种解决方法,但很多方法并不易实现。业界需要为每个任务构建一个开源平台,将主流算法集成到该平台中,将会极大方便后来者的研究,推动研究的发展。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/jinhao_2008/article/details/115947318

文本自动生成研究进展与趋势_zhangzeyuaaa的博客-爱代码爱编程

摘要 我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文 本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可包括文本 到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等。上述每项 技术均极具挑战性,在自然语言处理与人工智能领域均有相当多的前沿研究,近几年业界也 产生了若干

【转载】文本自动生成研究进展与趋势_lsyou_2000的博客-爱代码爱编程

CCF 中文信息技术专业委员会 万小军 冯岩松 孙薇薇 北京大学计算机科学技术研究所,北京 摘要 我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文 本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可包括文本 到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等。上述每项 技术均

emnlp 2018 | 从对话生成和文本风格转化看文本生成技术_paperweekly的博客-爱代码爱编程

本文将介绍腾讯 AI Lab 发表于 EMNLP 2018 的两篇论文,论文关注的是文本到文本生成研究领域中的文本风格转化及对话生成任务。其中,在文本风格的论文中,作者提出了一个新的序列编辑模型旨在解决如何生成与给定数值相匹配的句子的研究问题。而关于对话生成的论文中,作者提出了一个新的对话模型用于抑制对话生成模型中通用回复的生成。 引言

论文浅尝 | 通过文本到文本神经问题生成的机器理解_开放知识图谱的博客-爱代码爱编程

论文笔记整理:程茜雅,东南大学硕士,研究方向:自然语言处理,知识图谱。       Citation: Yuan X, WangT, Gulcehre C, et al. Machine comprehension by text-to-text neural question generation[J]. arXiv preprint ar

(2017转)文本自动生成研究进展与趋势_lijuce的博客-爱代码爱编程

NLP文本生成调研过程找到的综述性文章,由于找不到出处,只能将已有CSDN文章转过来了。由于其它两篇CSDN中转的这篇文章要么不显示图片,要么没有参考文献,特此将此二者结合起来,方便阅览。由于图片找不到出处,因此没有去

文本自动生成研究进展与趋势之意义到文本的生成-爱代码爱编程

  意义到文本的生成 1 国际研究现状 不同于文本到文本的生成,意义到文本的生成这一任务的输入在学界并没有达成一致,其根本在于不论是哲学家还是语言学家对何为自然语言的语义都未能形成较为一致的定义。 在计算语言学领域,研究人员普遍遵循的语义研究原则建立在“真值条件(Truth Condition)” 的基础上,认为寻找到了能够使自然语言语句成真的条件

文本自动生成研究进展与趋势之数据到文本的生成-爱代码爱编程

数据到文本的生成 1 国际研究现状         数据到文本的生成技术指根据给定的数值数据生成相关文本,例如基于数值数据生成天气预报文本、体育新闻、财经报道、医疗报告等。数据到文本的生成技术具有极强的应用前景,目前该领域已经取得了很大的研究进展,业界已经研制出面向不同领域和应用的多个生成系统。针对数据到文本的生成技术的研究单位主要集中少数几个单位,例

文本自动生成研究进展与趋势之图像到文本的生成-爱代码爱编程

图像到文本的生成 1 国际研究现状         图像到文本的生成技术是指根据给定的图像生成描述该图像内容的自然语言文本,例如新闻图像附带的标题、医学图像附属的说明、儿童教育中常见的看图说话、以及用户在微博等互联网应用中上传图片时提供的说明文字。依据所生成自然语言文本的详细程度及长度的不同,这项任务又可以分为图像标题自动生成和图像说明自动生成。前者需

文本自动生成研究进展与趋势之总结与展望-爱代码爱编程

总结与展望       文本自动生成研究进展与趋势 系列也到尾声,最后对文本自动生成研究进展与趋势进行总结和展望        本文对文本自动生成技术进行了全面的介绍,包括文本到文本的生成、意义到文本的生成、数据到文本的生成、图像到文本的生成等。由于上述每项技术均有众多的研究者在研究,相关的学术成果也层出不穷,因此本文的总结难免有遗漏之处。希望本文的内

多样性文本生成任务的研究进展-爱代码爱编程

点击下面卡片,关注我呀,每天给你送来AI技术干货! 作者|王晓珂 机构|中国人民大学信息学院 方向 | 自然语言处理和对话系统 近年来开放域的闲聊对话研究如雨后春笋般涌现,甚至还做起了跨界,如最近炙手可热的会话推荐系统。而作为人工智能王冠上明珠中的一颗,自然语言处理中随时打算挑战图灵测试的对话系统,当然是不可能止步于机械地一问一答的形式,因此

文本生成 计算机语言,文本自动生成研究进展及趋势.PDF-爱代码爱编程

文本自动生成研究进展与趋势 CCF 中文信息技术专业委员会 万小军 冯岩松 孙薇薇 北京大学计算机科学技术研究所,北京 摘要 我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文 本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可包括文本 到文本的生成、意义到文本的生成、数据到文本的生成以