开放式文本生成(Open-Ended Text Generation)

1 引言

开放式文本生成(Open-Ended Text Generation)通俗一点儿来说就是续写句子。我们以前使用马尔科夫链产生新的文本《马尔可夫链(Markov chain)随机产生新的文档》,可以认为是续写句子的一种方法。在开放式文本生成中,已知一个给定的句子,目标是按照这个句子创建一个连贯的文本,使得句子能够延续下去。Transformers的管道名为"text-generation",其构建基础是因果语言模拟(causal language modeling), 默认的模型是GPT-2,Top-K采样。

from transformers import pipelinetext_generator = pipeline("text-generation")

管道对象调用方法generate()来生成文本。可以用max_length和do_sample方法重载默认参数。在下面的测试中,除了使用GPT-2外,也使用distilgpt2和gpt2-large(3.25G)进行了观察。 

开放式文本生成(Open-Ended Text Generation)的图1

2 实例

(1) 输入的文本 text = "These solutions have been combined with probabilistic Monte Carlo methods to identify critical step paths."【这些解决方案与概率蒙特卡洛方法相结合,以确定关键阶梯路径。】

生成的文本如下:

The study was supported by the National Science Foundation. The results of the study are published in the journal Nature. "We have shown that the probabilistic approach is able to identify the critical step paths that are necessary for the development of a new system," said lead author Dr. Michael J. H. Hirsch, a professor of physics at the University of California, Berkeley. "This is a major step forward in the development of a new system." 【这些解决方案与概率蒙特卡洛方法相结合,以确定关键阶梯路径。这项研究得到了美国国家科学基金会的支持。该研究的结果发表在《自然》杂志上。"我们已经表明,概率方法能够确定开发一个新系统所需的关键阶梯路径," 主要作者、加州大学伯克利分校物理学教授Michael J. Hirsch博士说。"这是开发新系统的一个重要步骤"。】

(2) 输入的文本 text ="Recent research indicates that brittle fracture and step-path failure are important considerations in both natural high-mountain and engineered rock slopes."【最近的研究表明,脆性断裂和阶梯式破坏是自然高山和工程岩坡的重要考虑因素。】 

生成的文本如下:

The following table summarizes the results of a series of studies on the effects of fracture and step-path failure on rock slopes. Table 1. Effects of fracture and step-path failure on rock slopes (in inches) 【下表总结了一系列关于断裂和阶梯式破坏对岩坡影响的研究结果。表1. 断裂和阶梯式破坏对岩坡的影响(单位:英寸)】

3 结束语

开放式文本生成提供了一种自动续写句子的方法。不过,生成的句子尽管在语法上满足了要求,但在语义上和逻辑上仍然显得文理不通,就像上面实例所示的一样。


PyTorch-Transformers自然语言处理深度学习

开放式文本生成(Open-Ended Text Generation)的评论0条

    暂无评论

    开放式文本生成(Open-Ended Text Generation)的相关案例教程

    1 引言 自动生成文本是自然语言处理中一个非常有趣的研究领域,目前主要有两种途径实现这个功能:第一种方法是深度学习,典型的例子是利用Transformers的"text-generation"管道,这种方法的理论基础是因果语言模拟(causal language modeling), 默认的模型是GPT-2,使用Top-K采样《开放式文本生成(Open-Ended Text Generation》
    1 引言 自回归式语言生成基于假设:一个词序列的概率分布可以分解为邻接的下一个词条件概率分布的乘积。使用不同的解码策略,目前产生出许多用于自回归语言生成的模型,最流行的模型有GPT2, XLNet, OpenAi-GPT, CTRL, TransfoXL, XLM, Bart和T5,对GPT2模型我们已经作了很多探索性的工作: GeotechSet数据集在GPT2上的训练过程 GPT2-Large
    1 引言 本文在《关键词提取---PyTextRank和Spacy的工作原理》和《PyTextRank---文本关键字(keywords)的自动取出》的基础之上比较了Spacy的lg模型和trf模型在关键词生成和摘要生成之间的差异,目的是为了区分哪个模型更适合目前的工作。在虚拟环境spacy中进行测试。安装的主要库都是最新版本,包括: pytextrank V3.2.1 Spacy V3.1.1
    1 引言 Transformers提供了数以千计的预训练模型,利用这些预训练模型可以对文本执行任务,如分类、信息提取、问题回答、总结、翻译、文本生成等。Transformers提供的API可以在给定的文本上使用这些预训练模型,在自己的数据集上对它们进行微调。这似乎是很激动人心的一件事情,在过去作为试验曾经做过一个Bert的训练模型《Bert模型微调---产生自己的训练数据模型》,然而现实是对于个人
    1 引言 在过去的文章中,我们使用了不同的技术来进行主题模拟,主要包括LDA,Top2Vec和BERTopic, 这些技术能够从大量文本中进行文本分类聚合出一类主题。 主题模拟的艺术(The Art of Topic Modeling)---以Step-Path Failure为例 BERTopic(V0.9.0)主题模拟技术 GeotechSet数据集主题模拟(Topic Modeling) T
    影响力
    粉丝
    内容
    获赞
    收藏
      项目客服
      培训客服
      0 0