T5 是什么？

T5，全称为 Text-to-Text Transfer Transformer，是谷歌研究院推出的一款开创性模型，它将所有自然语言处理（NLP）任务重新构建为统一的“文本到文本”格式。T5 不再为摘要、翻译或分类等任务使用不同的模型架构，而是采用单一的编码器-解码器 Transformer 模型。它通过在输入中给定一个文本前缀（如 summarize: 或 translate English to German:）来学习执行特定任务。这种优雅的方法简化了整个工作流程，允许在各种问题上使用相同的模型、损失函数和超参数。

主要特点

统一的文本到文本框架： T5 将每个 NLP 问题都视为文本生成任务，其中输入和输出都是文本字符串。这极大地简化了模型的开发和部署。
任务特定前缀： 通过向输入文本添加一个简短的前缀来指导模型执行特定任务，使其具有极高的通用性和易控制性。
Transformer 架构： 它建立在经过验证的编码器-解码器 Transformer 架构之上，使其能够理解文本中复杂的关系。
大规模预训练： T5 在“Colossal Clean Crawled Corpus”（C4）上进行了预训练，这是一个庞大而干净的数据集，使其对语言有深刻的理解。
多种模型尺寸： T5 提供多种尺寸，从 T5-Small（约6000万参数）到 T5-11B（约110亿参数），允许开发者在性能和计算成本之间进行权衡。

应用场景

摘要： 使用 summarize: 前缀为长篇文章生成简洁的摘要。
机器翻译： 在不同语言之间翻译文本，例如，使用 translate English to French:。
问答： 根据给定的上下文回答问题。输入可以格式化为 question: [问题] context: [上下文]。
文本分类： 通过训练模型输出简单的文本标签（例如，“正面”或“负面”）来执行情感分析等任务。
代码生成： 经过微调的 T5 版本可用于从自然语言描述中生成代码片段。

入门指南

开始使用 T5 的最简单方法是使用 Hugging Face 的 transformers 库。以下是一个用于摘要一段文本的简单 Python 示例。

首先，请确保您已安装该库： ```bash pip install transformers torch sentencepiece

然后，您可以使用以下代码来运行 T5 模型： ```python from transformers import T5Tokenizer, T5ForConditionalGeneration

初始化 T5-base 变体的分词器和模型

tokenizer = T5Tokenizer.from_pretrained(‘t5-base’) model = T5ForConditionalGeneration.from_pretrained(‘t5-base’)

您想要摘要的文本

text_to_summarize = “”” The Text-to-Text Transfer Transformer (T5) is a versatile model that converts all NLP problems into a text-to-text format. It was introduced by Google Research and has shown great success in a wide range of tasks including summarization, translation, and question answering. The model uses a standard Transformer architecture and is pre-trained on a large corpus of text called C4. By adding a task-specific prefix to the input, users can guide the model to perform the desired operation. “””

为模型准备输入

‘summarize: ‘ 前缀告诉 T5 要执行什么任务

input_text = “summarize: “ + text_to_summarize inputs = tokenizer.encode(input_text, return_tensors=”pt”, max_length=512, truncation=True)

生成摘要

summary_ids = model.generate(inputs, max_length=150, min_length=40, length_penalty=2.0, num_beams=4, early_stopping=True)

解码并打印摘要

summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True) print(summary)

定价

T5 是一个在 Apache 2.0 许可下发布的开源模型。它可以完全免费下载和使用，无论是用于研究还是商业目的。成本仅与运行或微调模型所需的计算资源有关。

T5