- 清水泥沙

---
title: "Transformer 学习之路 - 基于 Transformers 的命名实体识别"
date: 2024-04-19T17:35:18+08:00
draft: false
description: "深入解析如何使用 Transformers 进行命名实体识别，涵盖技术原理、代码实现及应用场景"
categories: ["Python", "Transformer"]
---

# Transformer 学习之路 - 基于 Transformers 的命名实体识别

在自然语言处理（NLP）领域，命名实体识别（NER）是一项基础且重要的任务，旨在从文本中识别出特定类别的实体，如人名、地名、组织名等。本文将深入探讨如何使用 Transformers 库实现命名实体识别，并详细解析其技术原理和实现步骤。

## 1. 背景与问题

命名实体识别是信息抽取的核心任务之一，广泛应用于知识图谱构建、问答系统、机器翻译等领域。传统方法依赖于规则和特征工程，而基于深度学习的 Transformer 模型通过自注意力机制，能够捕捉文本中的长距离依赖关系，显著提升了 NER 的性能。

### 1.1 Transformer 的优势
- **自注意力机制**：Transformer 通过自注意力机制，能够同时关注输入序列中的每个位置，捕捉全局依赖关系。
- **并行计算**：与 RNN 不同，Transformer 无需按顺序处理输入，能够充分利用 GPU 的并行计算能力。
- **预训练模型**：通过大规模预训练，Transformer 模型能够学习到丰富的语言知识，适用于多种下游任务。

## 2. 实现步骤

### 2.1 环境准备

首先，安装必要的库：

```python
! pip install datasets evaluate seqeval

2.2 导入相关包

import evaluate
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForTokenClassification, TrainingArguments, Trainer, DataCollatorForTokenClassification

2.3 加载数据集

我们使用 peoples_daily_ner 数据集，该数据集包含中文文本及其对应的命名实体标签。

ner_datasets = load_dataset("peoples_daily_ner")

查看数据集结构和标签映射：

label_list = ner_datasets['train'].features['ner_tags'].feature.names

2.4 数据预处理

加载预训练的分词器，并对数据进行预处理：

tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-macbert-base")

定义处理函数，将原始文本和标签映射为模型可接受的格式：

def process_function(examples):
    tokenized_exmaples = tokenizer(examples["tokens"], max_length=128, truncation=True, is_split_into_words=True)
    labels = []
    for i, label in enumerate(examples["ner_tags"]):
        word_ids = tokenized_exmaples.word_ids(batch_index=i)
        label_ids = []
        for word_id in word_ids:
            if word_id is None:
                label_ids.append(-100)
            else:
                label_ids.append(label[word_id])
        labels.append(label_ids)
    tokenized_exmaples["labels"] = labels
    return tokenized_exmaples

tokenized_datasets = ner_datasets.map(process_function, batched=True)

2.5 创建模型

加载预训练模型，并指定标签数量：

model = AutoModelForTokenClassification.from_pretrained("hfl/chinese-macbert-base", num_labels=len(label_list))

2.6 创建评估函数

使用 seqeval 库评估模型性能：

seqeval = evaluate.load("seqeval")

def eval_metric(pred):
    predictions, labels = pred
    predictions = np.argmax(predictions, axis=-1)
    true_predictions = [
        [label_list[p] for p, l in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    true_labels = [
        [label_list[l] for p, l in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    result = seqeval.compute(predictions=true_predictions, references=true_labels, mode="strict", scheme="IOB2")
    return {"f1": result["overall_f1"]}

2.7 配置训练参数

设置训练参数，如批次大小、评估策略等：

args = TrainingArguments(
    output_dir="models_for_ner",
    per_device_train_batch_size=32,
    per_device_eval_batch_size=64,
    eval_strategy="epoch",
    save_strategy="epoch",
    metric_for_best_model="f1",
    load_best_model_at_end=True,
    logging_steps=50,
    num_train_epochs=1
)

2.8 创建训练器

初始化 Trainer，并传入模型、数据集和评估函数：

trainer = Trainer(
    model=model,
    tokenizer=tokenizer,
    args=args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=DataCollatorForTokenClassification(tokenizer),
    compute_metrics=eval_metric
)

2.9 执行训练

开始训练模型：

trainer.train()

2.10 模型评估

在测试集上评估模型性能：

trainer.evaluate(eval_dataset=tokenized_datasets["test"])

2.11 模型预测

使用训练好的模型进行预测：

from transformers import pipeline

id2label = {i: label for i, label in enumerate(label_list)}
model.config.id2label = id2label

ner_pipe = pipeline("token-classification", model=model, tokenizer=tokenizer, device=0, aggregation_strategy="simple")

sen = "何智在广东省天河区附近的工商局上班打游戏"
res = ner_pipe(sen)

ner_result = {}
for r in res:
    if r["entity_group"] not in ner_result:
        ner_result[r["entity_group"]] = []
    ner_result[r["entity_group"]].append(sen[r["start"]: r["end"]])

ner_result

3. 总结

本文详细介绍了如何使用 Transformers 库实现命名实体识别，涵盖了从数据加载、预处理、模型训练到评估和预测的全过程。通过 Transformer 模型，我们能够高效地处理复杂的文本数据，并从中提取出有用的信息。希望本文能为你提供有价值的参考，助你在 NLP 领域更进一步。