【中英文本翻译数据集】经典小说中英文句子翻译对齐数据集-数据集详情|下载-集智数据集

发布时间：2024-11-02 17:30:39

数据集：【中英文本翻译数据集】经典小说中英文句子翻译对齐数据集 746 54

本内容由，集智官方收集发布，仅供参考学习，不代表集智官方赞同其观点或证实其内容的真实性准确性，请勿用于商业用途。

为了使用该数据集进行深度学习文本翻译模型的训练，我们可以基于 TensorFlow 或 PyTorch 实现一个端到端的神经机器翻译（NMT）模型。我们将使用序列到序列（seq2seq）模型，并结合注意力机制来增强翻译效果。

在这个示例中，我们将用 TensorFlow 和 Keras 来实现一个基于 Transformer 的翻译模型。这个模型适用于多种文本翻译任务，具有良好的性能和扩展性。

环境准备

确保已安装 TensorFlow 和其他必要库：

pip install tensorflow pandas sklearn

数据预处理

首先，将数据集加载并处理成模型所需的输入格式。假设数据已存为 csv 文件，文件名为 translation_dataset.csv，字段为：id、英文翻译、中文原句、小说名称、小说作者、分词、章节id、预置状态。

加载和处理数据

import pandas as pd
import tensorflow as tf
from sklearn.model_selection import train_test_split

# 加载数据集
data = pd.read_csv('translation_dataset.csv')

# 提取英文和中文列
english_texts = data['英文翻译'].values
chinese_texts = data['中文原句'].values

# 分割数据集
train_english, val_english, train_chinese, val_chinese = train_test_split(english_texts, chinese_texts, test_size=0.2, random_state=42)

构建分词器

为了使用 Transformer 模型，我们需要将句子转换为固定大小的序列，因此需要构建中英文分词器。

# 使用 tf.keras.preprocessing.text.Tokenizer 构建分词器
def build_tokenizer(texts, max_vocab_size=10000, oov_token='<OOV>'):
    tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=max_vocab_size, oov_token=oov_token)
    tokenizer.fit_on_texts(texts)
    return tokenizer

# 构建中英文分词器
english_tokenizer = build_tokenizer(train_english)
chinese_tokenizer = build_tokenizer(train_chinese)

# 将文本转换为序列
def tokenize_texts(tokenizer, texts, max_len=50):
    sequences = tokenizer.texts_to_sequences(texts)
    sequences = tf.keras.preprocessing.sequence.pad_sequences(sequences, maxlen=max_len, padding='post')
    return sequences

# 将训练集和验证集转换为序列
train_english_seq = tokenize_texts(english_tokenizer, train_english)
val_english_seq = tokenize_texts(english_tokenizer, val_english)
train_chinese_seq = tokenize_texts(chinese_tokenizer, train_chinese)
val_chinese_seq = tokenize_texts(chinese_tokenizer, val_chinese)

# 设置词汇表大小和最大序列长度
english_vocab_size = len(english_tokenizer.word_index) + 1
chinese_vocab_size = len(chinese_tokenizer.word_index) + 1
max_seq_len = 50

构建 Transformer 模型

我们将构建一个基于 Transformer 的神经翻译模型，包含嵌入层、位置编码层、多头自注意力层、前馈网络等。

from tensorflow.keras.layers import Embedding, Input, Dense
from tensorflow.keras.models import Model

def create_model(english_vocab_size, chinese_vocab_size, max_seq_len, embedding_dim=256, num_heads=4, ff_dim=512):
    # 输入层
    encoder_input = Input(shape=(max_seq_len,))
    decoder_input = Input(shape=(max_seq_len,))

    # 嵌入层和位置编码
    encoder_embedding = Embedding(input_dim=english_vocab_size, output_dim=embedding_dim)(encoder_input)
    decoder_embedding = Embedding(input_dim=chinese_vocab_size, output_dim=embedding_dim)(decoder_input)

    # 编码器 - 多头自注意力
    attention_output = tf.keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=embedding_dim)(encoder_embedding, encoder_embedding)
    attention_output = tf.keras.layers.Add()([attention_output, encoder_embedding])
    attention_output = tf.keras.layers.LayerNormalization()(attention_output)
    encoder_output = tf.keras.layers.Dense(ff_dim, activation="relu")(attention_output)

    # 解码器 - 多头自注意力
    decoder_attention = tf.keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=embedding_dim)(decoder_embedding, encoder_output)
    decoder_attention = tf.keras.layers.Add()([decoder_attention, decoder_embedding])
    decoder_attention = tf.keras.layers.LayerNormalization()(decoder_attention)
    decoder_output = tf.keras.layers.Dense(ff_dim, activation="relu")(decoder_attention)

    # 输出层
    output = Dense(chinese_vocab_size, activation="softmax")(decoder_output)

    # 定义模型
    model = Model([encoder_input, decoder_input], output)
    return model

# 创建模型实例
model = create_model(english_vocab_size, chinese_vocab_size, max_seq_len)
model.compile(optimizer="adam", loss="sparse_categorical_crossentropy", metrics=["accuracy"])
model.summary()

训练模型

将输入和输出数据传递给模型进行训练。

# 定义目标数据 (将输出右移一位，以匹配解码器的输入)
train_chinese_labels = train_chinese_seq[:, 1:]
val_chinese_labels = val_chinese_seq[:, 1:]

# 开始训练模型
history = model.fit(
    [train_english_seq, train_chinese_seq[:, :-1]], 
    train_chinese_labels, 
    validation_data=([val_english_seq, val_chinese_seq[:, :-1]], val_chinese_labels),
    batch_size=64, 
    epochs=20
)

模型评估与预测

完成训练后，我们可以评估模型的性能并生成翻译预测。

# 评估模型
loss, accuracy = model.evaluate([val_english_seq, val_chinese_seq[:, :-1]], val_chinese_labels)
print(f"Validation Loss: {loss}, Validation Accuracy: {accuracy}")

# 翻译函数
def translate_sentence(sentence, english_tokenizer, chinese_tokenizer, max_seq_len):
    sentence_seq = tokenize_texts(english_tokenizer, [sentence], max_len=max_seq_len)
    decoder_input = tf.constant([chinese_tokenizer.word_index['<start>']])

    for i in range(max_seq_len):
        prediction = model.predict([sentence_seq, tf.expand_dims(decoder_input, axis=0)])
        predicted_id = tf.argmax(prediction[0, -1, :]).numpy()
        
        if predicted_id == chinese_tokenizer.word_index['<end>']:
            break
        decoder_input = tf.concat([decoder_input, [predicted_id]], axis=0)
    
    translated_sentence = ' '.join([chinese_tokenizer.index_word[id] for id in decoder_input.numpy()])
    return translated_sentence

# 测试翻译
test_sentence = "This is a test sentence."
print("Translated Sentence:", translate_sentence(test_sentence, english_tokenizer, chinese_tokenizer, max_seq_len))

技术细节与复现注意事项

模型结构：本示例基于Transformer的Encoder-Decoder结构，包括多头注意力和前馈网络层。此结构适用于处理长文本和语言翻译任务。
分词与序列长度：为了处理不同长度的句子，我们使用固定的最大序列长度 max_seq_len（如50）。在应用中，max_seq_len 应根据数据的实际分布调整。
数据预处理：数据预处理环节极为关键，确保中英文句子一一对应，且每句均添加 <start> 和 <end> 标记。
性能优化：根据硬件配置，可以调节 embedding_dim、num_heads 和 ff_dim 参数。在实际应用中，应根据数据集的大小与复杂度进行调整。
模型评估与改进：本示例使用简单的准确性和损失进行评估。可以引入BLEU等翻译质量评估指标来进一步评估和优化模型效果。

通过以上代码，可以复现一个基础的深度学习文本翻译模型，并在该数据集上进行训练和评估。

多语言翻译数据集

这类数据集包含成对或多对语言的文本样本，每一对文本表示相同内容的不同语言版本。目的是训练机器翻译模型，使其能够将一种语言的文本准确地翻译成另一种语言。用于开发和优化自动翻译系统，提高跨语言沟通的效率和准确性。

浏览排行下载排行

更多内容：
深度学习翻译模型
神经机器翻译NMT
Transformer翻译模型
机器翻译数据集
自然语言处理NLP
多语言翻译数据集
文本翻译模型训练
经典小说数据集
中英文句子对齐
NLP分词处理