作者:Shen, Rizhong
随着中日经济互联互通日益加深,两国人文交流蓬勃发展。作为日本特有的文学形式,日语和歌的翻译引起了学术界的广泛关注。1。在信息爆炸的背景下,传统的人工翻译方法不足以满足大规模数据处理的巨大需求。因此,利用机器学习技术来提高翻译效率并更有效地处理大量数据已成为必然的社会趋势。近年来,在“互联网+”战略的推动下,我国物联网技术体系显着进步,相关产业快速发展2。人工智能(AI)技术的进步进一步方便了对大型语料库的访问,为构建统计语言模型和提高机器翻译(MT)系统的性能提供了宝贵的资源3。
长期以来,研究语言模型一直是神经机器翻译(NMT)研究的重要组成部分。随着NMT的不断发展,各种创新不断涌现,NMT已在各行业得到广泛应用。刘等人。通过提出一种集成了多种数据增强技术(包括低频词替换、反向翻译和语法校正模块)的方法,解决了 NMT 中的数据稀疏问题。他们的实验结果表明,这种方法在资源丰富和资源贫乏的环境中都提高了翻译性能,由于训练语料库的增加,后者的改进尤其显着4。克里莫娃等人。回顾了 NMT 在外语学习中的应用并提供了教学建议。研究发现,NMT 有效提高了学习者的生产性和接受性语言技能,特别是对于高级 L2 学习者5。托尼娅等人。探索了如何利用低资源语言的源语言单语数据集来提高 NMT 系统的性能。通过自我训练和微调,研究人员在 Wolaytta-English 翻译任务中实现了 BLEU 分数的显着提升6。虽然这些研究通过各种方法增强 NMT 性能,但它们并没有具体解决日语 waka 的翻译问题。
在此背景下,本研究考察了日语和歌的结构及其中文翻译现状,分析了现有的翻译争议,并介绍了基于物联网的数据收集方法。针对传统基于人工智能的 NMT 模型的局限性,提出了一种优化翻译模型,将双向长短期记忆 (Bi-LSTM) 网络、垂直 Tree-LSTM 和注意力机制融入 Transformer 框架中。使用公共数据集和专门的 waka 数据集对这些优化模型进行实验验证,得出的结论证明翻译质量有所提高。本研究为日语和歌的翻译提供了创新方法和理论支持。这项研究结构良好,首先概述了研究背景和目标。—翻译日本和歌诗的挑战和复杂性第六部分探讨了翻译日本和歌诗歌的挑战和复杂性,讨论了关于和歌翻译的学术争论及其在机器翻译背景下的独特复杂性。—NMT模型的构建– 部分详细介绍了 NMT 模型的开发,强调利用物联网和人工智能技术的数据收集方法以及通过位置编码技术进行的模型优化。—结果与讨论第六部分概述了实验设计和数据源,详细分析了调整 Transformer 编码器层数如何影响模型性能。最后,——结论- 部分通过总结主要发现并为未来研究提供深思熟虑的建议来总结本研究。
日语和歌具有独特的语言特征,使其翻译成中文特别具有挑战性7。在日本古典文学中,“诗歌”主要指中国古代宫廷诗歌,是一种用古典汉语写成的文学形式,按照传统标准创作,非常注重韵律。相比之下,“歌曲”通常指原产于日本的较长形式的诗歌和口头文学,包括长诗 (chÅka)、短诗 (tanka) 和连诗 (renga) 等类型)8。和歌遵循严格的语音结构,典型的短歌形式由五行组成,按 5、7、5、7 和 7 的音节模式排列。这种固定的音节模式控制着诗歌的节奏,并与声调密切相关。和日语的语音特征,增强其节奏美感。翻译和歌的主要挑战源于汉语和日语之间在音韵和句法上的显着差异。日语作为粘着语言,严重依赖助词、助动词等功能词来构建句子,而汉语作为孤立语言,则采用更为简洁的句法结构。这种类型上的差异使得在翻译中保留和歌的形式和内容具有挑战性,常常导致语义细微差别和情感深度的丢失或扭曲。此外,和歌常常运用丰富的隐喻、双关语和简洁的语言来传达复杂的情感和生动的意象。例如,传统和歌中常见的季节性词语,如“雪”或“樱花”,不仅是对自然的描述,而且还带有根植于文化背景的特定情感内涵。这些图像给译者带来了巨大的挑战,特别是当这些词在中文中缺乏同等的文化含义或直接对应的时候。因此,译者必须在忠实原文内容与准确传达情感之间取得平衡,通常需要创造性的妥协。
在中国,关于“和歌”汉译的争论最终集中在归化与异化之间的选择上9。归化的支持者认为和歌通常包含不同程度的内容和复杂的语法,建议译者应该优先考虑捕捉原始含义和语法,而不是严格遵循原始形式10。相比之下,异化的倡导者强调保留和歌中蕴含的文化精髓的重要性,支持保留其原始韵律结构和诗歌格式11。例如,经典诗集《百人一集》中的著名和歌读作 â秮簮, �����������������������������������������������®噫®, 諤¤¤¤¤¤¤¤, 鲤¤¤¤¤¤,”直译就是“秋天的田野里,我住的茅屋屋顶稀疏,我的袖子常常被露水打湿。这幅和歌描绘了一幅孤独的景象,使用季节词“秋天”来唤起人们对时间流逝和生命转瞬即逝的感觉。在翻译中,“稀疏的茅草屋顶”象征着苦难和无常,但这个比喻很难用中文完全表达出来。此外,原始和歌的节奏结构很难在保留其意义的同时得到保留。同样,在来自 ManâyÅshÅ« 的 waka 中,âããã¤ãã «, é¡®吖嗖嗖嗖嗖嗖嗖嗖嗖嗖嗖嗖®é¤¤, ¤¤¤¤¤¤¤¤¤¤¤¤¤¤¤¤�, 礤ªæ£¤ª,â这个词 ããã¤ãâ (白色露水)隐喻生命的短暂和脆弱。归化翻译可能会将其翻译为“秋风吹过田野,白露覆盖地面,如珍珠散落得不可捉摸”,这在中文中更自然地流动,有助于读者理解情感共鸣。然而,这种方法牺牲了原有的结构,特别是独特的5-7音节节奏。日语和汉语在词汇、句法和文化意象方面的根本差异使得翻译中平衡形式和内容具有挑战性。和歌的语言特征不仅受到复杂的语音模式的控制,而且在词语选择和情感表达方面也表现出高度的隐喻丰富性和文化特异性12,13,14。
日本和歌诗的独特特征对传统的机器翻译方法提出了重大挑战。首先,和歌遵循5-7-5-7-7的固定音节模式,赋予诗歌独特的节奏和语音美。然而,传统的机器翻译模型在单词或句子级别处理数据,缺乏对音节结构进行建模的能力。因此,这些模型在翻译过程中努力保留和歌固有的节奏品质和形式美感。此外,和歌还融入了季节词语和自然意象,承载着特定的文化内涵和情感表达。翻译中未能准确捕捉这些文化细微差别可能会导致语义扭曲或丢失。此外,和歌高度浓缩的语言风格,加上对语境意义的依赖,对语义解释提出了更高的要求。日语的粘着性意味着助词和助动词在传达意义和情感方面发挥着至关重要的作用,而传统的翻译方法往往无法充分解决这一问题。这可能会导致语义错误表述或翻译输出支离破碎。
为了应对这些挑战,本研究提出了一种优化的神经机器翻译(NMT)模型,通过集成横向 Bi-LSTM、垂直 Tree-LSTM 和注意力机制来增强对 waka 特定特征的处理能力。具体来说,为了建模和保留语音结构,该方法在 Transformer 模型中引入了 Tree-LSTM 模块,通过句法树结构捕获 waka 句子之间的层次关系。此外,在训练过程中,引入了音节长度约束来指导模型生成符合 waka 形式的翻译。这种方法不仅提高了翻译输出的语义准确性,而且在一定程度上有助于保留和歌的节奏美。为了有效地理解和传递文化意象,和歌中的关键符号词(例如季节术语和自然意象)在数据预处理阶段进行语义注释,以确保模型识别其文化意义。优化后的注意力机制进一步细化了模型对这些带注释术语的关注,显着增强了其捕捉文化意象的能力。为了解决 waka 复杂上下文环境中语义分析的挑战,Bi-LSTM 和 Tree-LSTM 的结合提高了模型对水平和垂直上下文的理解。Bi-LSTM 通过双向序列处理捕获全局上下文信息,而 Tree-LSTM 利用句法结构捕获单词之间的层次关系。这两个组件共同有效地解决了上下文建模中传统方法的局限性。
日本的和歌数据收集面临着一系列复杂的挑战。和歌是日本古典文学的重要组成部分,由于其历史渊源和独特的语言特征,与现代日语和其他文本类型有很大不同。和歌中使用的古典日语具有复杂的语法结构和广泛的词汇,这使其数字化和处理变得相当复杂。和歌中频繁融入文化隐喻、季节性词汇和历史背景进一步加剧了机器处理的挑战,常常导致误解或关键信息的丢失。因此,数据收集不仅要注重识别古典语言的细微差别,还要优先考虑文化意义的准确保存和传播。此外,和歌的稀有性,特别是古典手稿的形式,也带来了更多的困难。版权限制和源材料格式多样化等问题为获取高质量数据带来了额外的障碍。在多文化和多语言背景下进行瓦卡数据收集和验证需要严格过滤数据源和跨数据库比较,以确保准确性和完整性。
物联网技术的发展显着增强了语言数据的收集和处理。物联网的核心概念是通过传感器和网络设备实现人与物体之间以及物体之间的互联通信。这允许大规模数据的自动收集、存储和传输15,16,17 号。通过利用物联网技术,可以快速、准确地收集来自不同来源的文本数据。这在跨语言和文化背景下特别有效,为大规模瓦卡数据的自动收集提供了一种有效的方法。
在本研究中,数据收集的重点是日本古典文学三部主要作品中的和歌:
《源氏物语》:平安时代的长篇小说,被视为日本古代文学的巅峰之作。它不仅是日本的文化象征,也是丰富的和歌宝库,以其文学价值、语言艺术性和文化意义而闻名。
《Man_yÅshÅ》:日本最早的已知和歌诗选,包含从贵族到平民等不同主题的大量诗歌。它代表了日本文学的起源,并提供了对早期日本文化的宝贵见解。
《伊势物语》:另一部有影响力的作品,如《源氏物语》,以歌物语(诗歌故事)的形式呈现。在这段叙述中,和歌起着核心作用,以深刻的情感表达和优雅的语言风格丰富了文本。
通过利用物联网技术,包括智能传感器、光学字符识别(OCR)工具和云计算平台,可以显着提高数据收集的自动化程度和准确性。这有助于复杂古典文本的高效数字化。OCR 技术与多语言支持和语义标注方法的集成对于解决和歌独特的语言和文化特征、确保更有效的数据提取和处理尤为关键。使用物联网技术收集 waka 数据的工作流程如图 1 所示。 1。
步骤1:数据来源确认。
选择高质量的数据源对于构建可靠的语料库至关重要。本研究将日本古典文学作品(包括《源氏物语》、《万岁》和《伊势物语》)作为主要数据来源。这些文本因其文学意义以及对日本古典和歌固有的多样性和复杂性的表现而闻名。在数据确认阶段,利用日本国家文献数据库等权威资源以及其他可信的数字档案,以确保可靠性和全面性。优先考虑经过学术验证和修订的版本,以尽量减少错误和不一致的风险。
步骤2:数据数字化和提取。
使用物联网技术实现数据数字化和提取的自动化。采用智能传感器、OCR 工具和先进的扫描设备将 waka 从物理或基于图像的格式转换为结构化文本数据。为了提高 OCR 准确性,多语言 OCR 工具与经过专门训练的优化语言模型集成,用于处理 waka 中的经典日语表达方式。数字化过程由通过物联网设备连接的自动监控系统提供支持,从而可以实时检查完整性和格式一致性。数字化后,人工审核和自动比较相结合,确保 OCR 准确率超过 98%。额外的验证针对的是古典词汇和和歌独特的文本格式特征。
步骤3:数据清洗和处理。
数字化后,瓦卡文本在云计算平台上进行清理和处理。使用专为古典日语设计的先进形态分析工具进行标记化,从而可以精确识别单词边界。文本格式标准化,确保标点符号和结构一致,满足机器翻译模型的输入要求。基于规则的语义标注方法被用来解释和歌独特的语言特征,突出情感表达、文化符号和时间参考等元素。使用注释器间协议验证语义注释,Kappa 系数超过 0.85。这个严格的过程确保了可靠的注释,为训练机器翻译模型提供了强大的上下文支持。
步骤4:数据验证和质量保证。
验证阶段将交叉验证与人工审核相结合,以提高可靠性。与其他数字化 waka 数据库的交叉引用有助于识别重复、不一致和遗漏。语言专家对语料库进行了样本评估,重点关注完整性、对齐准确性以及瓦卡文化背景的保存。这些评估建立了 99% 或更高的平均语料库准确度。在此阶段,错误(例如误译或语义差距)会被及时识别并纠正。
步骤5:数据库建设和实时更新。
经过验证后,构建了一个可扩展的 waka 语料库,以支持多模式输入,包括文本、音频和基于图像的 waka 数据。该数据库以结构化格式组织信息,确保可访问性和可用性。集成实时更新功能,通过物联网技术自动检测和同步新添加的 waka 文档。例如,文学数据库的更新触发了数据提取和处理的自动化工作流程,从而保持了语料库的及时性和可扩展性。对查询效率、数据完整性和系统响应能力的定期评估确保了数据库在大规模应用程序中的稳定性和有效性。
这项研究通过集成物联网技术,实施了一种创新的人工智能驱动的 waka 数据收集方法。该系统自动收集和处理来自多个权威文学数据库的瓦卡数据。通过实时监控和自动验证,有效解决瓦卡文本格式不一致和错误的问题,显着提高数据的准确性和可靠性。此外,人工智能技术实现的多层优化简化了验证和处理阶段,支持大规模语料库的构建和维护。这种方法确保了数据的新鲜度和相关性,为古典日语文本的高级机器翻译研究奠定了坚实的基础。它还提供了一个全面的语料库来训练和实验机器翻译模型,使这些模型能够在处理来自不同文学风格和语境的和歌时有效地适应和执行。
神经网络模型是人工智能的重要工具,它模拟人脑神经元之间的连接和信息传输过程。这些模型广泛应用于各种人工智能任务,包括图像识别、语音识别、自然语言处理和机器翻译。在许多应用中,神经网络被用来处理自然语言任务。传统基于 Transformer 的 NMT 模型中的正弦位置编码使用预定义函数计算位置信息,但不包含上下文信息18,19 号。为了提高 Transformer 模型的性能,本研究提出了两种直接捕获源语言序列位置编码信息的方法:水平 Bi-LSTM 和垂直 Tree-LSTM。
在长短期记忆 (LSTM) 网络中,时间步可以长时间保留先前信息的记忆,使其非常适合处理长文本序列。其单元结构如图所示。 220。
图 2说明了 LSTM 单元的结构。LSTM 单元包含一个存储单元和三个门单元:输入门、遗忘门和输出门。在时间步t,LSTM的信息更新过程可以用方程描述。(1—6)21,22 号,23:$${a}_{t}=\phi[{Q}_{a}\left({m}_{t-1},{X}_{t}\right)+{w}_{a}]$$
(1)
$${b}_{t}=\phi[{Q}_{b}\left({m}_{t-1},{X}_{t}\right)+{w}_{b
}]$$
(2)
$${c}_{t}=\phi[{Q}_{c}\left({m}_{t-1},{X}_{t}\right)+{w}_{c}]$$
(3)
$${U}_{t}=tanh[{Q}_{i}\left({m}_{t-1},{X}_{t}\right)+{w}_{i}]$$
(4)
$$U_{t} = b_{t} \odot u_{{t - 1}} + a_{t} \odot U_{t}$$
(5)
$$s_{t} = n_{t} \odot {\text{tanh}}\left( {u_{t} } \right)$$
(6)
这里,\(\phi\)表示 sigmoid 激活函数,\(\点\)表示逐元素乘法,并且\({X}_{t}\),\({m}_{t-1}\), 和\({u}_{t-1}\)参考时间步的输入、内存和输出值t, 分别。\({Q}_{a}\),\({Q}_{b}\),\({Q}_{c}\), 和\({Q}_{i}\)表示权重矩阵,并且\({w}_{a}\),\({w}_{b}\),\({厕所}\), 和\({w}_{i}\)是偏置项。变量\({在}\)代表输入门,决定了该时刻的信息是否t存储在当前单元状态中或过滤掉。\({b}_{t}\)是忘记门,负责丢弃前一个时间步中的不相关信息,而\({c}_{t}\)是输出门,控制当前隐藏层的输出。存储单元表示为\({u}_{t}\),以及隐藏状态\({英石}\)。通过利用记忆门和遗忘门,LSTM 网络在每个时间步更新记忆单元的状态,有效解决文本数据中的长期依赖性。Bi-LSTM 通过堆叠前向和后向 LSTM 扩展了传统 LSTM,使模型能够捕获过去和未来的上下文信息。Bi-LSTM 在提取文本序列中嵌入的潜在语义信息方面特别有效24。
在 Transformer 模型中,集成 Bi-LSTM 有助于从水平角度捕获句子中每个单词的位置信息。利用 Bi-LSTM 模型的记忆特性,将词嵌入输入到 Bi-LSTM 模型中进行训练。Bi-LSTM 的一个关键优势是它能够捕获长距离依赖关系,解决句子中的长距离依赖问题。单层 Bi-LSTM 由两个处理相反方向信息的 LSTM 层组成。训练后,输出向量\({h}_{t}\)整合每个单词的位置信息。然后将该输出用作翻译模型的输入序列,如方程式所示。(7)——(9):
$${h}_{Lt},{c}_{Lt}={LSTM}_{L}({x}_{t},{h}_{L(t-1)},{c}_{L(t-1)})$$
(7)
$${h}_{Rt},{c}_{Rt}={LSTM}_{R}({x}_{t},{h}_{R(t-1)},{c}_{R(t-1)})$$
(8)
$${h}_{t}=[{h}_{Lt},{h}_{Rt}]$$
(9)
这里,\({h}_{t}\)表示模型在时间步的隐藏状态t,\({c}_{t}\)代表细胞状态,并且\({x}_{t}\)表示此时的输入t。下标L和右分别表示从左到右和从右到左的方向。集成 Tree-LSTM 的 NMT
然而,与具有单个遗忘门的 LSTM 单元不同,Tree-LSTM 单元中的每个子节点都与其自己的遗忘门相关联。这允许父节点有选择地集成来自每个子节点的隐藏信息25,26。在 LSTM 单元中,隐藏状态是根据当前输入和前一时间步的隐藏状态计算的。相比之下,Tree-LSTM 单元中的隐藏状态是使用当前输入和多个子 Tree-LSTM 单元的隐藏状态来计算的27,28,29。LSTM和Tree-LSTM的结构如图1所示。 3分别为a、b。
由于Transformers中的位置编码和Bi-LSTM获得的位置编码本身并不能捕获句子的句法结构,因此引入Tree-LSTM来对源语言句子的句法结构进行建模和分析。为了提高位置编码在表示位置信息方面的准确性,本研究结合了 Tree-LSTM。此外,还采用自注意力机制来计算句子中单词之间的依赖关系。在该机制中,输入由当前父节点所有子节点的隐向量、子节点的词向量以及父节点本身的词向量组成。词向量用于计算父节点和子节点之间的注意力权重,而隐向量用于计算加权和向量\(\stackrel{\sim}{h}\),如图所示 4。
给定一个输入序列\(X=\{{x}_{1},{x}_{2},\ldots,{x}_{n}\}\),依赖关系\({\gamma}_{i}\)头节点与其子节点之间我通过点积计算。计算出的\({\gamma}_{i}\)然后乘以相应的隐藏向量\({你好}\)子节点的结构,并将结果相加以获得该子树的头节点的语法结构表示。然后将子树中所有子节点的隐藏向量的加权和传递给激活函数以产生\(\stackrel{\sim}{h}\),如方程式中所述。(10)——(12)。
$${\gamma}_{i}=\frac{\text{exp}\left({z}_{i}^{T}z\right)}{\sum_{k=1}^{n}\text{exp}\left({z}_{k}^{T}z\right)}$$
(10)
$$g=\sum_{i=1}^{n}{\gamma}_{i}{h}_{i}$$
(11)
$$\stackrel{\sim}{h}=\text{tanh}({W}^{\left(t\right)}g+{b}^{\left(t\right)})$$
(12)
在此背景下,\({\gamma}_{i}\)表示头节点与其所属节点之间的依赖关系我-第一个子节点;\(z\)表示头节点的词向量;\({z}_{i}\)表示的词向量我-第一个子节点;\({你好}\)表示隐藏向量我-第一个子节点;n表示子节点总数;\(克\)表示头节点的句法结构表示。通过给子节点分配不同的注意力权重,加权和\(\stackrel{\sim}{h}\)获得,提供头节点的隐藏向量。该向量用作翻译模型的输入。源语言序列是通过从下到上遍历每个依存树来生成的,所有节点输出向量作为翻译模型的输入序列。结果与讨论实验设计和数据来源
用于培训的数据集包括机器翻译17(WMT17)的研讨会和机器翻译(CWMT)的中国研讨会。验证集由NewsDev2017组成,测试集包括Newstest2017,CWMT2018和Newstest2018。在进行实验之前,执行了几个数据预处理步骤,包括数据清洁,令牌化和符号处理。实验环境和参数设置显示在表中 1。表1实验环境和参数设置。在实验2中,使用通过物联网收集的数据集评估了拟议模型翻译日本Waka诗歌的性能。
这些样品包括各种类型和风格的Waka。他们被分为8:1:1的训练,测试和验证集。实验2中使用的日本WAKA测试数据在表中介绍 2。表2样本WAKA测试数据。以下两个示例突出了处理WAKA翻译中模型的优势和劣势。
- ®ç° - ®,âââ» - ®Åµ - ®,è«ââ€â€â££,(Hyakunin Isshu)展示了模型在翻译自然图像和直接情感表达方面的熟练程度。这种瓦卡(Waka)描述了秋季田地中的临时稻草小屋和生活的艰辛,被有效地翻译成€ç§Å了©¶èµ·Çè了ű,űét,保留情感氛围和基本含义。尽管某些细微差别(例如押韵结构)丢失了,但该模型对内容和图像的忠诚程度很高。
相比之下,wakaââ€â«,é¢� - ®Å?¹,ç§
é,â€â€â€,(人类YåShå«)揭示了模型的困难,这是深层的隐喻和文化背景。在这首诗中,隐喻地指的是生命的瞬间和脆弱性。
由于Waka的特定图像和文化意义,该模型努力充分捕捉原始诗的反思对无常和短暂的生活本质。这两个实验都采用BLEU评分作为评估度量,以评估机器翻译结果的质量。BLEU得分通过将机器生成的翻译与人类参考翻译进行比较,重点是两者之间的重叠来衡量翻译精度。
30。调整变压器编码器层的数量在变压器模型中,编码层的数量增加使该模型能够捕获更多的语义信息。
基于这些实验结果,该模型的编码层的最佳数量设置为6。实验1中的模型性能验证为了验证提出的模型的性能,该实验比较了三个模型变压器+bi-lstm,变压器+tree-lstm和变压器+tree-lstm
(Convs2s)和Google神经机器翻译(GNMT)使用公共数据集。结果如图所示。 6。
如图所示 6,所提出的翻译模型在公共数据集上的翻译任务中的其他模型优于其他模型。
Transformerâ+tree-lstm模型集成了TROE-LSTM,其BLEU得分为23.95。
+TREET-LSTM模型。
7。
跨不同数据集的BLEU分数比较。
在图