摘要: 目的/意义 从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。 方法/过程 文章提出无监督词库构建的方法,在UniLM模型的基础上,分别与BERT、RoBERTa、RoFormer和RoFormerV2预训练模型相结合并对模型进行微调,借助UniLM模型融合古文领域知识特征将源语言和目标语言之间的语言关系生成中间的语言表示,利用预训练模型学习上下文相关的语言表示,增加语义之间的关联性,从而提升古现机器翻译的性能。 结果/结论 实验结果表明,融合古文领域知识特征的古文机器翻译在BERT、RoBERTa、RoFormer和RoFormerV2预训练模型上的BLEU值分别提高了0.27到1.12,证明了提出方法的有效性。
[V1] | 2024-04-10 09:03:29 | PSSXiv:202404.00059V1 | 下载全文 |
1. 新时代我国红色档案管理的实然困境与应然进路_朱彤 | 2024-05-11 |
2. 数字人文视域下红色档案传承红色基因路径探析_朱彤 | 2024-05-11 |
3. 红色档案资源弘扬伟大建党精神的三重维度_朱彤 | 2024-05-11 |
4. 元治理视域下档案治理主体协同策略研究_朱彤-4 | 2024-05-11 |
5. 论红色档案传承红色基因的生成机理、价值意蕴及实践路径_朱彤 | 2024-05-11 |