基于UniLM模型的古文到现代文机器翻译词汇共享研究

作者： 许乾坤 ¹ 王东波 ^1,2 刘禹彤 ¹ 吴梦成 ¹ 黄水清 ^1,2
作者单位：

1. 南京农业大学信息管理学院，江苏210095

2. 南京农业大学人文与社会计算研究中心，江苏210095
提交时间：2024-04-10

摘要: 目的/意义从古文到现代文的机器翻译过程中，由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异，并且缺少公开的古文分词数据，使得机器翻译系统对古文的理解和处理能力存在偏差，一定程度上影响了翻译的质量。方法/过程文章提出无监督词库构建的方法，在UniLM模型的基础上，分别与BERT、RoBERTa、RoFormer和RoFormerV2预训练模型相结合并对模型进行微调，借助UniLM模型融合古文领域知识特征将源语言和目标语言之间的语言关系生成中间的语言表示，利用预训练模型学习上下文相关的语言表示，增加语义之间的关联性，从而提升古现机器翻译的性能。结果/结论实验结果表明，融合古文领域知识特征的古文机器翻译在BERT、RoBERTa、RoFormer和RoFormerV2预训练模型上的BLEU值分别提高了0.27到1.12，证明了提出方法的有效性。

UniLM模型古文分词词汇共享古文翻译机器翻译

分类： 信息资源管理 >> 情报学
稿件状态： 已在期刊出版

期刊名称：

《情报资料工作》

引用： PSSXiv:202404.00059 (或此版本 PSSXiv:202404.00059V1)
DOI:10.12451/202404.00059V1
CSTR:32012.36.PSSXiv.202404.00059.V1
推荐引用方式： 许乾坤,王东波,刘禹彤,吴梦成,黄水清.(2024).基于UniLM模型的古文到现代文机器翻译词汇共享研究.情报资料工作.[PSSXiv:202404.00059] (点此复制)

版本历史

[V1]

2024-04-10 09:03:29

PSSXiv:202404.00059V1

下载全文

1. 新时代我国红色档案管理的实然困境与应然进路_朱彤	2024-05-11
2. 数字人文视域下红色档案传承红色基因路径探析_朱彤	2024-05-11
3. 红色档案资源弘扬伟大建党精神的三重维度_朱彤	2024-05-11
4. 元治理视域下档案治理主体协同策略研究_朱彤-4	2024-05-11
5. 论红色档案传承红色基因的生成机理、价值意蕴及实践路径_朱彤	2024-05-11

基于UniLM模型的古文到现代文机器翻译词汇共享研究

版本历史

相关论文推荐

笔记记录


实名公开评论匿名评论仅发送给作者

基于UniLM模型的古文到现代文机器翻译词汇共享研究

版本历史

相关论文推荐

填写意向审稿专家信息

提示：如有意向专家和回避专家请填写；如没有可直接跳过此步骤。

填写回避审稿专家信息

笔记记录