哲学社会科学预印本平台

按提交时间

2024
1

按主题分类

情报学
1

按作者

按机构

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 南京农业大学人文与社会计算研究中心，江苏210095

1. PSSXiv:202404.00059
下载全文

基于UniLM模型的古文到现代文机器翻译词汇共享研究

分类：信息资源管理 >> 情报学提交时间： 2024-04-10 合作期刊: 《情报资料工作》

许乾坤王东波刘禹彤吴梦成黄水清

摘要：目的/意义从古文到现代文的机器翻译过程中，由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异，并且缺少公开的古文分词数据，使得机器翻译系统对古文的理解和处理能力存在偏差，一定程度上影响了翻译的质量。方法/过程文章提出无监督词库构建的方法，在UniLM模型的基础上，分别与BERT、RoBERTa、RoFormer和RoFormerV2预训练模型相结合并对模型进行微调，借助UniLM模型融合古文领域知识特征将源语言和目标语言之间的语言关系生成中间的语言表示，利用预训练模型学习上下文相关的语言表示，增加语义之间的关联性，从而提升古现机器翻译的性能。结果/结论实验结果表明，融合古文领域知识特征的古文机器翻译在BERT、RoBERTa、RoFormer和RoFormerV2预训练模型上的BLEU值分别提高了0.27到1.12，证明了提出方法的有效性。

点击量 52 下载量 5 评论 0

链接：

主办：中国人民大学承办：中国人民大学书报资料中心
邮箱: yuyin@ruc.edu.cn 电话:62516972 62515820
地址: 北京市海淀区中关村大街59号
版权所有©2024 中国人民大学

常见问题解答许可声明法律声明问题反馈

京公网安备11040102700185 京ICP备05066828号-47
（署）网出证（京）字第090号