教育领域人工智能基准测试：跨学科中文大型语言模型的综合评估

王野

教育领域人工智能基准测试：跨学科中文大型语言模型的综合评估

作者： 王野 ¹
作者单位：

1. 南宁师范大学计算机与信息工程学院
提交时间：2024-08-29

摘要: 随着ChatGPT的发布，大型语言模型(large language mode1,LLM)已经在全球迅速崭露头角并在各行各业广泛应用。与此同时，以中文语言为基础的大型语言模型研究逐渐展开，其在教育领域的应用与效果也有待研究。为此，文章以10年高考题目数据集“GAOKAO-Bench”为测试数据，通过统计和分析 11个不同来源(包括大型企业、学术机构和新兴公司)的开源中文大型语言模型在9个不同学科(语文、数学、英语、物理、化学、生物、历史、政治、地理)中的表现，来评估不同的中文大型语言模型在教育教学自动评估中的效果。随后，文章根据评估结果，从多学科、多维度出发，对模型在各个科目上的推理表现进行分析研究。最后，文章对中文大型语言模型在教育教学自动评估中可能遇到的挑战与问题进行探讨，并提出可供优化的思路与方法，以期推动中文大型语言模型在未来教育教学中的发展与播。

人工智能大型语言模型深度学习自然语言教学自动评估 ChatGPT

分类： 教育学 >> 教育技术学
稿件状态： 已在期刊出版

期刊名称：

《广西职业技术学院学报》 2024年第1期

引用： PSSXiv:202409.01367 (或此版本 PSSXiv:202409.01367V1)
DOI:10.12451/202409.01367
CSTR:32012.36.PSSXiv202409.01367
推荐引用方式： 王野.教育领域人工智能基准测试：跨学科中文大型语言模型的综合评估.广西职业技术学院学报,2024(1).[PSSXiv:202409.01367V1] (点此复制)

版本历史

[V1]

2024-08-29 11:17:48

PSSXiv:202409.01367V1

下载全文

1. 红都瑞金双拥文化在初中历史教学的融入探索	2024-09-20
2. 思维导图在小学“统计与概率”教学中的应用研究	2024-09-20
3. 新时代学校家庭社会协同育人———价值意蕴、现实困境与实践路径	2024-09-20
4. 初中写作教学中“支架”的运用研究	2024-09-18
5. 数字化时代师范生信息化教学能力:基本样态、关键问题与可为路径	2024-09-18

教育领域人工智能基准测试：跨学科中文大型语言模型的综合评估

版本历史

相关论文推荐

笔记记录


实名公开评论匿名评论仅发送给作者

教育领域人工智能基准测试：跨学科中文大型语言模型的综合评估

版本历史

相关论文推荐

填写意向审稿专家信息

提示：如有意向专家和回避专家请填写；如没有可直接跳过此步骤。

填写回避审稿专家信息

笔记记录