分类: 信息资源管理 >> 情报学 提交时间: 2024-09-09
摘要:Web of Science是获取学术信息的重要数据库之一,拥有复杂的学科分类体系,该数据库的合理性和准确性对于学术资源的检索、促进学科内部的研究具有重要意义。本研究选取了Web of Science数据库中“多学科类别”的数据集,从极大似然理论出发进行推导,结合大模型梯度显著度的可解释理论,挖掘文本的分布特征并且量化类别特征并衡量类别相似度,由此提出了一种文本提取和分类预测方法。本文使用该方法不仅重新对Web of Science数据库中单分类标签进行预测,通过提高文本分类标注的准确率而改善了质量,而且实验证明了该方法也可对多分类有效预测,进而对文献分类提供决策依据。研究发现:通过本文所提出的方法对类别特征量化和类别相似度的计算,找出了预测标签经常在某几个特定类别集合中反复出现的原因。该方法不仅可以有效指导文献分类,也可以衡量数据库类别划分的合理性,还能通过分析期刊收录的论文,判断期刊所发表的论文与期刊实际类别相符的程度。