您选择的条件: 语言学及应用语言学
  • 生成语言学理论模式下对语位化理论的再探究

    分类: 中国语言文学 >> 语言学及应用语言学 提交时间: 2024-05-11

    摘要:由于书面语符号形式文字的概念一直以来是一个热点问题,与之产生的汉语本位之争也是国内学者争论的焦点问题,本文依托生成语言学相关理论,提出书面语“形+词/语素”的形式为语位,并提出语位是书面语的符号,接着我们通过对语言生成机制的再研究,提出了语言状态机制的运行方式,并提出认知态、形体态概念,以此提出语位是语言形体态与语言认知态在一定条件下进行指称功能的激活与使用后,来完成语言储藏传递的语言单位,并与之建立了语位化理论和汉语语位化理论及其相关标识。

  • 民国报纸文本基准真值制作的挑战与思考——以《晶报》为例

    分类: 中国语言文学 >> 语言学及应用语言学 提交时间: 2024-04-22 合作期刊: 《数字人文研究》

    摘要:欧洲和北美众多研究学者已对机器学习在光学字符识别中的应用进行了探索,许多项目也正在为此创建基准真值(ground truth, GT)数据。但对于非拉丁文本(non-Latin script)阅读材料来说,情况则有所不同。德国海德堡大学的“中国早期报刊在线数据库”(ECPO)项目于2021年开始研究如何基于中国报刊史料生成机器可读文本。ECPO采用多种机器学习方法(如卷积神经网络)开发了一个半自动流程来生成机器可读的全文文本,并选取民国时期娱乐小报《晶报》(1919—1940年)作为实验基础。文章聚焦于两方面:一是对基准真值编辑工作流程作详细阐述,包括组建编辑团队、组织工作流程、建立操作规范和确保质量控制;二是探讨制作基准真值时遇到的具体困难,包括字符编码问题、与Unicode相关的异体字符问题等。该研究项目创建了两个基准真值数据集,分别是文本型/结构化数据(全文基准真值,full-text GT)和版面分割数据(几何基准真值,geometry GT)。此外,文章还指出研究项目发现的问题及应对方案,期望提高机器学习效率,并为其他从事非拉丁文阅读材料研究的同仁提供借鉴。