CTAP  for Chinese

目前已有多种用于汉语的自动化文本复杂性分析工具,例如 Chinese Readability Index Explorer (CRIE)、Chinese Coh-Metrix 和 Chi-Editor(这些工具提供的复杂性指标由于研究目的的不同而有所差异。将汉语组件整合到 CommonTextAnalysis Platform (CTAP)中,以支持汉语文本分析。由于语言特性的差异,文本复杂性指标在不同语言中的效果和合理性各不相同。因此,我们通过集成汉语文本处理工具,仅迁移了为英语、德语和意大利语提供的 40 个语言复杂性指标,并为汉语新增了 150 个指标。CTAP 的汉语组件提供了一套比现有汉语文本计算工具更全面的指标,总计支持 196 个语言复杂性度量,其中我们实现的平均依存距离、最大依存距离、平均句法树高度和最大句法树高度不仅适用于汉语,也可用于评估英语文本的复杂性。

汉语复杂性研究的主要进展

以二语学习领域为例,相关研究包括:

  • 调查学习者二语产出的句法复杂性。
  • 探讨二语语言复杂性的纵向发展。
  • 研究复杂性与二语写作质量之间的关系。
  • 学习任务对学习者二语产出复杂性的影响。
  • 对二语学习者在不同文体写作中复杂性特征的比较。

此外,复杂性还被用于文本可读性评估。例如:

  • 构建了包含 165 个具体复杂性指标的汉语复杂性指数系统,涵盖字符、词汇、句法和文本四个层次,用于评估汉语教材的可读性。
  • 使用 85 个复杂性指标对二语教学材料的可读性进行精细评估。

汉语文本复杂性计算系统概述

目前已有若干汉语文本复杂性分析的自动化计算工具:

  1. CRIE(Chinese Readability Index Explorer)
    • 用于分析文本复杂性和可读性。
    • 包含三个子系统:
      • CRIE:针对母语者的汉语文本分析。
      • CRIE-CFL:用于分析对外汉语学习材料的阅读内容。
      • CRIE-DK:评估文本知识内容水平,例如网页或电子书的可读性与概念难度。
  2. Chinese Coh-Metrix
    • 专注于分析汉语文本的衔接性与连贯性。
    • 关注指称衔接(如:局部名词重叠)、连接词(如:并列连接词)以及潜在语义分析的测量,基于 Coh-Metrix开发。
  3. Chi-Editor
    • 用于分析外语阅读文本的可读性。
    • 旨在为国际汉语教师提供阅读材料的难度评估。

CTAP 的汉语组件包含 196 个语言复杂性指数,这些通用指标包括词汇丰富度(如类型-标记比,TTR)、词汇变异性(如动词变异性)、词汇密度(如名词密度)、句法成分数量(如动词短语数)和句法复杂性(如名词短语平均长度)。由于汉语与拼音文字在形态和句法特性上的巨大差异,CTAP 为汉语新增了 150 个独特复杂性指数,涵盖以下四个层次:

1 字符层次

       字符复杂性

汉字由部件构成,部件由笔画组成。部件数量和笔画数量是衡量字符复杂性的有效指标。

  • 笔画数量指标:如平均字符笔画数。
  • 部件数量指标:如平均汉字部件数。

此外,将汉字按笔画数量分为三类:

  • 低笔画数字符(1 至 8 笔)。
  • 中笔画数字符(9 至 16 笔)。
  • 高笔画数字符(大于 16 笔)。
    相关信息来源于教育部和国家语言文字工作委员会制定的《汉语水平词表》(2006),包含 5,500 个字符。

字符丰富性

字符丰富性指文本中汉字使用的变异程度。

  • 最常用的指标是 类型-标记比 (TTR),即文本中汉字种类数与总数的比值。TTR 值越高,使用的汉字越丰富。
  • 考虑到文本长度对 TTR 的影响,CTAP 还引入了 Log TTR、Root TTR、Uber TTR 和 Corrected TTR。
  • 文本中仅出现一次的字符数量和比例也被用于反映字符丰富性。

字符成熟度

字符成熟度受汉字日常使用频率的影响,频率越高的汉字越易识别。

  • 相关指标基于汉字频率表计算,包括 中文千兆字语料库频率表二语教材汉字频率表当代汉语语料库频率表
  • 指标类型:对数字符频率(类型)和对数字符频率(标记)。

此外,《国际中文教育中文水平等级标准》中规定的汉字难度级别是评估汉字难度的重要因素。级别越高的汉字,难度越大。

2 词汇层次

在词汇层次,复杂性指数主要分为以下五类:词汇丰富性、词汇变异性、词汇密度、词汇成熟度以及基本词汇统计。

词汇丰富性

词汇丰富性指数反映文本中单词的重复程度,不受词性限制。重复越少,使用的词汇越丰富。

  • 指标:与字符丰富性相同,包含 TTR、Log TTR、Root TTR、Corrected TTR、Uber TTR,以及仅出现一次的词汇数量及其占比。

词汇变异性

词汇变异性指数衡量五种实词类型(名词、动词、形容词、副词以及所有实词)的多样性。

  • 实词是文章信息传递的重要组成部分,其比例直接影响句子的处理时间。
  • 指标:计算每种实词类型数量占所有实词数量的比值,并特别关注动词的使用比例。

词汇密度

词汇密度指数反映不同词性在文本中的密度。

  • 中文中,词分为实词(表达信息)和虚词(组织结构、表达逻辑)。
  • 实词的比例越高,词汇密度越大,信息传递越多;虚词则对文本难度预测贡献显著。
  • 指标:计算各类实词和虚词占总词汇数的比值。

词汇成熟度

词汇成熟度通过词频衡量。

  • 词频与反应时间:词频越高,响应速度越快。
  • 指标基于多种语料库(如中文千兆字语料库、二语教材语料库等),分别计算所有词汇、实词和虚词的词汇成熟度。

基本词汇统计

  • 包括单字词、双字词、三字词及四字及以上词汇的数量,用于衡量文本词长及其对理解难度的影响。

3 句子层次

句子层次分析文本中句子的长度、句子成分复杂性及句法结构复杂性。

句子长度

  • 指标:句子平均长度(字符和词)、最长句子长度及其标准差。
  • 句子越长,信息量越大,理解难度越高。

句子成分复杂性

  • 分析句子中每种句法成分的数量、平均长度及多样性。
  • 主要成分包括:名词短语、动词短语、介词短语、并列短语、形容词修饰语及句子
  • 指标与小学及中学教材的年级划分相关。

句法结构复杂性

  • 解析树深度:解析树越高,句法越复杂。
  • 依存距离:反映语法处理的认知难度,距离越长,难度越大。
  • 语法复杂性:包括平均语法层级、每个层级的语法比例等。
  • 搭配复杂性:基于句法复杂性提出特征。

3.2.4 段落层次

段落层次主要包括段落基本统计和衔接复杂性。

段落基本统计

  • 指标:段落数、平均段落长度及最长段落长度。

衔接复杂性

  • 衔接性分为词汇衔接指称衔接逻辑衔接
    • 词汇衔接:分析局部和整体的词汇重复。
    • 指称衔接:计算人称代词、疑问代词和指示代词的比例。
    • 逻辑衔接:包括并列、替代、递进、条件、假设、因果、目的及让步等逻辑关系词的比例。

对四种中文语言复杂性分析工具进行比较:CRIE、Chinese Coh-Metrix、Chi-Editor 和 CTAP。比较从以下维度展开:指数集合、功能、结果解释、源代码开放性、扩展性和透明度。

4.1 语言复杂性指数

由于研究目标不同,这些工具提供的指数集合差异显著:

  • CRIE 专注于母语文本、二语文本和特定领域文本的复杂性,提供36个指数,其中29个为通用指数,7个用于二语文本复杂性。
  • Chinese Coh-Metrix 聚焦文本衔接性,共提供50个指数,其中31个用于文章衔接性。
  • Chi-Editor 针对国际汉语教师的阅读材料分级,仅分析6个指标。
  • CTAP 提供196个复杂性指数,范围广泛,覆盖字符、词汇、句子和段落层次。其全面性和灵活性优于其他工具。

4.1.1 字符层次

  • CRIE 和 Chinese Coh-Metrix 关注笔画数量。
  • CTAP 在此基础上增加了部件数量和仅出现一次的字符数量,并提供更精细的字符丰富性指标(如Root TTR, Uber TTR)。
  • 字符成熟度:CTAP 唯一采用参考语料库来衡量。

4.1.2 词汇层次

  • 词汇丰富性:CTAP 提供多种 TTR 变体,而 CRIE 和 Coh-Metrix 的选项较少。
  • 词汇变异性:CTAP 是唯一提供此类指标的工具。
  • 词汇密度:CTAP 分析了9种实词和4种虚词的密度,而 CRIE 和 Coh-Metrix 分别只分析3种和7种词性。
  • 词汇成熟度:CTAP 使用多种语料库,包括二语教材语料库,而 CRIE 和 Coh-Metrix 使用较单一的资源。
  • 词长:CTAP 提供了单字词、双字词、三字词以及四字及以上词的统计。

4.1.3 句子层次

  • 句子长度:CTAP 除计算平均句长和最长句长外,还分析句长分布(标准差)。
  • 句子成分复杂性:CTAP 提供句法成分的数量、平均长度和密度,CRIE 支持有限的计算。
  • 句法结构复杂性:CTAP 是唯一引入句法树、依存关系和语法搭配信息的工具。

4.1.4 段落层次

  • 段落基本统计:CTAP 提供5个指标,CRIE 提供段落数和段落中句子平均数。
  • 衔接复杂性:CTAP 提供丰富的参考、连接词和词汇重叠指标,Coh-Metrix 增加了句法相似性、最小编辑距离和潜在语义分析(LSA)。

4.2 功能比较

4.2.1 语料库管理

  • CTAP 支持多文本语料库的上传、存储和管理,便于从不同角度分析。
  • 其他工具如 Coh-Metrix 和 Chi-Editor 仅支持逐一上传,CRIE 支持批量上传但有限制。

4.2.2 特征选择

  • Chi-Editor 不支持特征选择,仅提供默认指标值。
  • CRIE 和 Coh-Metrix 支持选择,但限制较多。
  • CTAP 支持根据研究需求定制多维度的特征集合,并为每个指标提供详细解释。

4.2.3 结果可视化

  • CTAP 支持本地下载分析结果和基本可视化操作,帮助用户进一步分析。
  • 其他工具(如 CRIE 和 Coh-Metrix)提供固定格式的可视化结果。

4.3 结果解释

  • CRIE 和 Chi-Editor 提供基于参考语料库的难度评估。
  • CTAP 和 Coh-Metrix 仅提供数值,允许用户自由定义基准。

4.4 源代码开放性

  • CTAP 是唯一开源的工具,源代码可用于新增指标或语言模块。
  • 其他工具仅提供在线界面。

4.5 扩展性

  • CTAP 支持多语言协作研究,架构独立,便于更新。
  • 其他工具仅支持中文分析。

4.6 结果透明度

  • Chi-Editor 提供分词和词性标注结果的详细信息,CTAP 等工具则未展示此部分中间结果。

发表评论