目前已有多种用于汉语的自动化文本复杂性分析工具,例如 Chinese Readability Index Explorer (CRIE)、Chinese Coh-Metrix 和 Chi-Editor(这些工具提供的复杂性指标由于研究目的的不同而有所差异。将汉语组件整合到 CommonTextAnalysis Platform (CTAP)中,以支持汉语文本分析。由于语言特性的差异,文本复杂性指标在不同语言中的效果和合理性各不相同。因此,我们通过集成汉语文本处理工具,仅迁移了为英语、德语和意大利语提供的 40 个语言复杂性指标,并为汉语新增了 150 个指标。CTAP 的汉语组件提供了一套比现有汉语文本计算工具更全面的指标,总计支持 196 个语言复杂性度量,其中我们实现的平均依存距离、最大依存距离、平均句法树高度和最大句法树高度不仅适用于汉语,也可用于评估英语文本的复杂性。
汉语复杂性研究的主要进展
以二语学习领域为例,相关研究包括:
- 调查学习者二语产出的句法复杂性。
- 探讨二语语言复杂性的纵向发展。
- 研究复杂性与二语写作质量之间的关系。
- 学习任务对学习者二语产出复杂性的影响。
- 对二语学习者在不同文体写作中复杂性特征的比较。
此外,复杂性还被用于文本可读性评估。例如:
- 构建了包含 165 个具体复杂性指标的汉语复杂性指数系统,涵盖字符、词汇、句法和文本四个层次,用于评估汉语教材的可读性。
- 使用 85 个复杂性指标对二语教学材料的可读性进行精细评估。
汉语文本复杂性计算系统概述
目前已有若干汉语文本复杂性分析的自动化计算工具:
- CRIE(Chinese Readability Index Explorer)
- 用于分析文本复杂性和可读性。
- 包含三个子系统:
- CRIE:针对母语者的汉语文本分析。
- CRIE-CFL:用于分析对外汉语学习材料的阅读内容。
- CRIE-DK:评估文本知识内容水平,例如网页或电子书的可读性与概念难度。
- Chinese Coh-Metrix
- 专注于分析汉语文本的衔接性与连贯性。
- 关注指称衔接(如:局部名词重叠)、连接词(如:并列连接词)以及潜在语义分析的测量,基于 Coh-Metrix开发。
- Chi-Editor
- 用于分析外语阅读文本的可读性。
- 旨在为国际汉语教师提供阅读材料的难度评估。
CTAP 的汉语组件包含 196 个语言复杂性指数,这些通用指标包括词汇丰富度(如类型-标记比,TTR)、词汇变异性(如动词变异性)、词汇密度(如名词密度)、句法成分数量(如动词短语数)和句法复杂性(如名词短语平均长度)。由于汉语与拼音文字在形态和句法特性上的巨大差异,CTAP 为汉语新增了 150 个独特复杂性指数,涵盖以下四个层次:
1 字符层次
字符复杂性
汉字由部件构成,部件由笔画组成。部件数量和笔画数量是衡量字符复杂性的有效指标。
- 笔画数量指标:如平均字符笔画数。
- 部件数量指标:如平均汉字部件数。
此外,将汉字按笔画数量分为三类:
- 低笔画数字符(1 至 8 笔)。
- 中笔画数字符(9 至 16 笔)。
- 高笔画数字符(大于 16 笔)。
相关信息来源于教育部和国家语言文字工作委员会制定的《汉语水平词表》(2006),包含 5,500 个字符。
字符丰富性
字符丰富性指文本中汉字使用的变异程度。
- 最常用的指标是 类型-标记比 (TTR),即文本中汉字种类数与总数的比值。TTR 值越高,使用的汉字越丰富。
- 考虑到文本长度对 TTR 的影响,CTAP 还引入了 Log TTR、Root TTR、Uber TTR 和 Corrected TTR。
- 文本中仅出现一次的字符数量和比例也被用于反映字符丰富性。
字符成熟度
字符成熟度受汉字日常使用频率的影响,频率越高的汉字越易识别。
- 相关指标基于汉字频率表计算,包括 中文千兆字语料库频率表、二语教材汉字频率表 和 当代汉语语料库频率表。
- 指标类型:对数字符频率(类型)和对数字符频率(标记)。
此外,《国际中文教育中文水平等级标准》中规定的汉字难度级别是评估汉字难度的重要因素。级别越高的汉字,难度越大。
2 词汇层次
在词汇层次,复杂性指数主要分为以下五类:词汇丰富性、词汇变异性、词汇密度、词汇成熟度以及基本词汇统计。
词汇丰富性
词汇丰富性指数反映文本中单词的重复程度,不受词性限制。重复越少,使用的词汇越丰富。
- 指标:与字符丰富性相同,包含 TTR、Log TTR、Root TTR、Corrected TTR、Uber TTR,以及仅出现一次的词汇数量及其占比。
词汇变异性
词汇变异性指数衡量五种实词类型(名词、动词、形容词、副词以及所有实词)的多样性。
- 实词是文章信息传递的重要组成部分,其比例直接影响句子的处理时间。
- 指标:计算每种实词类型数量占所有实词数量的比值,并特别关注动词的使用比例。
词汇密度
词汇密度指数反映不同词性在文本中的密度。
- 中文中,词分为实词(表达信息)和虚词(组织结构、表达逻辑)。
- 实词的比例越高,词汇密度越大,信息传递越多;虚词则对文本难度预测贡献显著。
- 指标:计算各类实词和虚词占总词汇数的比值。
词汇成熟度
词汇成熟度通过词频衡量。
- 词频与反应时间:词频越高,响应速度越快。
- 指标基于多种语料库(如中文千兆字语料库、二语教材语料库等),分别计算所有词汇、实词和虚词的词汇成熟度。
基本词汇统计
- 包括单字词、双字词、三字词及四字及以上词汇的数量,用于衡量文本词长及其对理解难度的影响。
3 句子层次
句子层次分析文本中句子的长度、句子成分复杂性及句法结构复杂性。
句子长度
- 指标:句子平均长度(字符和词)、最长句子长度及其标准差。
- 句子越长,信息量越大,理解难度越高。
句子成分复杂性
- 分析句子中每种句法成分的数量、平均长度及多样性。
- 主要成分包括:名词短语、动词短语、介词短语、并列短语、形容词修饰语及句子。
- 指标与小学及中学教材的年级划分相关。
句法结构复杂性
- 解析树深度:解析树越高,句法越复杂。
- 依存距离:反映语法处理的认知难度,距离越长,难度越大。
- 语法复杂性:包括平均语法层级、每个层级的语法比例等。
- 搭配复杂性:基于句法复杂性提出特征。
3.2.4 段落层次
段落层次主要包括段落基本统计和衔接复杂性。
段落基本统计
- 指标:段落数、平均段落长度及最长段落长度。
衔接复杂性
- 衔接性分为词汇衔接、指称衔接和逻辑衔接。
- 词汇衔接:分析局部和整体的词汇重复。
- 指称衔接:计算人称代词、疑问代词和指示代词的比例。
- 逻辑衔接:包括并列、替代、递进、条件、假设、因果、目的及让步等逻辑关系词的比例。
对四种中文语言复杂性分析工具进行比较:CRIE、Chinese Coh-Metrix、Chi-Editor 和 CTAP。比较从以下维度展开:指数集合、功能、结果解释、源代码开放性、扩展性和透明度。
4.1 语言复杂性指数
由于研究目标不同,这些工具提供的指数集合差异显著:
- CRIE 专注于母语文本、二语文本和特定领域文本的复杂性,提供36个指数,其中29个为通用指数,7个用于二语文本复杂性。
- Chinese Coh-Metrix 聚焦文本衔接性,共提供50个指数,其中31个用于文章衔接性。
- Chi-Editor 针对国际汉语教师的阅读材料分级,仅分析6个指标。
- CTAP 提供196个复杂性指数,范围广泛,覆盖字符、词汇、句子和段落层次。其全面性和灵活性优于其他工具。
4.1.1 字符层次
- CRIE 和 Chinese Coh-Metrix 关注笔画数量。
- CTAP 在此基础上增加了部件数量和仅出现一次的字符数量,并提供更精细的字符丰富性指标(如Root TTR, Uber TTR)。
- 字符成熟度:CTAP 唯一采用参考语料库来衡量。
4.1.2 词汇层次
- 词汇丰富性:CTAP 提供多种 TTR 变体,而 CRIE 和 Coh-Metrix 的选项较少。
- 词汇变异性:CTAP 是唯一提供此类指标的工具。
- 词汇密度:CTAP 分析了9种实词和4种虚词的密度,而 CRIE 和 Coh-Metrix 分别只分析3种和7种词性。
- 词汇成熟度:CTAP 使用多种语料库,包括二语教材语料库,而 CRIE 和 Coh-Metrix 使用较单一的资源。
- 词长:CTAP 提供了单字词、双字词、三字词以及四字及以上词的统计。
4.1.3 句子层次
- 句子长度:CTAP 除计算平均句长和最长句长外,还分析句长分布(标准差)。
- 句子成分复杂性:CTAP 提供句法成分的数量、平均长度和密度,CRIE 支持有限的计算。
- 句法结构复杂性:CTAP 是唯一引入句法树、依存关系和语法搭配信息的工具。
4.1.4 段落层次
- 段落基本统计:CTAP 提供5个指标,CRIE 提供段落数和段落中句子平均数。
- 衔接复杂性:CTAP 提供丰富的参考、连接词和词汇重叠指标,Coh-Metrix 增加了句法相似性、最小编辑距离和潜在语义分析(LSA)。
4.2 功能比较
4.2.1 语料库管理
- CTAP 支持多文本语料库的上传、存储和管理,便于从不同角度分析。
- 其他工具如 Coh-Metrix 和 Chi-Editor 仅支持逐一上传,CRIE 支持批量上传但有限制。
4.2.2 特征选择
- Chi-Editor 不支持特征选择,仅提供默认指标值。
- CRIE 和 Coh-Metrix 支持选择,但限制较多。
- CTAP 支持根据研究需求定制多维度的特征集合,并为每个指标提供详细解释。
4.2.3 结果可视化
- CTAP 支持本地下载分析结果和基本可视化操作,帮助用户进一步分析。
- 其他工具(如 CRIE 和 Coh-Metrix)提供固定格式的可视化结果。
4.3 结果解释
- CRIE 和 Chi-Editor 提供基于参考语料库的难度评估。
- CTAP 和 Coh-Metrix 仅提供数值,允许用户自由定义基准。
4.4 源代码开放性
- CTAP 是唯一开源的工具,源代码可用于新增指标或语言模块。
- 其他工具仅提供在线界面。
4.5 扩展性
- CTAP 支持多语言协作研究,架构独立,便于更新。
- 其他工具仅支持中文分析。
4.6 结果透明度
- 仅 Chi-Editor 提供分词和词性标注结果的详细信息,CTAP 等工具则未展示此部分中间结果。