CTAP for Chinese – rayzark小屋

目前已有多种用于汉语的自动化文本复杂性分析工具，例如 Chinese Readability Index Explorer (CRIE)、Chinese Coh-Metrix 和 Chi-Editor（这些工具提供的复杂性指标由于研究目的的不同而有所差异。将汉语组件整合到 CommonTextAnalysis Platform (CTAP)中，以支持汉语文本分析。由于语言特性的差异，文本复杂性指标在不同语言中的效果和合理性各不相同。因此，我们通过集成汉语文本处理工具，仅迁移了为英语、德语和意大利语提供的 40 个语言复杂性指标，并为汉语新增了 150 个指标。CTAP 的汉语组件提供了一套比现有汉语文本计算工具更全面的指标，总计支持 196 个语言复杂性度量，其中我们实现的平均依存距离、最大依存距离、平均句法树高度和最大句法树高度不仅适用于汉语，也可用于评估英语文本的复杂性。

汉语复杂性研究的主要进展

以二语学习领域为例，相关研究包括：

调查学习者二语产出的句法复杂性。
探讨二语语言复杂性的纵向发展。
研究复杂性与二语写作质量之间的关系。
学习任务对学习者二语产出复杂性的影响。
对二语学习者在不同文体写作中复杂性特征的比较。

此外，复杂性还被用于文本可读性评估。例如：

构建了包含 165 个具体复杂性指标的汉语复杂性指数系统，涵盖字符、词汇、句法和文本四个层次，用于评估汉语教材的可读性。
使用 85 个复杂性指标对二语教学材料的可读性进行精细评估。

汉语文本复杂性计算系统概述

目前已有若干汉语文本复杂性分析的自动化计算工具：

CRIE（Chinese Readability Index Explorer）
- 用于分析文本复杂性和可读性。
- 包含三个子系统：
  - CRIE：针对母语者的汉语文本分析。
  - CRIE-CFL：用于分析对外汉语学习材料的阅读内容。
  - CRIE-DK：评估文本知识内容水平，例如网页或电子书的可读性与概念难度。
Chinese Coh-Metrix
- 专注于分析汉语文本的衔接性与连贯性。
- 关注指称衔接（如：局部名词重叠）、连接词（如：并列连接词）以及潜在语义分析的测量，基于 Coh-Metrix开发。
Chi-Editor
- 用于分析外语阅读文本的可读性。
- 旨在为国际汉语教师提供阅读材料的难度评估。

CTAP 的汉语组件包含 196 个语言复杂性指数，这些通用指标包括词汇丰富度（如类型-标记比，TTR）、词汇变异性（如动词变异性）、词汇密度（如名词密度）、句法成分数量（如动词短语数）和句法复杂性（如名词短语平均长度）。由于汉语与拼音文字在形态和句法特性上的巨大差异，CTAP 为汉语新增了 150 个独特复杂性指数，涵盖以下四个层次：

1 字符层次

字符复杂性

汉字由部件构成，部件由笔画组成。部件数量和笔画数量是衡量字符复杂性的有效指标。

笔画数量指标：如平均字符笔画数。
部件数量指标：如平均汉字部件数。

此外，将汉字按笔画数量分为三类：

低笔画数字符（1 至 8 笔）。
中笔画数字符（9 至 16 笔）。
高笔画数字符（大于 16 笔）。
相关信息来源于教育部和国家语言文字工作委员会制定的《汉语水平词表》（2006），包含 5,500 个字符。

字符丰富性

字符丰富性指文本中汉字使用的变异程度。

最常用的指标是 类型-标记比 (TTR)，即文本中汉字种类数与总数的比值。TTR 值越高，使用的汉字越丰富。
考虑到文本长度对 TTR 的影响，CTAP 还引入了 Log TTR、Root TTR、Uber TTR 和 Corrected TTR。
文本中仅出现一次的字符数量和比例也被用于反映字符丰富性。

字符成熟度

字符成熟度受汉字日常使用频率的影响，频率越高的汉字越易识别。

相关指标基于汉字频率表计算，包括 中文千兆字语料库频率表、二语教材汉字频率表 和 当代汉语语料库频率表。
指标类型：对数字符频率（类型）和对数字符频率（标记）。

此外，《国际中文教育中文水平等级标准》中规定的汉字难度级别是评估汉字难度的重要因素。级别越高的汉字，难度越大。

2 词汇层次

在词汇层次，复杂性指数主要分为以下五类：词汇丰富性、词汇变异性、词汇密度、词汇成熟度以及基本词汇统计。

词汇丰富性

词汇丰富性指数反映文本中单词的重复程度，不受词性限制。重复越少，使用的词汇越丰富。

指标：与字符丰富性相同，包含 TTR、Log TTR、Root TTR、Corrected TTR、Uber TTR，以及仅出现一次的词汇数量及其占比。

词汇变异性

词汇变异性指数衡量五种实词类型（名词、动词、形容词、副词以及所有实词）的多样性。

实词是文章信息传递的重要组成部分，其比例直接影响句子的处理时间。
指标：计算每种实词类型数量占所有实词数量的比值，并特别关注动词的使用比例。

词汇密度

词汇密度指数反映不同词性在文本中的密度。

中文中，词分为实词（表达信息）和虚词（组织结构、表达逻辑）。
实词的比例越高，词汇密度越大，信息传递越多；虚词则对文本难度预测贡献显著。
指标：计算各类实词和虚词占总词汇数的比值。

词汇成熟度

词汇成熟度通过词频衡量。

词频与反应时间：词频越高，响应速度越快。
指标基于多种语料库（如中文千兆字语料库、二语教材语料库等），分别计算所有词汇、实词和虚词的词汇成熟度。

基本词汇统计

包括单字词、双字词、三字词及四字及以上词汇的数量，用于衡量文本词长及其对理解难度的影响。

3 句子层次

句子层次分析文本中句子的长度、句子成分复杂性及句法结构复杂性。

句子长度

指标：句子平均长度（字符和词）、最长句子长度及其标准差。
句子越长，信息量越大，理解难度越高。

句子成分复杂性

分析句子中每种句法成分的数量、平均长度及多样性。
主要成分包括：名词短语、动词短语、介词短语、并列短语、形容词修饰语及句子。
指标与小学及中学教材的年级划分相关。

句法结构复杂性

解析树深度：解析树越高，句法越复杂。
依存距离：反映语法处理的认知难度，距离越长，难度越大。
语法复杂性：包括平均语法层级、每个层级的语法比例等。
搭配复杂性：基于句法复杂性提出特征。

3.2.4 段落层次

段落层次主要包括段落基本统计和衔接复杂性。

段落基本统计

指标：段落数、平均段落长度及最长段落长度。

衔接复杂性

衔接性分为词汇衔接、指称衔接和逻辑衔接。
- 词汇衔接：分析局部和整体的词汇重复。
- 指称衔接：计算人称代词、疑问代词和指示代词的比例。
- 逻辑衔接：包括并列、替代、递进、条件、假设、因果、目的及让步等逻辑关系词的比例。

对四种中文语言复杂性分析工具进行比较：CRIE、Chinese Coh-Metrix、Chi-Editor 和 CTAP。比较从以下维度展开：指数集合、功能、结果解释、源代码开放性、扩展性和透明度。

4.1 语言复杂性指数

由于研究目标不同，这些工具提供的指数集合差异显著：

CRIE 专注于母语文本、二语文本和特定领域文本的复杂性，提供36个指数，其中29个为通用指数，7个用于二语文本复杂性。
Chinese Coh-Metrix 聚焦文本衔接性，共提供50个指数，其中31个用于文章衔接性。
Chi-Editor 针对国际汉语教师的阅读材料分级，仅分析6个指标。
CTAP 提供196个复杂性指数，范围广泛，覆盖字符、词汇、句子和段落层次。其全面性和灵活性优于其他工具。

4.1.1 字符层次

CRIE 和 Chinese Coh-Metrix 关注笔画数量。
CTAP 在此基础上增加了部件数量和仅出现一次的字符数量，并提供更精细的字符丰富性指标（如Root TTR, Uber TTR）。
字符成熟度：CTAP 唯一采用参考语料库来衡量。

4.1.2 词汇层次

词汇丰富性：CTAP 提供多种 TTR 变体，而 CRIE 和 Coh-Metrix 的选项较少。
词汇变异性：CTAP 是唯一提供此类指标的工具。
词汇密度：CTAP 分析了9种实词和4种虚词的密度，而 CRIE 和 Coh-Metrix 分别只分析3种和7种词性。
词汇成熟度：CTAP 使用多种语料库，包括二语教材语料库，而 CRIE 和 Coh-Metrix 使用较单一的资源。
词长：CTAP 提供了单字词、双字词、三字词以及四字及以上词的统计。

4.1.3 句子层次

句子长度：CTAP 除计算平均句长和最长句长外，还分析句长分布（标准差）。
句子成分复杂性：CTAP 提供句法成分的数量、平均长度和密度，CRIE 支持有限的计算。
句法结构复杂性：CTAP 是唯一引入句法树、依存关系和语法搭配信息的工具。

4.1.4 段落层次

段落基本统计：CTAP 提供5个指标，CRIE 提供段落数和段落中句子平均数。
衔接复杂性：CTAP 提供丰富的参考、连接词和词汇重叠指标，Coh-Metrix 增加了句法相似性、最小编辑距离和潜在语义分析（LSA）。

4.2 功能比较

4.2.1 语料库管理

CTAP 支持多文本语料库的上传、存储和管理，便于从不同角度分析。
其他工具如 Coh-Metrix 和 Chi-Editor 仅支持逐一上传，CRIE 支持批量上传但有限制。

4.2.2 特征选择

Chi-Editor 不支持特征选择，仅提供默认指标值。
CRIE 和 Coh-Metrix 支持选择，但限制较多。
CTAP 支持根据研究需求定制多维度的特征集合，并为每个指标提供详细解释。

4.2.3 结果可视化

CTAP 支持本地下载分析结果和基本可视化操作，帮助用户进一步分析。
其他工具（如 CRIE 和 Coh-Metrix）提供固定格式的可视化结果。

4.3 结果解释

CRIE 和 Chi-Editor 提供基于参考语料库的难度评估。
CTAP 和 Coh-Metrix 仅提供数值，允许用户自由定义基准。

4.4 源代码开放性

CTAP 是唯一开源的工具，源代码可用于新增指标或语言模块。
其他工具仅提供在线界面。

4.5 扩展性

CTAP 支持多语言协作研究，架构独立，便于更新。
其他工具仅支持中文分析。

4.6 结果透明度

仅 Chi-Editor 提供分词和词性标注结果的详细信息，CTAP 等工具则未展示此部分中间结果。

发表评论 取消回复

发表评论取消回复