WenMind – rayzark小屋

WenMind 是一个综合性基准测试，专门用于评估中国古典文学和语言艺术（CCLLA）中的大型语言模型（LLM）。WenMind 涵盖古代散文、古代诗歌和古代文学文化的子领域，包括 4875 个问答对，跨越 42 个细粒度任务（如图 1 所示），3 种问题格式（填空题、多项选择题和问答题），以及 2 个评价场景（领域导向和能力导向）。

数据格式：

{

“id”: 2464,

“domain”: “ancient literary culture”,

“capability”: “knowledge”,

“question_format”: “QA”,

“coarse_grained_task_zh”: “成语”,

“coarse_grained_task_en”: “idiom”,

“fine_grained_task_zh”: “成语解释”,

“fine_grained_task_en”: “idiom explanation”,

“question”: “解释下面成语的意思：\n暮去朝来”,

“answer”: “黄昏过去，清晨又到来。形容时光流逝。”

}

以下是对数据示例中各个字段的说明：

id：数据样本的唯一标识符，用于区分不同的样本。
domain：数据样本所属的领域，包括古代散文、古代诗歌和古代文学文化。
capability：数据样本的能力类型，包括 knowledge、understanding 和 generation。
question_format：问题的格式，表示样本中的问题类型，包括 FB、MCQ 和 QA。
coarse_grained_task_zh：粗粒度任务分类的中文名称。描述样本的粗粒度任务类别，共 26 个类别。
coarse_grained_task_en：粗粒度任务分类的英文名称。对应 coarse_grained_task_zh，描述样本的粗粒度任务类别，一共 26 个类别。
fine_grained_task_zh：细粒度任务分类的中文名称。描述样例的细化任务类别，共 42 个类别。
fine_grained_task_en：细化任务分类的英文名称。对应 fine_grained_task_zh，描述样本的细粒度任务类别，一共 42 个类别。
question：问题的实际内容。要在示例中回答的问题。
answer：对应问题的答案。提供对问题的详细回答。

任务列表

T1-1： 倒装句语序

任务描述：正确倒置句子的词序。
能力：理解
比例尺：18

T1-2： 省略句

任务描述：回答省略的句子中遗漏的信息。
能力：理解
比例尺：32

T1-3： 倒装句类型

任务描述：识别倒置句子的倒置类型。
能力：理解
比例尺：7

T1-4： 判断句式

任务描述：确定句子的语法类型。
能力：理解
比例尺：43

T2： 文白翻译

任务描述：将文言文翻译成现代汉语。
能力：理解
比例尺：200

T3： Modern Chinese to Classical Chinese （白文翻译）

任务描述：将现代汉语翻译成文言文。
能力：理解
比例尺：200

T4： Named Entity Recognition （命名实体识别）

任务描述：从文言文语句子中提取命名实体。
能力：理解
比例尺：200

T5：标点符号 （句读）

任务描述：为文言文语句子添加标点符号。
能力：理解
比例尺：200

T6： Topic Classification （主题分类）

任务描述：根据文言文语句选择主题类别。
能力：理解
比例尺：200

T7： Word Explanation （字词解释）

任务描述：解释文言文中词中的单词和短语。
能力：理解
比例尺：100

T8： Reading Comprehension （阅读理解）

任务描述：阅读中国古典文本并回答相关问题。
能力：理解
比例尺：100

T9：虚词

任务描述：回答中国古典语句子中虚词的用法。
能力：理解
比例尺：100

T10： 同音字 （通假字）

任务描述：确定字符是否为同音字。
能力：理解
比例尺：200

T11： Polysemy （单字多义）

任务描述：区分同一字符的不同含义。
能力：理解
比例尺：200

T12： 文言文写作

任务描述：用文言文写作。
功能：生成
比例尺：100

T13-1： 赏析真题

任务描述：回答基于古代诗歌的鉴赏问题。
能力：理解
比例尺：150

T13-2： Free Appreciation （免费赏析）

任务描述：对古代诗歌进行免费而详细的分析。
能力：理解
比例尺：100

T14-1： 诗歌创作

任务描述：根据主题创作一首诗。
功能：生成
比例尺：30

T14-2： 词创作

任务说明：根据主题编写 ci。
功能：生成
比例尺：50

T14-3： 曲创作

任务说明：根据主题编写 qu。
Capability: Generation
Scale: 20

T15-1: Content Q&A (内容问答)

Task Description: Answer the complete content of ancient poetry according to the title and author.
Capability: Knowledge
Scale: 200

T15-2: Title and Author Q&A (题目作者问答)

Task Description: Answer the title and author according to the content of ancient poetry.
Capability: Knowledge
Scale: 200

T15-3: Write the Next Sentence (下句默写)

Task Description: Write the next sentence according to the previous sentence in the ancient poem.
Capability: Knowledge
Scale: 100

T15-4: Write the Previous Sentence (上句默写)

Task Description: Write the previous sentence according to the next sentence in the ancient poem.
Capability: Knowledge
Scale: 100

T15-5: Comprehension Dictation (理解性默写)

Task Description: Provide ancient poetry sentences that meet the requirements.
Capability: Knowledge
Scale: 30

T15-6: Genre Judgment (判断体裁)

Task Description: Judge the genre of ancient poetry.
Capability: Knowledge
Scale: 120

T16: Ancient Poetry Translation (古诗词翻译)

Task Description: Translate ancient poetry into modern Chinese.
Capability: Understanding
Scale: 200

T17: Sentiment Classification (情感分类)

Task Description: Judge the sentiment contained in ancient poetry.
Capability: Understanding
Scale: 200

T18: Ancient Poetry to English (古诗词英文翻译)

Task Description: Translate ancient poetry into English.
Capability: Understanding
Scale: 50

T19: Poet Introduction (诗人介绍)

Task Description: Provide a detailed introduction of the poet.
Capability: Knowledge
Scale: 110

T20: Analysis of Imagery (意象解析)

Task Description: Provide the meanings of the imagery.
Capability: Knowledge
Scale: 185

T21-1: Couplet Following (接下联)

Task Description: Create the following couplet based on the previous one.
Capability: Generation
Scale: 100

T21-2: Couplet Writing (主题创作)

Task Description: Write a couplet based on the theme.
Capability: Generation
Scale: 100

T21-3: HengPi Writing (拟横批)

Task Description: Write HengPi based on the content of a couplet.
Capability: Generation
Scale: 100

T22-1: Synonyms (近义词)

Task Description: Provide the synonym for the idiom.
Capability: Knowledge
Scale: 100

T22-2: The Origin of Idiom (成语出处)

Task Description: Provide the source of the idiom.
Capability: Knowledge
Scale: 100

T22-3： 成语找 （成语蕴含）

任务描述：从中国古代句子中提取成语并提供其含义。
能力：知识
比例尺：100

T22-4： Idiom Explanation （解释含义）

任务描述：提供成语的含义。
能力：知识
比例尺：100

T23： Riddle （谜语）

任务描述：根据线索或巧妙的提示猜出答案。
能力：知识
比例尺：100

T24： 歇后语

任务描述：在前半部分的基础上完成谚语的后半部分。
能力：知识
比例尺：100

T25： 古汉语音韵

任务描述：回答有关中国古代语音和韵律的问题。
能力：知识
比例尺：100

T26： 国学常识问答

任务描述：回答有关汉学的问题。
能力：知识
比例尺：130

数据统计

开源模型

对于开源模型，我们在本地执行推理，只需要模型路径和输出文件路径即可获得答案。

–model_path The path to the model, defaults to loading from huggingface

–output_path The file path for the model’s answer output, defaults to {model_name}_result.json

例如

CUDA_VISIBLE_DEVICES=0,1 python Evaluation_Code/Inference/Test_Baichuan2-7B-Chat.py \

–model_path baichuan-inc/Baichuan2-7B-Chat \

–output_path Baichuan2-7B-Chat_result.json

API 模型

对于 GPT-3.5 和 GPT-4 模型，请提供两个参数：和。
对于 ERNIE-3.5 和 ERNIE-4.0 模型，请提供两个参数：和。
对于 Spark 模型，请提供三个参数：、和。
有关详细信息，请参阅每个 API 模型的官方文档。api_base api_key api_key secret_key api_key secret_keyappid

例如

python Test_ERNIE-3.5-8K-0329.py \

–API_KEY {api_key} \

–SECRET_KEY {secret_key} \

–output_path {output_path}

b. 使用 ERNIE-3.5 对响应进行评分

步骤 1：检查 LLM 响应文件是否与文件格式一致。JSON/LLM_Response_Examples.json

步骤 2：打开文件，为评分模型 ERNIE-3.5 输入 and，替换为 LLM 响应文件的存储路径，替换为将保存评分结果的路径，替换为评分文件的存储路径。Evaluation_Code/LLM_Scoring.pyAPI_KEYSECRET_KEYLLM_response_pathLLM_score_pathLLM_prompt_pathJSON/Task_Score_Prompt.json

步骤 3：执行以下命令，获取评分结果。

python Evaluation_Code/LLM_Scoring.py

c. 计算模型的分数

步骤 1：检查评分文件是否与文件格式一致。JSON/LLM_Score_Examples.json

第 2 步：打开文件并替换为评分文件的存储路径。Evaluation_Code/Calculate_Score.pyLLM_score_path

步骤 3：执行以下命令以获取模型的分数。

python Evaluation_Code/Calculate_Score.py

发表评论 取消回复

发表评论取消回复