这个开源中文纠错大模型,能超越华为17个百分点吗?
摘要: 项目地址:GitHub - TW-NLPChineseErrorCorrector: 中文拼写错误和语法错误纠正 文本纠错任务在审查、写作任务中至关重要,以前的纠错大多采用小模型进行训练,例如BART、T5、BERT等,但是小模型的泛
项目地址:GitHub - TW-NLP/ChineseErrorCorrector: 中文拼写错误和语法错误纠正
文本纠错任务在审查、写作任务中至关重要,以前的纠错大多采用小模型进行训练,例如BART、T5、BERT等,但是小模型的泛化性较差,需要在不同领域训练不同的小模型进行纠错,为此我们使用200万数据进行大模型的训练,经过验证我们在GitHub - masr2000/NaCGEC数据集上,F1值比华为高17个点,遥遥领先,下面从三个方面进行详细的技术说明:数据集(涵盖业界所有的开源数据)、评估结果、使用方法,欢迎star,后续会持续更新纠错模型。
1、数据集
数据集名称数据链接数据量和类别说明描述
CSC(拼写纠错数据集)
twnlp/csc_data
W271K:279,816 条,Medical:39,303 条,Lemon:22,259 条,ECSpell:6,688 条,CSCD:35,001 条
中文拼写纠错的数据集
CGC(语法纠错数据集)
twnlp/cgc_data
CGED:20449 条,FCGEC:37354 条,MuCGEC:2467 条,NaSGEC:7568条
中文语法纠错的数据集
Lang8+HSK(百万语料-拼写和语法错误混合数据集)
twnlp/lang8_hsk
1568885条
中文拼写和语法数据集
项目包含三个部分的数据集,分别为CSC、CGC和Lang8+HSK,涵盖了所有开源高质量的拼写纠错和语法纠错的数据集,也是我们分阶段训练的数据。
2、评估结果
Model NameModel LinkPrecRecF0.5
twnlp/ChineseErrorCorrector2-7B
https://huggingface.co/twnlp/ChineseErrorCorrector2-7B
0.6233
0.6228
0.6232
HW_TSC_nlpcc2023_cgec(华为)
未开源
0.5095
0.3129
0.4526
鱼饼啾啾Plus
未开源
0.5708
0.1294
0.3394
CUHK_SU
未开源
0.3882
0.1558
0.2990
CGEC++
未开源
0.2414
0.0735
0.1657
zhao_jia
未开源
0.1719
0.1478
0.1665
我们在NaCGEC数据集上,比最高的华为要高17个点,实测效果也很不错,强力推荐!
3、使用方法
transformers
通过 transformers 库,您可以方便地加载和使用中文纠错模型:
# 安装 transformers 库
pip install transformers
以下是使用模型进行纠错的代码示例:
# pip install transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "twnlp/ChineseErrorCorrector2-7B"
device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
input_content = "你是一个文本纠错专家,纠正输入句子中的语法错误,并输出正确的句子,输入句子为:\n少先队员因该为老人让坐。
