这个开源中文纠错大模型，能超越华为17个百分点吗？

摘要： 项目地址：GitHub - TW-NLPChineseErrorCorrector: 中文拼写错误和语法错误纠正文本纠错任务在审查、写作任务中至关重要，以前的纠错大多采用小模型进行训练，例如BART、T5、BERT等，但是小模型的泛

项目地址：GitHub - TW-NLP/ChineseErrorCorrector: 中文拼写错误和语法错误纠正文本纠错任务在审查、写作任务中至关重要，以前的纠错大多采用小模型进行训练，例如BART、T5、BERT等，但是小模型的泛化性较差，需要在不同领域训练不同的小模型进行纠错，为此我们使用200万数据进行大模型的训练，经过验证我们在GitHub - masr2000/NaCGEC数据集上，F1值比华为高17个点，遥遥领先，下面从三个方面进行详细的技术说明：数据集（涵盖业界所有的开源数据）、评估结果、使用方法，欢迎star，后续会持续更新纠错模型。 1、数据集数据集名称数据链接数据量和类别说明描述 CSC（拼写纠错数据集） twnlp/csc_data W271K：279,816 条，Medical：39,303 条，Lemon：22,259 条，ECSpell：6,688 条，CSCD：35,001 条中文拼写纠错的数据集 CGC（语法纠错数据集） twnlp/cgc_data CGED：20449 条，FCGEC：37354 条，MuCGEC：2467 条，NaSGEC：7568条中文语法纠错的数据集 Lang8+HSK（百万语料-拼写和语法错误混合数据集） twnlp/lang8_hsk 1568885条中文拼写和语法数据集项目包含三个部分的数据集，分别为CSC、CGC和Lang8+HSK，涵盖了所有开源高质量的拼写纠错和语法纠错的数据集，也是我们分阶段训练的数据。 2、评估结果 Model NameModel LinkPrecRecF0.5 twnlp/ChineseErrorCorrector2-7B https://huggingface.co/twnlp/ChineseErrorCorrector2-7B 0.6233 0.6228 0.6232 HW_TSC_nlpcc2023_cgec(华为) 未开源 0.5095 0.3129 0.4526 鱼饼啾啾Plus 未开源 0.5708 0.1294 0.3394 CUHK_SU 未开源 0.3882 0.1558 0.2990 CGEC++ 未开源 0.2414 0.0735 0.1657 zhao_jia 未开源 0.1719 0.1478 0.1665 我们在NaCGEC数据集上，比最高的华为要高17个点，实测效果也很不错，强力推荐！ 3、使用方法 transformers 通过 transformers 库，您可以方便地加载和使用中文纠错模型： # 安装 transformers 库 pip install transformers 以下是使用模型进行纠错的代码示例： # pip install transformers from transformers import AutoModelForCausalLM, AutoTokenizer checkpoint = "twnlp/ChineseErrorCorrector2-7B" device = "cuda" # for GPU usage or "cpu" for CPU usage tokenizer = AutoTokenizer.from_pretrained(checkpoint) model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device) input_content = "你是一个文本纠错专家，纠正输入句子中的语法错误，并输出正确的句子，输入句子为：\n少先队员因该为老人让坐。

这个开源中文纠错大模型，能超越华为17个百分点吗？

相关推荐