国际中文教育大模型
随着ChatGPT引起全社会的关注,及各类大语言模型(Large Language Model)争相亮相,通用领域自然语言处理任务已获得巨大成功,引起了国际中文教育领域的普遍关注。
国际中文教育人士纷纷展开了对大模型的探讨: 大模型是否可以根据学习者的水平,提供合适的语言表达,或根据学习者的问题给出详细的解答,从而在一定程度上辅助甚至充当学习伙伴、语言教师? 然而,目前通用领域的大模型在垂直领域的效果仍有限。
为解决上述问题,我们全面推出适用于国际中文教育领域的大模型 “桃李”(Taoli)1.0 ,一个在国际中文教育领域数据上进行了额外训练的模型。
我们基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。 我们设置了多种形式的指令来充分利用知识,构造了共计 88000 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将国际中文教育知识应用到具体场景中的能力。
更新计划
- 发表 Taoli LLaMA 技术报告
- 开源更大规模的预训练数据
- 开源国际中文教育领域的指令微调数据
- 开源国际中文教育领域的预训练模型
- 开源通用教育领域的预训练模型
训练数据
通用指令微调数据
Alpaca-GPT4 52k 中文,52k 英文。
国际中文教育指令微调数据
语法改错数据
我们使用汉语学习者文本多维标注数据集YACLC的开发集作为语法改错中最小改动以及流利数据的来源,使用HSK作文评分数据作为篇章级语法改错的数据来源。
Instruction:
您是否能够帮助我修改下列文章中的语法错误,以确保其语法正确无误。
Input:
我最喜欢读的一本书我看过的书不少,但其中一本由琼瑶所著爱情小说《烟雨濛濛》却让我留下了深刻的印象,书中的男女主角刻骨铭心的爱情更令我流下了不少的眼泪,女主角因母亲在她很小的时候,遭到父亲的遗弃,因而产生了对父亲的仇视,也养生了她独立的性格。女主角因仇恨的缘故,报复心很强,起初用种种的方法抢走了她同父异母妹妹的男友,本来只是在报复,后来因为不知不觉真心爱上男主角,而在这时却被男主角误会他被利用而改选了她的妹妹。她痛心,她自责……而她父亲是一位枭雄,每一个人都必须服从他。性格顽强,不喜欢这个女儿而常常为难她,后来看见她性格却和他相似,而且这女儿,脾气虽然坏,但却很爱她妈妈,他被女儿尖酸刻薄的语言骂醒,不但原谅了她也认回了她妈妈。最后女主角和男主角也经过了很多的悲欢离合,在战火中等待的心情,在盼望归来形容中,每一句话,每一形容词都换了我不少的眼泪。由这本书中的人物描述,性格介绍,让我有如身在其中,因为在我一生中,也有遭到类似的爱情故事和家庭背景,但是我却没有男女主角的幸运有圆满的结果,但这本书却启发了我人生的目标,学习了独立的性格。
Output:
我最喜欢读的一本书我看过的书不少,但其中一本由琼瑶所著的爱情小说《烟雨濛濛》却让我留下了深刻的印象,书中的男女主角刻骨铭心的爱情更令我流下了不少的眼泪,女主角因母亲在她很小的时候,遭到父亲的遗弃,因而产生了对父亲的仇视,也养成了她独立的性格。女主角因仇恨的缘故,报复心很强,起初用种种的方法抢走了她同父异母妹妹的男友,本来只是在报复,后来不知不觉真心爱上了男主角,而在这时却被男主角误会他被利用而改选了她的妹妹。她痛心,她自责……而她父亲是一位枭雄,每一个人都必须服从他。性格顽强,不喜欢这个女儿而常常为难她,后来看见她性格却和他相似,而且这女儿,脾气虽然坏,但却很爱她妈妈,他被女儿尖酸刻薄的语言骂醒,不但原谅了她也认回了她妈妈。最后女主角和男主角也经过了很多的悲欢离合,在战火中等待的心情,在盼望归来用的形容时,每一句话,每一个形容词都换了我不少的眼泪。由这本书中的人物描述,性格介绍,让我有如身在其中,因为在我一生中,也有遇到类似的爱情故事和家庭背景,但是我却没有男女主角的幸运有圆满的结果,但这本书却启发了我人生的目标,学习了独立的性格。
释义生成数据
我们从现代汉语词典和对外汉语词典中提取了大量词条用于释义数据的构建。
Instruction:
'因'在此上下文中的具体含义是什么?
Input:
济南因泉水而出名。
Output:
引出原因
文本简化数据
我们使用多参考中文文本简化数据集 Multi-Reference Chinese Text Simplification Dataset 作为文本简化指令微调数据的来源。该数据集是迄今为止中文文本简化任务上规模最大、参考最多的评估数据集,包括 723 条从新闻语料中挑选的复杂结构句子,每一句分别包含多条人工简化后的句子。
Instruction:
请将这段话简化,使其适合非专业读者阅读。
Input:
没有系统的训练和足够的备战,球员的体能下降严重,伤病会增加,球迷在心理上也会有一个抵制NBA的过程。
Output:
没有长时间的训练和足够的准备,球员的身体变差,容易受伤、生病,球迷会抵制NBA。
可控文本生成数据
我们采用汉语国际教育动态语料库(Corpus of Teaching Chinese as Second Language)作为数据来源。CTC 是一个以国际汉语教材文本语料为基础的语料库,旨在为汉语(二语)教与学双方提供数据驱动学习模式的语言资源,以及语言资源的智能检索。
Instruction:
请通过一个实例句子,向我展示'在'语法点在语法结构中的具体应用。
Output:
许多保姆都和主人住在一起,成了家庭生活中很重要的一个人。
模型参数
目前我们的Taoli LLaMA模型正在内测中:
- taoli-llama-7b-1.0: 以Chinese-LLaMA-7B,使用通用instruction和国际中文教育instruction数据进行指令微调。
欢迎通过报名链接填写内测报名问卷,我们将通过邮件与您进行联系。
系统效果
我们选取了LLaMA 7B作为基座模型,在通用领域和国际中文教育领域指令微调。
以下对比了该模型和ChatGPT对于部分输入样例的回复:
考试能力
我们从教师与学习者两个方面出发,分别对几个模型在国际汉语教师资格证考试与汉语水平考试(HSK)上的表现进行了测评。其中HSK考试采用2018年官方出版的考试真题,从一级到六级各选择一套。国际汉语教师资格证考试采用2021年出版的官方真题。试题以客观题为主,主观题不参与计分。以HSK4-6级为例:
试题(客观题) | Taoli 1.0 | GPT-4 |
---|---|---|
HSK4 | 55 | 78 |
HSK5 | 60 | 85 |
HSK6 | 42 | 76 |
样例展示
输入 | Taoli 1.0 |
---|---|
请遵循最小改动原则纠正下面这句话:北京与西安有很多好象一样的地方。 | 北京和西安有很多类似的地方。 |
请生成词语在当前上下文中的释义。 词语:折服 上下文:我深深地被他的奉献精神所折服。 | 被说服或被感动。 |
请使用下列所有词语,写一个30字左右的段落。 词语:元旦、放松、礼物、表演 | 元旦是一年中最重要的节日之一,人们会庆祝并享受放松的时间。在节日中,人们会收到礼物,表演,并享受各种活动。 |
EduChat
教育是影响人的身心发展的社会实践活动,旨在把人所固有的或潜在的素质自内而外激发出来。因此,必须贯彻“以人为本”的教育理念,重点关注人的个性化、引导式、身心全面发展。为了更好地助力”以人为本“的教育,华东师范大学计算机科学与技术学院的EduNLP团队探索了针对教育垂直领域的对话大模型EduChat相关项目研发。该项目主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。
基础能力:
开放问答
情感支持
作文批改
启发式教学
chatglm-maths
chatglm-6b微调/LORA/PPO/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu
微调数据
- 原始数据来自https://github.com/LYH-YF/MWPToolkit处理后的微调数据(算式/解方程)-MWP: https://huggingface.co/datasets/Macropodus/MWP-Instruct
- 大数加减乘除来自: https://github.com/liutiedong/goat.git
LoRA权重
Baichuan-7B-GPT4ForALL: https://huggingface.co/Macropodus/MWP-Instruct Bloomz-7B-GPT4ForALL: https://huggingface.co/Macropodus/MWP-Instruct ChatGLM-6B-GPT4ForALL: https://huggingface.co/Macropodus/MWP-Instruct LlaMA-7B-GPT4ForALL: https://huggingface.co/Macropodus/MWP-Instruct ChatGLM-6B-MWP: https://huggingface.co/Macropodus/MWP-Instruct
数据集-中文
- https://github.com/tatsu-lab/stanford_alpaca
- https://github.com/LianjiaTech/BELLE
- https://github.com/carbonz0/alpaca-chinese-dataset
环境配置
transformers>=4.26.1 cpm_kernels==1.0.11 icetk==0.0.4 torch>=1.10.1 rouge==1.0.1 nltk==3.6.6 peft>=0.2.0 numpy tqdm lion_pytorch macropodus trl>=0.4.1
微调-计算题
lora
微调: python c00_toy_lora_train_6b.py
推理: python p00_toy_lora_predict_6b.py
ppo
训练: python t10_toy_trl_train_ppo.py
测试: python t10_toy_trl_predict_ppo.py
6b
微调: python c00_toy_cpu_train_6b.py
推理: python p00_toy_cpu_predit_6b.py
small-layer
微调: python c01_toy_cpu_train_small.py
推理: python p01_toy_cpu_predict_small.py
强烈推荐收藏官网
添加官方微信
疯语咒AI :AI技术和AI教育的先行者,每个人都能获取海量的AI学习材料,包括AI课程、AI学习视频、AI项目、AI代码、AI研究论文、AI基础理论、深度学习、机器学习、提示词课程、大语言模型训练和微调、AI绘画设计以及AI工具(chatgpt、midjourney、stable diffusion、claude2、brad、huggingFace…
最新文章
- 如何购买会员
- 支持70+模型,写作/脚本/文案/报告/翻译/论文等,提升学习工作效率
- 合伙人计划
- fengChat 起手式 – 使用授权码、启用新模型
- Claude 3.5 Sonnet 发布,全面超越GPT-4o,成最强AI
- AI声音训练教程
- AI工具教程
- AI换脸教程
- AI文字聊天机器人教程
- AI文字视频制作教程
- AI最新趋势
- AI画图教程
- AI算力
- AI课程
- Bard
- ChatGPT
- Claude
- DeepFaceLab
- DeepFaceLive
- Faceswap
- Midjourney
- Photoshop AI
- Roop
- RunwayGen2
- Stable Diffusion
- 关于疯语咒AI
- 内部
- 发布招聘
- 大模型入门教程
- 学习资料
- 开源大模型教程
- 最佳AI动漫角色生成工具
- 最佳AI提示词
- 最佳AI画图工具
- 最佳GTP-3,GTP-4文字工具
- 最佳提示词生成工具
- 模型训练微调教程
- 行业报告