AI干货|大语言模型:开源大模型[疯语咒AI]

AI干货|大语言模型:开源大模型[疯语咒AI]

ChatGLM-6B

AI干货|大语言模型:开源大模型[疯语咒AI]

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于General Language Model (GLM) 架构,具有62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需6GB 显存)。 ChatGLM-6B 使用了和ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考我们的博客。

为了方便下游开发者针对自己的应用场景定制模型,我们同时实现了基于P-Tuning v2 的高效参数微调方法(使用指南) ,INT4 量化级别下最低只需7GB 显存即可启动微调。

不过,由于ChatGLM-6B 的规模较小,目前已知其具有相当多的局限性,如事实性/数学逻辑错误,可能生成有害/有偏见内容,较弱的上下文能力,自我认知混乱,以及对英文指示生成与中文指示完全矛盾的内容。请大家在使用前了解这些问题,以免产生误解。更大的基于1300 亿参数GLM-130B 的ChatGLM 正在内测开发中。


ChatGLM2-6B

AI干货|大语言模型:开源大模型[疯语咒AI]

ChatGLM 2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM 2-6B 引入了如下新特性:

  1. 更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练, 评测结果 显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。
  2. 更长的上下文:基于 FlashAttention 技术,我们将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文,我们发布了 ChatGLM2-6B-32K 模型。 LongBench 的测评结果表明,在等量级的开源模型中,ChatGLM2-6B-32K 有着较为明显的竞争优势。
  3. 更高效的推理:基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。
  4. 更开放的协议:ChatGLM2-6B 权重对学术研究 完全开放,在填写 问卷 进行登记后 亦允许免费商业使用

欢迎通过 chatglm.cn 体验更大规模的 ChatGLM 模型。

ChatGLM2-6B 开源模型旨在与开源社区一起推动大模型技术发展,恳请开发者和大家遵守 开源协议,勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务。 目前,本项目团队未基于 ChatGLM2-6B 开发任何应用,包括网页端、安卓、苹果 iOS 及 Windows App 等应用。

尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性,但由于 ChatGLM2-6B 模型规模较小,且模型受概率随机性因素影响,无法保证输出内容的准确性,且模型易被误导。 本项目不承担开源模型和代码导致的数据安全、舆情风险或发生任何模型被误导、滥用、传播、不当利用而产生的风险和责任。

更新信息

[2023/07/31] 发布 ChatGLM2-6B-32K 模型,提升对于长文本的理解能力。

[2023/07/25] 发布 CodeGeeX2 模型,基于 ChatGLM2-6B 加入代码预训练实现,代码能力全面提升。

[2023/07/04] 发布 P-Tuning v2 与 全参数微调脚本,参见 P-Tuning

友情链接

对 ChatGLM2 进行加速的开源项目:

  • fastllm: 全平台加速推理方案,单GPU批量推理每秒可达10000+token,手机端最低3G内存实时运行(骁龙865上约4~5 token/s)
  • chatglm.cpp: 类似 llama.cpp 的 CPU 量化加速推理方案,实现 Mac 笔记本上实时对话
  • ChatGLM2-TPU: 采用TPU加速推理方案,在算能端侧芯片BM1684X(16T@FP16,内存16G)上实时运行约3 token/s

支持 ChatGLM-6B 和相关应用在线训练的示例项目:


Chinese-LLaMA-Alpaca-2

AI干货|大语言模型:开源大模型[疯语咒AI]

本项目开源了中文LLaMA模型和指令精调的Alpaca大模型,以进一步促进大模型在中文NLP社区的开放研究。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,中文Alpaca模型进一步使用了中文指令数据进行精调,显着提升了模型对指令的理解和执行能力。

技术报告(V2):[Cui, Yang, and Yao] Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca

本项目主要内容:

🚀 针对原版LLaMA模型扩充了中文词表,提升了中文编解码效率 🚀 开源了使用中文文本数据预训练的中文LLaMA以及经过指令精调的中文Alpaca 🚀 开源了预训练脚本、指令精调脚本,用户可根据需要进一步训练模型 🚀 快速使用笔记本电脑(个人PC)的CPU/GPU本地量化和部署体验大模型 🚀 支持🤗transformers, llama.cpp, text-generation-webui, LlamaChat, LangChain, privateGPT等生态 目前已开源的模型版本:7B(基础版、Plus版、Pro版)、13B(基础版、Plus版、Pro版)、33B(基础版、Plus版、Pro版) 💡 下图是中文Alpaca-Plus-7B模型在本地CPU量化部署后的实际体验速度和效果。

中文LLaMA-2&Alpaca-2大模型\| 多模态中文LLaMA&Alpaca大模型\| 多模态VLE \| 中文MiniRBT \| 中文LERT \| 中英文PERT \| 中文MacBERT \| 中文ELECTRA \| 中文XLNet \| 中文BERT \| 知识蒸馏工具TextBrewer \| 模型裁剪工具TextPruner


Chinese-LlaMA2

AI干货|大语言模型:开源大模型[疯语咒AI]

就在不久前,Meta最新开源了Llama 2模型,完全可商用,看来Meta势必要与OpenAI (ClosedAI) 硬刚到底。虽然Llama 2对原版的LlaMA模型做了升级,但是其仍然对中文没有太好的支持,需要在中文上做定制化。所以我们决定在次开展Llama 2的中文汉化工作:

  • 🚀 Chinese-LlaMA2-chat-sft:对Llama-2直接进行有监督微调,
    • 采用开源指令微调数据,如UltraChat, 各种版本的中文alpaca语料(如Chinese-alpaca, BELLE)等;
    • 注意LlaMA词表本身是支持中文的,所以我们会训练不扩充词表版本和扩充词表版本
  • ⏳ Chinese-LlaMA2: 对Llama 2进行大规模中文预训练;
    • 第一步:先在42G中文语料上进行训练;后续将会加大训练规模
  • ⏳ Chinese-LlaMA2-chat: 对 Chinese-LlaMA2 进行指令微调和多轮对话微调,以适应各种应用场景和多轮对话交互。

注意,遵循相应的许可,我们将发布完整的, 合并LoRA权重的完整,且同时发布LoRA权重,方便开源社区使用。

同时,我们将会围绕Chinese-LlaMA2打造各种垂直领域模型:

  • ⏳ Chinese-LlaMA2-chatmed: Chinese-LlaMA2医学领域大模型,支持多轮在线问诊;
  • ⏳ Chinese-LlaMA2-tcm: Chinese-LlaMA2中医药大模型,专注于中医药细分领域,赋能中医药传承

OpenChineseLLaMA

AI干货|大语言模型:开源大模型[疯语咒AI]

本项目为基于 LLaMA-7B 经过 中文数据集增量预训练 产生的 中文大语言模型基座

特点

– 本项目为通过增强预训练(Further-Pretrain)获得的中文预训练模型,提供 huggingface 版本权重 – 对比原版 LLaMA,本模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩,详见 评测 – 本项目提供了 Huggingface 版本权重和 Meta 版本权重的转换工具 – 支持 🤗transformers,提供命令行工具方便测试模型效果


Llama2-Chinese

AI干货|大语言模型:开源大模型[疯语咒AI]

欢迎来到Llama2中文社区!我们是一个专注于Llama2模型在中文方面的优化和上层建设的高级技术社区。 基于大规模中文数据,从预训练开始对Llama2模型进行中文能力的持续迭代升级。 我们热忱欢迎对大模型LLM充满热情的开发者和研究者加入我们的行列。

为什么选择Llama2中文社区?

🚀 高级工程师团队支持:社区有一批专注为大家服务的NLP高级工程师,我们有着强大的技术支持和丰富的经验,为您提供专业的指导和帮助。

🎯 中文优化:我们致力于在Llama2模型的中文处理方面进行优化,探索适用于中文的最佳实践,以提升其性能和适应性。

💡 创新交流:我们拥有一支富有创造力和经验的社区成员团队,定期组织线上活动、技术研讨和经验分享,促进成员间的创新交流。

🌐 全球联结:我们欢迎来自世界各地的开发者加入社区,构建一个开放、多元化的学习和交流平台。

🤝 开放共享:我们鼓励社区成员开源分享代码和模型,推动合作共赢,共同促进中文NLP技术的发展。

社区活动

🗓️ 线上讲座:邀请行业内专家进行线上讲座,分享Llama2在中文NLP领域的最新技术和应用,探讨前沿研究成果。

💻 项目展示:成员可展示自己在Llama2中文优化方面的项目成果,获得反馈和建议,促进项目协作。

📚 学习资源:社区维护丰富的学习资料库,包括教程、文档和论文解读,为成员提供全面的学习支持。

📝 论文解读:社区成员共同解读与Llama2相关的最新研究论文,深入理解前沿算法和方法。

🎉 主题活动:定期举办各类主题活动,包括挑战赛、黑客马拉松和技术沙龙,让社区成员在轻松愉快的氛围中交流和学习。

🌟 奖励计划:我们设立奖励计划,对社区中积极参与、贡献优秀的成员给予荣誉和奖励,激励更多优秀人才的加入。

📈 技术咨询:我们提供技术咨询服务,解答您在Llama2开发和优化过程中遇到的问题,助您快速攻克难关。

🚀 项目合作:鼓励成员间的项目合作,共同探索Llama2在实际应用中的潜力,打造创新解决方案。


BELLE

AI干货|大语言模型:开源大模型[疯语咒AI]

项目主要内容

🚀 训练代码

详见 BELLE/train ,尽可能简化的一个训练代码实现,集成了Deepspeed-Chat,支持finetune,lora,并提供了相关的docker

📊 数据开放

🧐 验证集合&验证方法

详见 BELLE/eval ,一个1k+的测试集合,和对应打分prompt。包含多个类别,采用GPT-4或者ChatGPT打分。同时提供了一个打分的网页,方便针对单个case使用。欢迎大家通过PR提供更多的测试用例。

🤖 模型

详见 BELLE/models – 基于BLOOMZ-7B1-mt优化后的模型: BELLE-7B-0.2M , BELLE-7B-0.6M , BELLE-7B-1M , BELLE-7B-2M

– 基于 Meta LLaMA 实现调优的模型: BELLE-LLaMA-7B-0.6M-enc , BELLE-LLaMA-7B-2M-enc , BELLE-LLaMA-7B-2M-gptq-enc , BELLE-LLaMA-13B-2M-enc , BELLE-on-Open-Datasets 以及基于LLaMA做了中文词表扩充的预训练模型 BELLE-LLaMA-EXT-7B 。

- 请参考[Meta LLaMA的License](https://github.com/facebookresearch/llama/blob/main/LICENSE),目前仅供学习交流。请严遵守LLaMA的使用限制。LLaMA模型不允许发布调优后的完整模型权重,但是可以发布原始的模型的diff。因此,我们使用文件间的XOR,保证拥有LLaMA原始模型授权的人才可以将本项目发布的模型转化成可以使用的格式。格式转化代码参考[BELLE/models](https://github.com/LianjiaTech/BELLE/tree/main/models)

⚖️ 模型量化gptq

详见 BELLE/gptq ,参考gptq的实现,对本项目中相关模型进行了量化


Panda

AI干货|大语言模型:开源大模型[疯语咒AI]

欢迎来到我们的海外中文大语言模型开源项目 – Panda!Panda项目于2023年5月启动,旨在大模型时代帮助整个社区探索大模型的整个技术栈。近期,我们对Panda项目进行了升级。目前Panda项目分为三个子项目:1. PandaLLM 2. PandaLLMOps 3. PandaCommunity。以下是每个子项目的具体介绍:

  1. PandaLLM 开源大模型。Panda系列开源大模型目前基于 LLaMA1 和 LLaMA2 进行中文领域上的持续预训练,我们希望能够为中文自然语言处理领域提供具有泛用性的通用基础工具进行探索。PandaLLM 模型以及训练涉及的中文数据集将以开源形式发布,任何人都可以免费使用并参与开发。
  2. PandaLLMOps 开源大模型训练、推理、部署工具。PandaLLMOps是一套集成了大模型从模型训练、推理、部署工具。我们希望可以为广大大模型开发人员、爱好者提供一套好用的工具,降低学习难度,提高大家在大模型开发、推理、部署各个环节的效率。目前支持以下场景:1. 从零开始做预训练 2. 基于现有底座做增量预训练、全参数量微调、Lora、QLora 3. 快速部署,已集成vllm、lightllm等,最大化优化推理速度
  3. PandaCommunity 大模型中文社区。PandaCommunity旨在建立中文世界大模型开发者学习社区,让大家可以对大模型技术栈能够有深入的了解并且互相交流,发挥集体智慧,攻克大模型探索道路上的技术难关。同时,针对想要学习大模型技术的同学,我们也会定期推出免费技术教程、技术研讨会、论文解读等等。

我们欢迎来自全球的开发者一起参与到该项目中,共同推动自然语言处理技术的发展。


LMFlow

AI干货|大语言模型:开源大模型[疯语咒AI]

一个可扩展、方便和高效的工具箱,用于微调大型机器学习模型。我们的目标是开发一套用户友好、快速可靠,并对整个社区开放的全流程微调代码库。


Fengshenbang-LM

AI干货|大语言模型:开源大模型[疯语咒AI]

封神榜科技成果

Fengshenbang 1.0: 封神榜开源计划1.0中英双语总论文,旨在成为中文认知智能的基础设施。

BioBART: 由清华大学和IDEA研究院一起提供的生物医疗领域的生成语言模型。( BioNLP 2022)

UniMC: 针对zero-shot场景下基于标签数据集的统一模型。( EMNLP 2022)

FMIT: 基于相对位置编码的单塔多模态命名实体识别模型。( COLING 2022)

UniEX: 统一抽取任务的自然语言理解模型。( ACL 2023)

Solving Math Word Problems via Cooperative Reasoning induced Language Models: 使用语言模型的协同推理框架解决数学问题。( ACL 2023)

MVP-Tuning: 基于多视角知识检索的参数高效常识问答系统。( ACL 2023)


BiLLa

AI干货|大语言模型:开源大模型[疯语咒AI]

BiLLa是开源的推理能力增强的中英双语LLaMA模型。模型的主要特性有:

  • 较大提升LLaMA的中文理解能力,并尽可能减少对原始LLaMA英文能力的损伤;
  • 训练过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型理解任务求解逻辑;
  • 全量参数更新,追求更好的生成效果。

因个人精力有限,我未能将BiLLa与当前主流的开源大模型进行充分的对比评测。以下是经过有限的评测分析得出的结论:

  • BiLLa-7B-LLM 中英语言建模能力显着优于 Chinese-LLaMA-7B ;
  • BiLLa-7B- SFT 中文推理能力显着优于 BELLE-LLaMA-Ext-7B 等模型;
  • 由GPT4打分,BiLLa-7B-SFT 在英文指令上得分显着高于 ChatGLM-6B ,中文得分持平,但解题与代码得分更高。

MOSS

AI干货|大语言模型:开源大模型[疯语咒AI]

MOSS是一个支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。 MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

局限性:由于模型参数量较小和自回归生成范式,MOSS仍然可能生成包含事实性错误的误导性回复或包含偏见/歧视的有害内容,请谨慎鉴别和使用MOSS生成的内容,请勿将MOSS生成的有害内容传播至互联网。若产生不良后果,由传播者自负。


骆驼 Luotuo

AI干货|大语言模型:开源大模型[疯语咒AI]

简介:包含一系列大型中文语言模型的开源项目,包括一系列基于现有开源模型(ChatGLM、MOSS、LLaMA)进行二次微调的语言模型、指令微调数据集等。


Linly

AI干货|大语言模型:开源大模型[疯语咒AI]

本项目向社区提供 中文对话模型 Linly-ChatFlow 、中文基础模型 Chinese-LLaMA (1-2)、Chinese-Falcon 及其训练数据

模型基于 TencentPretrain 预训练框架全参数训练(Full-tuning)。

中文基础模型以 LLaMA 和 Falcon 为底座,使用中文和中英平行语料进行增量预训练,将其在英文上的语言能力扩展到中文上。同时,项目汇总了目前公开的多语言指令数据,对中文模型进行大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。

此外,本项目开源了从头训练的 Linly-OpenLLaMA 模型,包含 3B、7B、13B 规模,在 1TB 中英文语料上进行预训练,针对中文优化了字词结合tokenizer,此模型以 Apache 2.0 协议公开。

AI干货|大语言模型:开源大模型[疯语咒AI]

项目内容


irefly(流萤)

AI干货|大语言模型:开源大模型[疯语咒AI]

Firefly(流萤) 是一个开源的中文大语言模型项目,正如我们的项目名称一样,希望本项目能够像流萤一般发出淡淡微光,为中文大语言模型社区尽绵薄之力,促进中文大语言模型社区的发展。

流萤(萤火虫的别称)是中华传统文化的一个符号,虽说腐草为萤,带有悲悯意味,但萤火虽小,也能凭借其淡淡荧光,照亮夜空。本项目的名称取自杜牧的《秋夕》: 银烛秋光冷画屏,轻罗小扇扑流萤

《咏萤火》 唐.李白 雨打灯难灭, 风吹色更明。 若飞天上去, 定作月边星。

🔔 本项目主要内容如下:

  • 📗 支持全量参数指令微调、QLoRA低成本高效指令微调、LoRA指令微调(后续将会提供支持)。
  • 📗 支持绝大部分主流的开源大模型,如百川baichuan、Ziya、Bloom、LLaMA等。
  • 📗 支持lora与base model进行权重合并,推理更便捷。
  • 📗️ 模型裁剪:通过 LLMPruner:大语言模型裁剪工具 ,开源 裁剪后的Bloom模型权重 。在保留预训练中文知识的前提下,有效减少模型参数量,降低训练成本,提高训练效率。
  • 📗 整理并开源指令微调数据集:firefly-train-1.1M 、moss-003-sft-data、ultrachat、 WizardLM_evol_instruct_V2_143k、school_math_0.25M。
  • 📗 开源 Firefly系列指令微调模型权重 。

🔔 下图是firefly-bloom-7b1的多轮对话的生成效果。

AI干货|大语言模型:开源大模型[疯语咒AI]

ChatYuan

AI干货|大语言模型:开源大模型[疯语咒AI]

ChatYuan-large-v2是一个支持中英双语的功能型对话语言大模型。ChatYuan-large-v2使用了和 v1版本相同的技术方案,在微调数据、人类反馈强化学习、思维链等方面进行了优化。

ChatYuan-large-v2是ChatYuan系列中以轻量化实现高质量效果的模型之一,用户可以在消费级显卡、 PC甚至手机上进行推理(INT4 最低只需 400M )。

在线Demo(Huggingface) \| 在线Demo(ModelScope) \| 使用API(large版) \| Colab在线试用 \| 文章介绍

在chatyuan-large-v1的原有功能的基础上,我们给模型进行了如下优化:

  • 增强了基础能力。原有上下文问答、创意性写作能力明显提升。
  • 新增了拒答能力。对于一些危险、有害的问题,学会了拒答处理。
  • 新增了中英双语对话能力。
  • 新增了代码生成功能。对于基础代码生成进行了一定程度优化。
  • 新增了表格生成功能。使生成的表格内容和格式更适配。
  • 增强了基础数学运算能力。
  • 最大长度从1024token数扩展到4096。
  • 增强了模拟情景能力。

ChatRWKV

AI干货|大语言模型:开源大模型[疯语咒AI]

ChatRWKV 类似于 ChatGPT,但由 RWKV(100% RNN)语言模型提供支持,并且是开源的。

ChatRWKV 类似于 ChatGPT,但由我的 RWKV(100% RNN)语言模型提供支持,这是唯一的 RNN (截至目前)它可以在质量和缩放方面与 Transformer 相匹配,同时速度更快并节省 VRAM。由 Stability EleutherAI 赞助的培训:)

Raven 14B (在 Alpaca+ShareGPT+ 上进行了微调)演示:https: //huggingface.co/spaces/BlinkDL/ChatRWKV-gradio

World 7B (支持 100 多种世界语言)演示:https://huggingface.co/spaces/BlinkDL/RWKV-World-7B

下载 RWKV-4 权重: https://huggingface.co/ BlinkDL ( 使用 RWKV-4 模型。请勿使用 RWKV-4a 和 RWKV-4b 模型。)

注意:RWKV-4-World 是最好的模型:在 100 多个世界中生成、聊天和编码语言,也具有最好的英语零镜头和上下文学习能力。

使用 v2/convert_model.py 转换模型为策略,以加快加载速度并节省 CPU RAM。

注意 RWKV_CUDA_ON 将构建 CUDA 内核(速度更快并节省 VRAM)。以下是如何构建它(首先“pip install ninja”):

How to build in Linux: set these and run v2/chat.py export PATH=/usr/local/cuda/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH How to build in win: Install VS2022 build tools (https://aka.ms/vs/17/release/vs_BuildTools.exe select Desktop C++). Reinstall CUDA 11.7 (install VC++ extensions). Run v2/chat.py in "x64 native tools command prompt".

RWKV pip 包: https://pypi.org/project/rwkv/ (请经常检查最新版本并升级)

世界演示脚本: https://github.com/BlinkDL/ChatRWKV/blob/main/API_DEMO_WORLD.py

Raven 问答演示脚本: https: //github.com/BlinkDL/ChatRWKV/blob/ main/v2/benchmark_more.py

ChatRWKV-策略

CPM-Bee

AI干货|大语言模型:开源大模型[疯语咒AI]

CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型,也是CPM-Live训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

👐 开源可商用:OpenBMB始终秉承“让大模型飞入千家万户”的开源精神,CPM-Bee基座模型将完全开源并且可商用,以推动大模型领域的发展。我们鼓励全球范围内的科研机构、企业和个人开发者在遵守开源许可协议的前提下,自由地在CPM-Bee基座模型上进行创新。

💫 中英双语性能优异: CPM-Bee基座模型在预训练语料上进行了严格的筛选和配比,同时在中英双语上具有亮眼表现,具体可参见评测任务和结果。

📖 超大规模高质量语料: CPM-Bee基座模型在超万亿语料进行训练,是开源社区内经过语料最多的模型之一。同时,我们对预训练语料进行了严格的筛选、清洗和后处理以确保质量。

OpenBMB大模型系统生态支持: OpenBMB大模型系统在高性能预训练、适配、压缩、部署、工具开发了一系列工具,CPM-Bee基座模型将配套所有的工具脚本,高效支持开发者进行进阶使用。

🔨 对话和工具使用能力: 结合OpenBMB在指令微调和工具学习的探索,我们在CPM-Bee基座模型的基础上进行微调,训练出了具有强大对话和工具使用能力的实例模型,API和内测将于近期开放。

说明:CPM-Bee是一个基座模型,即从零开始通过预训练得来。我们鼓励用户在自己的场景和数据上适配/微调/对齐后再进行使用。例如,WebCPM 以CPM-Bee为基座,在人类网络检索的序列化数据上进行适配,获得了复杂问答和上网检索的能力。后续我们将会发布更多在CPM-Bee基座模型基础上适配的模型。


TigerBot

AI干货|大语言模型:开源大模型[疯语咒AI]

TigerBot 是一个多语言多任务的大规模语言模型(LLM)。根据 OpenAI InstructGPT 论文在公开 NLP 数据集上的自动评测,TigerBot-7B 达到 OpenAI 同样大小模型的综合表现的 96%,并且这只是我们的 MVP,在此我们将如下探索成果开源:

  • 模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B (research version),
  • 代码:基本训练和推理代码,包括双卡推理 180B 模型的量化和推理代码,
  • 数据:预训练 100G,从 2TB 过滤后的数据中经过去噪去重清洗而得;监督微调 1G 或 100 万条数据,按比例涵盖用户指令常见的 10 大类 120 小类任务,
  • API: chat, plugin, finetune, 让用户能在半小时内无代码的训练和使用专属于自己的大模型和数据,
  • 领域数据:涵盖金融,法律,百科,广邀大模型应用开发者,一起打造中国的世界级的应用。

我们在 BLOOM 基础上,在模型架构和算法上做了如下优化:

  • 指令完成监督微调的创新算法以获得更好的可学习型(learnability),
  • 运用 ensemble 和 probabilistic modeling 的方法实现更可控的事实性(factuality)和创造性(generativeness),
  • 在并行训练上,我们突破了 deep-speed 等主流框架中若干内存和通信问题,使得在千卡环境下数月无间断,
  • 对中文语言的更不规则的分布,从 tokenizer 到训练算法上做了更适合的算法优化。

书生·浦语简介

AI干货|大语言模型:开源大模型[疯语咒AI]

InternLM 是上海人工智能实验室与商汤科技(同等贡献)联合香港中文大学、复旦大学、上海交通大学合作开发的多语言大语言模型。

我们隆重介绍 InternLM ,具有 104B 个参数的多语言基础语言模型。 InternLM 在具有 1.6T 代币的大型语料库上进行了多阶段渐进过程的预训练,然后进行微调以符合人类偏好。我们还开发了名为 Uniscale-LLM 的训练系统,用于高效的大语言模型训练。多项基准测试的评估表明,InternLM在知识理解、阅读理解、数学和编码等多个方面均达到了state-of-the-art的表现。凭借如此全面的功能,InternLM 在不借助外部工具的情况下,在 MMLU、AGIEval、C-Eval 和 GAOKAO-Bench 等综合考试中取得了出色的表现。在这些基准测试中,InternLM 不仅显着优于开源模型,而且与 ChatGPT 相比也获得了更优越的性能。此外,InternLM表现出出色的理解汉语和中国文化的能力,这使其成为支持面向汉语的语言应用的合适基础模型。这份手稿详细研究了我们的结果,并提供了跨不同知识领域和任务的基准和示例。


Aquila

AI干货|大语言模型:开源大模型[疯语咒AI]

悟道·天鹰(Aquila) 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。

  • 🌟 支持开源商用许可。Aquila系列模型的源代码基于 Apache 2.0 协议,模型权重基于 《智源Aquila系列模型许可协议》,使用者在满足许可限制的情况下,可用于商业目的。 – ✍️ 具备中英文知识。Aquila系列模型在中英文高质量语料基础上从 0 开始训练,中文语料约占 40%,保证模型在预训练阶段就开始积累原生的中文世界知识,而非翻译而来的知识。
  • 👮‍♀️ 符合国内数据合规需求。Aquila系列模型的中文语料来自智源多年积累的中文数据集,包括来自1万多个站源的中文互联网数据(其中99%以上为国内站源),以及获得国内权威机构支持的高质量中文文献数据、中文书籍数据等。我们仍在持续积累高质量、多样化的数据集,并源源不断加入Aquila基础模型后续训练中。
  • 🎯 持续迭代,持续开源开放。我们将不断完善训练数据、优化训练方法、提升模型性能,在更优秀的基础模型基座上,培育枝繁叶茂的“模型树”,持续开源开放更新的版本。

悟道 · 天鹰 Aquila 模型的更多细节将在官方技术报告中呈现。请关注官方渠道更新。包括 FlagAI GitHub仓库, FlagAI 知乎账号、 FlagAI 官方技术交流群、智源研究院微信公众号、智源社区微信公众号。


Baichuan-7B

AI干货|大语言模型:开源大模型[疯语咒AI]

Baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文 benchmark(C-Eval/MMLU)上均取得同尺寸最好的效果。


Baichuan-13B

AI干货|大语言模型:开源大模型[疯语咒AI]

Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 ( Baichuan-13B-Base) 和对齐 ( Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点:

  1. 更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。
  2. 同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。
  3. 更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。
  4. 开源免费可商用:Baichuan-13B 不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。

Anima

AI干货|大语言模型:开源大模型[疯语咒AI]

Anima模型基于QLoRA开源的33B guanaco训练了10000 steps。训练使用一个H100 GPU。

本工作主要为了验证QLoRA训练方法的有效性,因此选择了基于QLoRA的Guanaco 33B finetune训练,这个训练更多的是增强模型的中文能力。Assume模型的基础logical reasoning和Knowledge能力已经足够。


KnowLM

AI干货|大语言模型:开源大模型[疯语咒AI]

这是KnowLM的概述,主要包含三个技术特征:

知识提示:基于知识图等结构化数据生成知识提示,利用知识增强约束来解决知识提取和推理

知识编辑:利用知识编辑技术,对齐大型模型中过时的、不正确的、有偏见的知识,解决知识谬误问题(英文教程)。

知识交互:它能够实现动态的知识交互和反馈,实现工具化学习和多智能体协作,解决LLM中的具身认知问题(英文教程)。

这三种技术对应的工具是EasyInstruct, EasyEdit 和 EasyAgent(正在开发中)。我们很快将提供基于KnowLM框架的知识提示和知识编辑的用例。


BayLing

AI干货|大语言模型:开源大模型[疯语咒AI]

BayLing(百临)是一种具有高级语言对齐功能的指令跟踪大型语言模型,在英汉生成、指令跟踪和多轮交互方面表现出卓越的能力。 BayLing可以轻松部署在拥有16GB内存的消费级GPU上,协助用户完成翻译、写作、创作、建议等任务……

如果BayLing对你有帮助,欢迎star回购🌟

👇了解有关Bayling的更多信息:

💬演示:欢迎申请Bayling在线演示(Beta版)的试用。 📄 论文:BayLing 的综合研究论文。

🏠 主页:BayLing 的主页。您可以在这里了解BayLing的更多信息和案例。

✍️ BayLing-80测试集:包含中英文多轮指令的人工注释评估集,可用于评估多语言以及LLM的多轮交互能力。

🤗型号:BayLing-7B-v1.0、BayLing-13B-v1.0、BayLing-13B-v1.1(最佳版本)


YuLan-Chat

AI干货|大语言模型:开源大模型[疯语咒AI]

YuLan-Chat系列模型是中国人民大学高瓴人工智能学院师生共同开发的支持聊天的大语言模型(名字”玉兰”取自中国人民大学校花)。最新版本基于LLaMA-2进行了中英文双语的继续预训练和指令微调。该版模型具有如下技术特点:

由于在高质量中英双语数据上进行了继续预训练,模型的语言能力得到提高; 为了更好的支持中文和更长的输入输出,对原版LLaMA-2的词表及长度进行了扩充,目前可支持8k上下文; 为了让模型更好地服从用户指令,构建了高质量双语指令数据集,并行了多阶段指令微调。


PolyLM

AI干货|大语言模型:开源大模型[疯语咒AI]

PolyLM是一个多语言大语言模型,旨在解决当前LLM研究中的以下空白和限制,为推进该领域提供全面且创新的解决方案。

涵盖18种最常用语言。 PolyLM 精通全球主要非英语语言,如西班牙语、俄语、阿拉伯语、日语、韩语、泰语、印度尼西亚语和中文等。它是对现有开源模型的完美补充,包括:(1 ) LLaMA,其中英语在整个数据集中占主导地位。 (2) BLOOM,无法解决大量人口使用的语言,例如日语、韩语和泰语。 更好的多语言指令跟随能力。我们建议使用 MULTIALPACA 来补充 ALPACA 和 CHINESEALPACA,使法学硕士能够更好地遵循多语言指令,特别是来自非英语母语人士的指令。 表现强劲。与模型大小相似的流行多语言法学硕士相比,PolyLM 在各种任务上表现出了出色的性能,包括 QA、理解和生成。


Qwen-7B

AI干货|大语言模型:开源大模型[疯语咒AI]

通义千问-7B(Qwen-7B)是阿里云研发的统一钱文大模型系列中70亿参数规模的模型。它使用自建的超过2.2万亿代币的大规模预训练数据集进行语言模型预训练。数据集包括文本和代码等数据类型,涵盖通用和专业领域,可支持8K的上下文长度。针对插件调用相关的对齐数据进行了具体优化。当前模型可以有效调用插件并升级为Agent。


huozi

AI干货|大语言模型:开源大模型[疯语咒AI]

活字是由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。 该模型基于 Bloom 结构的70 亿参数模型,支持中英双语,上下文窗口长度为 2048。 在标准的中文和英文基准以及主观评测上均取得同尺寸中优异的结果。

局限性: 由于模型参数量以及中文预训练数据较少和自回归生成范式,活字仍然可能生成包含事实性错误的误导性回复或包含偏见/歧视的有害内容,请谨慎鉴别和使用生成的内容,请勿将生成的有害内容传播至互联网。若产生不良后果,由传播者自负。

模型设置 模型基座使用BLOOM-7B1,结合了BLOOM模型本身的中文能力。在保证性能的同时支持单卡推理。 指令微调数据集采用ChatML格式。训练数据总量为15B token,包含约20%的预训练语料和80%的对话及指令数据。

模型特色

活字1.0

中英双语: 在标准的中/英文基准与主观测评上均取得优异的效果,同时支持多语言对话能力。指标分数详见 人工综合评测。 更丰富的指令微调数据: 人工构造了更多指令微调模板,以及一系列的self-instruct指令构造的SFT数据,使得指令微调的数据更加丰富。 取得更好的指令遵循能力 支持生成代码以及表格 更高质量的安全数据: 基于多轮对抗攻击,以SFT形式手动设计安全数据,强化模型回复的安全性和合规性。 安全性指标达到 84.4⁄100 ,甚至超越了ChatGPT。

活字2.0

更好的回复:活字2.0的回复具有更好的模式,往往更加详实、条理清晰。 融合多种trick的稳定PPO训练: 训练更加稳定高效 训练过程中保持数据分布一致 在奖励函数中加入KL-散度罚值 Actor权重滑动平均 多维度标注的中文偏好数据: 回答更丰富,遵从指令的能力更强,逻辑更加清晰 针对Instruction标注是否具有诱导性 针对每条回复从有用性、真实性和无害性三个维度打分 综合考虑Instruction类别、回复质量的偏好排序


强烈推荐收藏官网


添加官方微信

AI干货|大语言模型:开源大模型[疯语咒AI]

疯语咒AI AI技术和AI教育的先行者,每个人都能获取海量的AI学习材料,包括AI课程、AI学习视频、AI项目、AI代码、AI研究论文、AI基础理论、深度学习、机器学习、提示词课程、大语言模型训练和微调、AI绘画设计以及AI工具(chatgpt、midjourney、stable diffusion、claude2、brad、huggingFace…


最新文章

(2)
上一篇 2023年9月28日 上午9:43
下一篇 2023年9月28日 下午2:54

更多相关内容

开始你的AI探索之旅,开启无限可能,学习AI道路上我们一起前进。