AI干货|大语言模型:开源-法律-大模型[疯语咒AI]

AI干货|大语言模型:开源-法律-大模型[疯语咒AI]

ChatLaw

AI干货|大语言模型:开源-法律-大模型[疯语咒AI]
  • ChatLaw-13B,此版本为学术demo版,基于姜子牙 Ziya-LLaMA-13B-v1 训练而来,中文各项表现很好,但是逻辑复杂的法律问答效果不佳,需要用更大参数的模型来解决。
  • ChatLaw-33B,此版本为学术demo版,基于 Anima-33B 训练而来,逻辑推理能力大幅提升,但是因为Anima的中文语料过少,导致问答时常会出现英文数据。
  • ChatLaw-Text2Vec,使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配,例如:

“请问如果借款没还怎么办。”

“合同法(1999-03-15): 第二百零六条 借款人应当按照约定的期限返还借款。对借款期限没有约定或者约定不明确,依照本法第六十一条的规定仍不能确定的,借款人可以随时返还;贷款人可以催告借款人在合理期限内返还。”

两段文本的相似度计算为0.9960

简介 Brief Introduction

img

ChatGPT浪潮下,人工智能的不断扩展和发展为LLM的扩散提供了肥沃的土壤,目前医疗、教育、金融领域已逐渐有了各自的模型,但法律领域迟迟没有明显进展。

为了促进LLM在法律甚至其他垂直应用落地的开放研究,本项目开源了中文法律大模型,并针对LLM和知识库的结合问题给出了法律场景下合理的解决方案。

ChatLaw法律大模型目前开源的仅供学术参考的版本底座为姜子牙-13B、Anima-33B,我们使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。

基于姜子牙-13B的模型是第一版模型,得益于姜子牙的优秀中文能力和我们对数据清洗、数据增强过程的严格要求,我们在逻辑简单的法律任务上表现优异,但涉及到复杂逻辑的法律推理任务时往往表现不佳。

随后基于 Anima-33B,我们增加了训练数据,做成了ChatLaw-33B,发现逻辑推理能力大幅提升,由此可见,大参数的中文LLM是至关重要的。

我们的技术报告在这里: arXiv: ChatLaw

基于可商用的模型训练而成的版本会作为我们后续产品内部接入的版本,对外不开源,可以在 这里 进行开源版本模型的试用


HanFei

HanFei-1.0(韩非)是国内首个全参数训练的法律大模型,参数量7b,主要功能包括:法律问答、多轮对话、撰写文章、检索(敬请期待)等.

例子1

example 1

例子2

example 2

数据

注:目前只开源hanfei-1.0微调数据,不开源预训练数据。

数据处理

src/data_processing/gen_pretrain_data.py 生成预训练数据

src/data_processing/gen_instruction_multi.py 生成指令数据、合并微调数据

预训练数据

数据组成:案例、法规、起诉状、法律新闻等。

数据量:约60G数据,每条2048个token。

微调数据

hanfei 1.0

第一版使用规则筛选

数据类型文件名称数据量
中文通用指令zh_general_instruction.json5.3w
中文法律指令zh_law_instruction.json4.1w
中文通用对话zh_general_conversation.json5.5w
中文法律对话zh_law_conversation.json5.6w
中文法律问答数据zh_law_qa.json5w

数据、模型下载链接

百度网盘:

链接:https://pan.baidu.com/s/1PkRXUo9sNRQmoXHcW7Aeeg?pwd=d6t5

提取码:d6t5

hanfei 2.0(开发中)

第二版使用人工筛选

模型评估数据

数据类型数据路径数据说明数据量
法律问题data/evaluation_dataset包含劳动、婚姻等9个板块150条

评估指标

本次采用人工评估的方法,针对每一个法律咨询问题,Hanfei、BLOOMz、ChatGPT 3 个语言模型分别生成回答,我们聘请了专业的律师,为各个语言模型生成的回答打分。

  • 评估指标 1:(0-10 分)0 分最差,10分最好本次总共评估了150个问题,我们将每个模型的得分求和,用总得分衡量模型回答的质量,评估结果如下图所示:

训练

环境要求

A100/A800 * 8

训练命令

# Step 1:法律领域预训练 sh scripts/pre_training/run_train.sh # Step 2: 指令微调 sh scripts/instruction_tuning/run_train.sh

部署

环境要求

40G显存,只需1张A100/A800 或者 2张TITAN RTX…

部署命令

# Gradio 界面 python src/web/hanfei_app.py # RESTful api python src/serve/hanfei_serve.py


LexiLaw

AI干货|大语言模型:开源-法律-大模型[疯语咒AI]

欢迎来到 LexiLaw 项目!这个项目旨在提供专业的中文法律咨询服务,并分享在大模型在垂直领域微调的经验,以帮助社区开发更多优质的专用领域的大模型。

我会继续研究成文法和判例法体系的智慧司法研究,欢迎大家follow我关注最新动态,欢迎大家有新的想法与我交流!

AI干货|大语言模型:开源-法律-大模型[疯语咒AI]

LaWGPT

AI干货|大语言模型:开源-法律-大模型[疯语咒AI]

是一系列基于中文法律知识的开源大语言模型。

该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。

  • 🌟 2023/05/30:公开发布 
    • LaWGPT-7B-beta1.1:法律对话模型,构造 35w 高质量法律问答数据集基于 Chinese-alpaca-plus-7B 指令精调
  • 📣 2023/05/26:开放 Discussions 讨论区,欢迎朋友们交流探讨、提出意见、分享观点!
  • 🛠️ 2023/05/22:项目主分支结构调整,详见项目结构;支持命令行批量推理
  • 🪴 2023/05/15:发布 中文法律数据源汇总(Awesome Chinese Legal Resources) 和 法律领域词表
  • 🌟 2023/05/13:公开发布 
    • Legal-Base-7B:法律基座模型,使用 50w 中文裁判文书数据二次预训练
    • LaWGPT-7B-beta1.0:法律对话模型,构造 30w 高质量法律问答数据集基于 Legal-Base-7B 指令精调
  • 🌟 2023/04/12:内部测试 
    • LaWGPT-7B-alpha:在 Chinese-LLaMA-7B 的基础上直接构造 30w 法律问答数据集指令精调

Lawyer LLaMA

通过指令微调,LLaMA 模型在通用领域展现出了非常好的表现。但由于缺少合适的数据,少有人探究LLaMA在法律领域的能力。为了弥补这一空白,我们提出了Lawyer LLaMA,一个在法律领域数据上进行了额外训练的模型。

Lawyer LLaMA 首先在大规模法律语料上进行了continual pretraining,让它系统的学习中国的法律知识体系。 在此基础上,我们借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。

我们的模型能够:

  1. 掌握中国法律知识: 能够正确的理解民法、刑法、行政法、诉讼法等常见领域的法律概念。例如,掌握了刑法中的犯罪构成理论,能够从刑事案件的事实描述中识别犯罪主体、犯罪客体、犯罪行为、主观心理状态等犯罪构成要件。模型利用学到的法律概念与理论,能够较好回答法考中的大部分题目。
  2. 应用于中国法律实务:能够以通俗易懂的语言解释法律概念,并且进行基础的法律咨询,涵盖婚姻、借贷、海商、刑事等法律领域。

为了给中文法律大模型的开放研究添砖加瓦,本项目将开源一系列法律领域的指令微调数据基于LLaMA训练的中文法律大模型的参数 。

开源数据概览

文件名规模描述
judical_examination.json2,000ChatGPT生成的法考题解答
judical_examination_v2.json5,000ChatGPT生成的法考题解答(第二批公开)
legal_advice.json5,000ChatGPT生成的法律咨询回复
legal_counsel_v2.json8,000ChatGPT生成的法律咨询回复(第二批公开)
legal_counsel_with_article_v2.json1,000ChatGPT基于法条生成的法律咨询回复
legal_counsel_multi_turn_with_article_v2.json476ChatGPT基于法条生成的多轮法律咨询对话

相关技术介绍:训练中文垂类大模型:Lawyer LLaMA | Finisky Garden


Lychee

AI干货|大语言模型:开源-法律-大模型[疯语咒AI]

为了让法律服务深入到每个人的身边,让更多的人能够得到法律帮助,我们开启了【律知】这个项目, 致力于打造一系列引领法律智能化的大模型。

我们的 AI 法律模型是一位虚拟法律顾问,具备丰富的法律知识和技能,能够回答法律问题和提供法律建议。

语言模型

  • Law-GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调.
  • 即将推出更强大的法律语言模型, 敬请期待!

强烈推荐收藏官网


添加官方微信

AI干货|大语言模型:开源-法律-大模型[疯语咒AI]

疯语咒AI AI技术和AI教育的先行者,每个人都能获取海量的AI学习材料,包括AI课程、AI学习视频、AI项目、AI代码、AI研究论文、AI基础理论、深度学习、机器学习、提示词课程、大语言模型训练和微调、AI绘画设计以及AI工具(chatgpt、midjourney、stable diffusion、claude2、brad、huggingFace…


最新文章

(0)
上一篇 2023年9月28日 下午2:54
下一篇 2023年9月28日 下午4:49

更多相关内容

开始你的AI探索之旅,开启无限可能,学习AI道路上我们一起前进。