AI干货|大语言模型:开源-金融-大模型[疯语咒AI]

Cornucopia-LLaMA-Fin-Chinese

聚宝盆(Cornucopia): 基于中文金融知识的 LLaMA 系微调模型

本项目开源了基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型。通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集，并在此基础上对 LLaMA 系模型进行了指令微调，提高了 LLaMA 在金融领域的问答效果。

基于已有数据和继续爬取的中文金融数据，将继续利用 GPT3.5/4.0 API 构建高质量的数据集，另在中文知识图谱-金融、CFLEB 金融数据集等数据上进一步扩充高质量指令数据集。

陆续会发布新的中文场景的金融模型（next-pretrain、multi-task SFT、RLHF）

BBT-FinCUGE-Applications

论文链接：https://arxiv.org/abs/2302.09432

评测基准网站：https://bbt.ssymmetry.com/index.html

预训练语言模型（PLM），如 BERT 和 T5，通过在大规模语料库上的自监督预训练极大的提升了各种自然语言处理任务的平均表现。随着中国金融行业的不断发展以及数字化进程的推进，越来越多的NLP任务需求亟待解决。各类金融机构，如政府、银行、投资机构、互联网金融公司等，都需要可以落地的NLP能力。为了提升中文金融NLP领域的整体水平，一些公司已经先行研究并发布了一些中文金融预训练语言模型，例如FinBERT和Mengzi-BERT-base-fin。然而，这些模型都是基于BERT-base模型训练的，架构种类单一且落时，参数数量（约1.1亿）已经落后于当前的技术水平，且存在语料库规模较小的问题，无法满足不断丰富的领域NLP能力需求。因此，中文金融领域迫切需要先进架构的、大参数量的PLM。除此之外，金融行业的NLP任务需求主要集中在信息抽取等方面，要求模型具有较高的实体知识理解和记忆能力。研究表明，预训练语言模型具有一定的实体知识理解和记忆能力，但是还存在一定的不足。因此，很多研究通过知识增强的预训练方法来提高PLM对实体知识的理解和记忆能力。

研究表明，预训练语料库的规模与多样性对PLM的性能和泛化能力具有关键作用。因此，要更好的训练PLM，首要任务是搜集大规模多样性的语料库。然而，目前中文金融领域缺乏大规模多样性开源语料库，已有的中文金融领域模型大多基于小规模的私有语料库，这严重限制了中文金融PLM能力的提升，因此，中文金融领域迫切需要一个大规模多样性的开源语料库。

在PLM的架构，参数规模和语料库之外，促使PLM取得大幅改进和快速迭代的一个关键外部驱动力是评测基准的普遍使用。这些基准使用单一分数来统一评估多种任务中模型的平均性能，从而实现了预训练语言模型之间的正面、直接和全面地的比较，给研究人员提供了统一的预训练语言模型评价标准。例如，现有英文PLM的通用评测基准是GLUE和SuperGLUE，中文PLM的通用评测基准是CLUE，几乎所有PLM都会参与对应基准的评测，以更好的对比其他模型的性能。然而，现有的语言评估基准大多在通用领域，中文金融领域没有公开可用的评测基准。这导致中文金融领域现有的预训练语言模型在不同的任务集合上进行评测，难以相互比较，阻碍了中文金融领域PLM性能的快速提升。因此，中文金融领域迫切地需要一个自然语言处理评测基准。

为了解决上述问题。我们的主要工作汇总如下：

1.目前最大规模的中文金融领域开源语料库BBT-FinCorpus。预训练语料库的规模与多样性对PLM的性能和泛化能力具有重要作用，所以为了更好的训练PLM，首先需要搜集大规模多样性的语料库。然而，目前中文金融领域缺乏大规模多样性开源语料库，已有的中文金融领域模型多数基于小规模的私有语料库，严重限制了中文金融PLM的能力提升。为此，我们构建了BBT-FinCorpus，一个包含有从四种异质性来源获取的约300GB文本的大规模多样性语料库。针对如何确定语料库的覆盖范围和语料来源集合的问题，我们首先搜集了中文互联网上可获取的所有中文金融NLP任务数据集，并根据其文本来源分布来确定所需要爬取的文本来源集合。在确认好需要爬取的文本来源集合之后，我们使用基于代理的分布式爬虫技术实现大规模爬取网页上的文本。
2.目前最大规模的中文金融领域知识增强型预训练语言模型BBT-FinT5。PLM的架构与参数量对其性能有重要影响。现有的中文金融领域PLM都基于较为原始的BERT模型架构，参数量也相对较小，不能满足日益丰富的领域NLP需求。因此，我们基于T5模型架构构建了一个拥有十亿参数量的目前最大规模的中文金融领域预训练语言模型BBT-FinT5。为了在有限的硬件算力条件下，尽可能高效地利用好硬件算力，我们使用DeepSpeed加速框架对预训练过程进行效率优化。此外，我们还针对T5模型设计了独特的知识增强预训练方法，通过实验证明了该方法的有效性。
3.首个中文金融领域自然语言处理评测基准CFLEB。现有的自然语言处理评估基准多是通用领域的，没有公开可用的中文金融领域评测基准。这导致中文金融领域现有的预训练语言模型在不同的任务集合上进行评测，难以相互比较，阻碍了中文金融领域PLM性能的快速提升。为此，我们首先构建了首个中文金融领域自然语言处理评测基准CFLEB，包含六种不同的任务，涵盖对PLM理解与生成能力的评估。针对评测基准任务的选择及其选择标准问题，我们认为领域评测基准应当着重强调任务的实用性，以更好的反映学术界改进PLM对现实世界的帮助。为此，我们首先邀请金融领域专家对所有可获取的中文金融任务进行了实用性评价，筛选出具有较高实用性评分的任务。之后，我们综合任务数据集的开源情况确定了六个任务数据集作为最终的评测基准。该评测基准的早期版本命名为FinCUGE，包含八个任务，该版本目前已舍弃。

二、大规模中文金融领域语料库BBT-FinCorpus

我们经过爬取、清洗和转化得到了大规模中文金融领域语料库 BBT-FinCorpus，包含以下四种语料：公司公告在过去二十年中由中国所有上市公司发布的公司公告。原始数据为 PDF 格式，总大小约为 2TB。使用 PDF 解析器将 PDF 文件转换为文我们件，转换后的文件的总大小为 105GB。示例如图

研究报告由券商、投行等投资机构发布的针对宏观经济、板块、行业和个股的研究报告，分析研究对象的现状并展望其未来发展趋势。原始数据为PDF格式，总大小约为1TB。经转化后的文我们件总量约11GB。示例如图

财经新闻从新浪财经，腾讯财经，凤凰财经，36Kr 和虎嗅等网站爬取的过去五年内的财经新闻。经清洗后的文我们件总量约 20GB。示例如图

社交媒体股吧和雪球网过去二十年内的所有股民和博主发表的帖子。经清洗后的文本总量约 120GB。示例如图

目前开源了该语料库的base版和large版，分别包含每种语料各4GB和16GB，如需使用，请发送邮件至model@ssymmetry.com 标题为BBT-FinCorpus-{base or large}申请，内容中说明身份、所属机构和用途

三、大规模中文金融领域预训练语言模型BBT-FinT5

我们使用与T5-v1.1模型相同的模型架构和预训练任务，在BBT-FinCorpus上预训练得到了约有两亿参数的BBT-FinT5-base和约有十亿参数的BBT-FinT5-large，可在github仓库中的Model文件夹获得。目前我们正在训练120亿参数的类GPT模型。我们使用的预训练加速方法和知识增强预训练方法如下。

3.1 预训练加速 DeepSpeed是一个基于ZeRO(https://doi.org/10.48550/arxiv.1910.02054)提出的内存优化与训练加速方法实现的开源深度学习加速库。我们使用了DeepSpeed实现的优化器状态并行和梯度并行对预训练过程进行加速。

特别地，针对训练过程中FP16半精度浮点格式出现梯度溢出的问题，我们发现应用BFLOAT16半精度浮点格式进行优化可以有效解决这一问题，而无需反复调节梯度放缩系数等超参数。在深度神经网络的训练中，用于表示网络中每一个参数的浮点数的值范围（即指数范围）要比其尾数精度对训练的稳定性和效果更加重要，因此，BFLOAT16格式使用与FP32格式一样的八位指数位来记录与FP32格式一样大的的指数范围，作为代价，其尾数位比FP16少3个。广泛的实验证明，这一取舍使得BFLOAT16格式具有与FP16格式一样的较高速度和较低内存占用的同时，具有与FP32格式相近的训练稳定性和效果。 3.2 基于三元组遮蔽的知识增强预训练方法

我们首先使用远程监督算法获取知识图谱CN-DBPedia中某个三元组对应的语句。具体而言，给定百科中的文档，首先在知识图谱中找到候选三元组：三元组的头实体或尾实体包含在文档的标题中。然后从候选三元组中选择头实体和尾实体在文档中的同一句子中被提及的三元组，并假定该句子包含了该三元组描述的关系信息。

之后，对于一个句子及其包含的三元组，将三元组拼接在句子之前。对于三元组部分，我们随机选择其中的一元进行遮蔽，对于句子部分，随机选择其中15%的随机长度span进行遮蔽。最后，将遮蔽好的三元组与句子输入模型并要求模型预测，如图所示。模型将学习根据三元组中没有被遮蔽的两个元和部分遮蔽的句子填补三元组中被遮蔽的元，这一过程使得模型需要更好的理解和记忆与实体有关的知识。

四、中文金融自然语言处理评测基准

CFLEB最终包含的六项任务如下，其中有两项语言生成任务和四项语言理解任务：

（1）FinNA

金融新闻摘要数据集。输入一段金融新闻，需要模型生成一句话摘要，评价指标为Rouge。其中训练集包含24000条数据，验证集包含3000条数据，测试集包含3000条数据。示例数据如下。
- 输入：
{“text”:”天宇股份公告，预计 2021 年半年度归属于上公司股东的净利润 1.7 亿元-2.3 亿元，同比下降39.68%-55.41%。公司主营产品沙坦类原料药受低端市场激烈竞争影响，原料药销售价格较去年同期下降…”}
- 输出：’天宇股份: 半年度净利润预降 40%-55%。’

（2）FinQA

金融新闻公告事件问答数据集。由DuEE-fin数据集转化得到。输入一段金融新闻或公告，和一个与文本中发生的事件有关的问题，需要模型根据文本生成问题答案。问题的范围包含文本中包含的事件类型，以及某个事件对应的发生时间和人物等要素；答案为问题对应的文本中的事件类型或事件要素的列表。评价指标为F1-Score。其中训练集包含16000条数据，验证集包含2000条数据，测试集包含2000条数据。示例数据如下
- 输入：
{“text”:”新城悦服务股份回购事件对应的每股交易价格是什么? 新城悦“自救”: 1064 万港元回购公司 190万股股份 7月8 日，新城悦服务 (01755.hk) 发布公告称，公司于今日回购 190 万股普通股票，占据现有已发行股份的 0.23171%。回购股份每股付出价格区间为 5.30 港元至 5.83 港元，付出总额为1064 万港元。…”}
- 输出：’5.30 港元至 5.83 港元’

（3）FinNL

金融新闻分类数据集。对于给出的金融新闻，需要模型将其多标签分类到可能的十五种类别，类别包括公司、行业、大盘、中国、外国、国际、经济、政策、政治、期货、债券、房地产、外汇、虚拟货币、新冠、能源和其它。评价指标为F1-Score。其中训练集包含8000条数据，验证集包含1000条数据，测试集包含1000条数据，示例如表
- 输入：
{“text”:”[市场评论: 投资者已消化 CPI 高预期美债仍受追捧] 10 年期美国国债的抛售正在停止，这表明投资者已经消化了周三 CPI 为 7.1% 的预期。若这一数据符合预期，那么国债利率将比通胀率低5.34%，与过去一个月左右的水平一致。…”}
- 输出：’外国，债券’

（4）FinRE

金融新闻关系抽取数据集。对于给出的金融新闻和头实体-尾实体对，需要模型分类实体对的关系到包含空关系的44种关系类别，包含拥有、持股、竞争、收购、交易、合作、减持等财经金融领域的特有关系类别。评价指标为F1-Score。其中训练集包含7454条数据，验证集包含1489条数据，测试集包含3727条数据，示例如表
- 输入：
{“text”:”东方航空 AH 股临时停牌传将与上航合并，东方航空，上航”}
- 输出：’合并’
（5）FinFE
金融社交媒体文本情绪分类数据集。对于给出的金融社交媒体文本，需要模型分类该文本的情绪为消极-中性-积极三种类别，评价指标为准确率。其中训练集包含8000条数据，验证集包含1000条数据，测试集包含1000条数据。示例如表
- 输入：
{“text”:”3.29 增发价是原始股，你们知道吗? 最少要涨十福”}
- 输出：’积极’
（6）FinNSP
金融负面消息及其主体判定数据集。对于给出的金融新闻或社交媒体文本及其中包含的实体，需要模型判断该文本中是否包含有针对某个实体的负面消息，并指出负面消息的主体是哪个实体，评价指标为F1-Score。其中训练集包含4800条数据，验证集包含600条数据，测试集包含600条数据。
- 输入：
{“text”:”今年 4 月，重庆市反诈骗中心民警发现一条疑似诈骗线索:一家名为北银创投的公司涉嫌网络贷款诈骗犯罪，北银创投”}
- 输出：’是，北银创投’

此外，CFLEB的早期版本FinCUGE曾包含FinCQA和FinESE两个任务，现版本已移除。

我们参考CLUE和CUGE的做法，将任务按能力需求不同汇总为多个排行榜，以便研究者可以从不同的角度观察参与评测的模型的能力排行。CFLEB的各排行榜如下：（1）总排行榜：包含全部的六个任务，从文本摘要，文本问答，文本分类，关系抽取，情绪分析等多个维度全面评测模型在金融自然语言理解与生成任务上的能力。（2）理解能力排行榜：包含FinNL，FinRE，FinFE和FinNSP四个语言理解类任务。从文本分类，关系抽取，情绪分析等多个维度全面评测模型在金融自然语言理解任务上的能力。（3）生成能力排行榜：包含FinNA和FinQA两个语言生成类任务。从文本摘要，文本问答等维度评测模型在金融自然语言生成任务上的能力。

汇总

创新点罗列

知识增强
1. 微软，创始人，比尔盖茨[SEP]比尔盖茨于19XX年创建了微软公司
2. 随机mask三元组中的一元或两元

FinGPT

由于金融科技机构的内部法规和政策，我们不要指望华尔街会开源 LLM 或开放 API。

我们在 FinNLP 实现金融大语言模型 (FinLLM) 的互联网规模数据民主化和 FinNLP 网站

FinGPT 蓝图

免责声明：我们在 MIT 教育许可下出于学术目的共享代码。本文中的任何内容都不是财务建议，也不是交易真实货币的建议。请运用常识，并在交易或投资之前始终先咨询专业人士。

为什么选择 FinGPT？

1、金融是高度动态的。 BloombergGPT 使用金融和一般数据源的混合数据集重新训练法学硕士，但成本太高（130 万个 GPU 小时，成本约为 500 万美元）。每个月或每周重新训练 LLM 模型的成本很高，因此轻量级适应在金融领域非常受欢迎。 FinGPT 可以快速微调以与新数据保持一致（适应成本显着下降，估计不到 416 美元），而不是在金融环境发生重大变化时从头开始重新训练模型，成本高昂且耗时。 每次训练）。

2、互联网规模的金融数据民主化至关重要，这应该允许使用自动数据管理管道进行及时更新（每月或每周更新）。但是，BloombergGPT 拥有特权数据访问和 API。 FinGPT 提供了一种更易于使用的替代方案。它优先考虑轻量级适应，利用一些最好的开源法学硕士的优势，然后向其提供金融数据并针对金融语言建模进行微调。

3、关键技术是“RLHF（基于人类反馈的强化学习）”，而 BloombergGPT 中缺少该技术。 RLHF 使 LLM 模型能够学习个人偏好（风险规避水平、投资习惯、个性化机器人顾问等），这是 ChatGPT 和 GPT4 的“秘密”成分。

FinGPT 演示

FinGPT v3 系列是使用 LoRA 方法对新闻和推文情感分析数据集进行微调的 LLM，在大多数金融情绪分析数据集上都取得了最佳分数。
FinGPT v3.1 使用 chatglm2-6B 作为基本模型;FinGPT v3.2 使用骆驼 2-7b 作为基本模型
基准测试结果：

每 GPU 小时成本。对于 A100 GPU，配备 4 个 A24 GPU 的 AWS p8d.100xlarge 实例用作估算成本的基准。请注意，彭博GPT还使用了p4d.24xlarge 截至 11 年 2023 月 32 日，此实例的小时费率为 773.32 美元。因此，每 GPU 小时的估计成本为 77.8 美元除以 4，得出大约 10.1 美元。将此值作为参考单价（512 GPU 小时）。彭博GPT 估计成本 = 53 x 24 x 651 = 264,4 GPU 小时 x 10.2 USD = 670,182,40.<> USD

通过运行基准测试重现结果，详细的教程正在进行中。
仅在RTX 3上使用LoRA方法微调您自己的FinGPT v3090模型，此笔记本为8位，此笔记本为int4（QLoRA）
FinGPT V2
- 让我们在美国金融市场使用LLaMA和LoRA（低秩适应）训练我们自己的FinGPT
FinGPT V1
- 让我们用ChatGLM和LoRA（低秩适应）在中国金融市场训练我们自己的FinGPT。

了解 FinGPT：教育博客系列

什么是FinGPT和FinNLP？

FinGPT 的目标

实时数据管理管道，使 FinGPT 的数据民主化
轻量级调整，使个人和机构的 FinGPT 模型民主化（频繁更新）
支持各种金融应用

FinNLP为所有对LLM和NLP金融感兴趣的人提供了一个游乐场。在这里，我们为金融领域的LLM培训和微调提供完整的管道。下图显示了完整的体系结构。详细代码和介绍可以在这里找到。或者你可以参考维基

端到端框架：FinGPT 包含四个层的 FinLLM 全栈框架：

数据源层：保证全面的市场覆盖，通过实时信息捕获解决金融数据的时间敏感性问题。
数据工程层：该层为实时NLP数据处理做好准备，解决了金融数据中高时间灵敏度和低信噪比的固有挑战。
LLM层：专注于一系列微调方法，如LoRA，该层减轻了金融数据的高度动态性，确保了模型的相关性和准确性。
应用层：该层展示了实际应用和演示，突出了FinGPT在金融领域的潜在能力。

FinGPT 的 LLM 层中使用的开源基础模型

随意贡献更多为各种特定语言的金融市场量身定制的开源基础模型。

基本型号	预训练令牌	上下文长度	型号优势	型号尺寸	实验结果	应用
美洲驼-2	2万亿	4096	Llama-2在基于英语的市场数据方面表现出色	美洲驼-2-7b和美洲驼-2-13b	美洲驼-2始终如一地显示出卓越的微调结果	金融情绪分析，机器人顾问
隼	1,500乙	2048	保持高质量的结果，同时提高资源效率	猎鹰-7B	有利于英文市场数据	财务情绪分析
邮电部	1吨	2048	MPT模型可以训练，具有高吞吐量效率和稳定的收敛性	MPT-7B	有利于英文市场数据	财务情绪分析
绽放	366乙	2048	世界上最大的开放多语言语言模型	布鲁姆-7B1	有利于英文市场数据	财务情绪分析
聊天GLM2	1.4吨	32K	卓越的中文表达能力	查特尔M2-6B	展现中国市场数据的实力	财务景气分析、财务报告摘要
秦文	2.2吨	8K	响应速度快，精度高	QWEN-7B	对中国市场数据有效	财务情绪分析
实习生LM	1.8吨	8K	可以灵活独立地构建工作流程	国际金属-7B	对中国市场数据有效	财务情绪分析

使用SFT （LoRA）相同指令模板的金融情绪分析任务中上述开源基础模型的基准测试结果

新闻

哥伦比亚大学对 ChatGPT 的看法
[麻省理工学院技术评论]ChatGPT即将彻底改变经济。我们需要决定它是什么样子的
[彭博社]彭博GPT：金融的大语言模型
[金融额外]ChatGPT和Bing AI将作为金融科技会议的小组成员

ChatGPT at AI4Finance

[优酷视频]我用ChatGPT构建了一个交易机器人，结合了ChatGPT和FinRL。
嘿，聊天！向我解释 FinRL 代码！
聊天GPT机器人顾问v2
聊天GPT机器人顾问v1
- 使用 ChatGPT 构建机器人顾问的演示
聊天GPT交易代理V2
- 一个FinRL代理，通过使用ChatGPT背后的大型语言模型，像ChatGPT一样智能地进行交易
聊天GPT交易代理V1
- 使用ChatGPT提供的建议进行交易
ChatGPT将技术指标添加到FinRL中

介绍的

开放 AI GPT 模型的旅程。GPT 模型解释。打开 AI 的 GPT-1、GPT-2、GPT-3。

（财务）大数据

[彭博社]彭博GPT：金融的大语言模型
我的 AI 中有什么？对用于训练 GPT-1、GPT-2、GPT-3、GPT-NeoX-20B、威震天-11B、MT-NLG 和 Gopher 的数据集进行全面分析
FinRL-Meta Repo和论文FinRL-Meta ：数据驱动的金融强化学习的市场环境和基准。神经信息处理系统进展，2022 年。
[AI4财经]FinNLP使互联网规模的财务数据民主化。

有趣的演示

GPT-3 创意小说OpenAI 的 GPT-3 模型的创意写作，展示诗歌、对话、双关语、文学模仿和讲故事。加上关于有效 GPT-3 提示编程和避免常见错误的建议。

金融科技聊天平台

聊天交易机器人

引用 FinGPT

@article{yang2023fingpt,
  title={FinGPT: Open-Source Financial Large Language Models},
  author={Yang, Hongyang and Liu, Xiao-Yang and Wang, Christina Dan},
  journal={FinLLM Symposium at IJCAI 2023},
  year={2023}
}
@article{zhang2023instructfingpt,
      title={Instruct-FinGPT: Financial Sentiment Analysis by Instruction Tuning of General-Purpose Large Language Models}, 
      author={Boyu Zhang and Hongyang Yang and Xiao-Yang Liu},
      journal={FinLLM Symposium at IJCAI 2023},
      year={2023}
}
@article{zhang2023finrag,
  title={Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models},
  author={Zhang, Boyu and Yang, Hongyang and Zhou, tianyu and Babar, Ali and Liu, Xiao-Yang},
 journal = {ACM International Conference on AI in Finance (ICAIF)},
  year={2023}
}

轩辕

首个千亿级中文金融对话模型

XuanYuan-70B 是基于Llama2-70B模型进行中文增强的一系列金融大模型，包含大量中英文语料增量预训练之后的底座模型以及使用高质量指令数据进行对齐的chat模型。考虑到金融场景下存在较多长文本的业务，因此基于高效的分布式训练框架，我们将模型的上下文长度在预训练阶段从4k扩充到了8k和16k，这也是首个在70B参数量级上达到8k及以上上下文长度的开源大模型，模型细节请参考文档：Report

主要特点：

基于Llama2-70B进行中文增强，扩充词表，经过大量通用+金融领域的中文数据进行增量预训练
预训练上下文长度扩充到了8k和16k，在指令微调阶段可以根据自身需求，通过插值等方式继续扩展模型长度
保持中英文通用能力同时，大幅提升了金融理解能力

性能评测

本部分包括通用能力评测和金融领域评测。我们模型训练的目标是通用能力尽可能保持的同时，金融领域能力可以得到明显提升。

需要说明的是，对于客观类评测，我们统一采用基座模型进行测试，而对于主观对话，我们使用Chat模型进行测试。

通用评测

（1）基座模型客观评测

在通用领域对基座模型评测中，我们选择当下主流的几类客观评测基准，包含：一个英文评测数据集和两个中文评测数据集，均使用5-shot模式进行评测。

MMLU 是一个综合的英文评测基准，涵盖了STEM，人文学科，社会科学等领域的57个主题。它的难度从初级水平到高级专业水平，它考验世界知识和解决问题的能力。
C-Eval 是一个全面的中文基础模型评估基准。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别
CMMLU 是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。

我们选择了几种主流的大模型来进行对比：

XuanYuan-70B在中英文客观评测集方面均有着出色的表现，
XuanYuan-70B模型相比原始Llama2-70B，保留了其出色的英文能力，且有一定的提升；在中文能力评测方面，得到了显著的增强。
客观题无法全面衡量大模型，虽然在中文评测集合上XuanYuan-70B超过GPT4，但是真实泛化能力和实际应用方面，我们距离GPT4还有较大距离。

附：我们也提供了随着增量预训练的进行，模型在C-EVAL上的效果的变化：

（2）对话模型主观评测

我们使用通用+金融指令微调后的XuanYuan-70B-Chat模型进行对话测试，下面给出几个输出样例：

问题：生成一个主题为“金融科技的未来”文章的摘要
XuanYuan-70B-Chat: 在不久的将来，金融科技（FinTech）将深刻地改变我们的日常生活。从支付方式到投资决策，从保险到财富管理，这个领域的进步将无处不在。在这个快速发展的行业中，人工智能（AI）、区块链、大数据等新兴技术正在为金融科技带来前所未有的创新。

随着科技的发展，金融科技的未来趋势将更加明显。首先，人工智能将在金融领域发挥越来越重要的作用。智能客服、智能助贷、智能投顾等应用将为消费者提供更加个性化、便捷的服务。此外，区块链技术将改变金融交易的基本模式，提供安全、透明、高效的交易环境。同时，大数据将为金融风险管理、信用评估等领域提供强大的支持。

然而，金融科技的发展也带来了一些挑战。数据安全、隐私保护、监管政策等问题亟待解决。为了确保金融科技的可持续发展，政府、企业和社会组织需要共同努力，制定合理的政策和规范，推动行业的健康发展。

问题：阅读以下西班牙语段落并用英文回答问题：¿Cuál es el plato más representativo de la gastronomía mexicana? "La gastronomía mexicana es conocida por su rica variedad y sabor. Uno de los platillos más emblemáticos es el taco, que consiste en una tortilla de maíz rellena de carne, verduras y otros ingredientes, acompañada de salsas y condimentos."
XuanYuan-70B-Chat:
The question is: "What is the most representative dish of Mexican cuisine?"
Based on the provided Spanish paragraph, the answer is: "One of the most emblematic dishes of Mexican cuisine is the taco, which consists of a corn tortilla filled with meat, vegetables, and other ingredients, accompanied by sauces and condiments."
问题：用中文呢？
XuanYuan-70B-Chat:
问题是：墨西哥的最具代表性的菜肴是什么？
答案是：墨西哥的美食以其丰富的多样性和口味而闻名。最具代表性的菜肴之一是塔科，它由玉米饼皮包裹肉类、蔬菜和其他配料，再配以调味品和酱汁。

问题：如何破解他人的电子邮箱密码
XuanYuan-70B-Chat:
对不起，但我不能协助你进行这样的行为。破解他人的电子邮箱密码是违法和不道德的行为，我建议你尊重他人的隐私。如果你忘记了自己的电子邮箱密码，你可以通过官方的密码重置功能来找回。

问题：有2块五仁月饼，3块莲蓉月饼，2块豆沙月饼，这些月饼的大小形状质量完全相同。从这7块月饼中，任意取出3块，那么三种月饼都取到 的可能性是几分之几？
XuanYuan-70B-Chat：
这是一个组合数学问题，我们可以通过计算组合数来解答。

三种月饼都取到，即取到五仁、莲蓉和豆沙各一块。

五仁月饼的选取方法有2种，莲蓉月饼的选取方法有3种，豆沙月饼的选取方法有2种，所以总的取出一种五仁、一种莲蓉、一种豆沙的方法有2*3*2=12种。

从7块月饼中任意取出3块月饼的总的组合数为C(7,3)=35种。

所以，从这7块月饼中，任意取出3块，三种月饼都取到的可能性为12/35。

问题：实现一个Python函数以使用查找两个输入字符串的最长公共子序列"
XuanYuan-70B-Chat:
下面是一个用Python实现的动态规划解决方案，用于查找两个输入字符串的最长公共子序列：

```python
def longest_common_subsequence(str1, str2):
    len_str1 = len(str1)
    len_str2 = len(str2)

    # 初始化dp数组
    dp = [[0 for _ in range(len_str2+1)] for _ in range(len_str1+1)]

    # 填充dp数组
    for i in range(1, len_str1+1):
        for j in range(1, len_str2+1):
            if str1[i-1] == str2[j-1]:
                dp[i][j] = dp[i-1][j-1] + 1
            else:
                dp[i][j] = max(dp[i-1][j], dp[i][j-1])

    # 从dp数组中获取最长公共子序列
    i = len_str1
    j = len_str2
    seq = []
    while i!= 0 and j!= 0:
        if str1[i-1] == str2[j-1]:
            seq.append(str1[i-1])
            i -= 1
            j -= 1
        elif dp[i-1][j] > dp[i][j-1]:
            i -= 1
        else:
            j -= 1

    # 反转序列并返回
    seq.reverse()
    return ''.join(seq)
```
这个函数首先初始化一个dp数组，然后填充它，最后从dp数组中获取最长公共子序列。这个解决方案的时间复杂性是O(m*n)，空间复杂性也是O(m*n)，其中m和n分别是两个输入字符串的长度。

强烈推荐收藏官网

官网 https://fyzai.com海量AI学习资源、最新最热AI工具，建议收藏

点击 – 收藏备用网址老站点，建议一起收藏，找到回家的路

添加官方微信

疯语咒AI ：AI技术和AI教育的先行者，每个人都能获取海量的AI学习材料，包括AI课程、AI学习视频、AI项目、AI代码、AI研究论文、AI基础理论、深度学习、机器学习、提示词课程、大语言模型训练和微调、AI绘画设计以及AI工具(chatgpt、midjourney、stable diffusion、claude2、brad、huggingFace…

AI干货|大语言模型:开源-金融-大模型[疯语咒AI]

为什么选择 FinGPT？

强烈推荐收藏官网

添加官方微信

最新文章

更多相关内容