使用arXiv和Weaviate构建每周AI趋势提醒器
告别无休止的AI趋势刷屏。认识Archi,你的个人AI研究助手,每周为你推送必读内容。🧑🏽🔬
该工作流从arXiv抓取AI和机器学习文章摘要,使用LLM为其添加主题分类,并将其嵌入Weaviate向量存储中。然后,该向量存储被用作代理RAG工具,撰写简明易读的AI研究周报。
最终输出是一封简短的周报邮件,发送到你选择的邮箱,总结关键的AI研究趋势和未来研究方向,并附上当周最有趣和最具影响力的arXiv论文链接。
适用人群
这个工作流适合那些无法跟上所有最新AI进展的人。不需要编程技能。
工作原理
这是一个连续的工作流,可以概括为两个主要部分:一个获取文章并将其嵌入Weaviate的数据管道,以及一个生成周报邮件的代理工作流。
第一部分:每周自动获取新发表的文章
- 从arXiv的免费API获取文章摘要(和元数据)
- 预处理摘要数据
- 使用LLM为每篇文章添加主要主题、次要主题和研究的潜在影响估计
- 后处理数据
- 将数据和嵌入插入Weaviate
第二部分:使用AI代理和Weaviate生成周报邮件
- 将Weaviate作为工具添加到AI代理节点
- 通过代理查询Weaviate,生成当周最重要研究趋势的报告
- 后处理数据
- 通过邮件发送摘要
先决条件
- 现有的Weaviate集群。 你可以查看这里的Docker本地集群设置说明,或这里的Weaviate云集群设置说明。
- API密钥用于生成嵌入和驱动聊天模型。我们结合使用了OpenRouter和OpenAI模型。你可以随意更换模型。
- 具有STMP权限的邮箱地址。这是发送邮件的地址。本演示中我们使用个人Gmail地址。你可以按照这些说明创建新凭证链接
STMP账户
。 - 自托管的n8n实例。 观看这个视频,三分钟内完成设置。
如何运行工作流
- 完成先决条件,创建Weaviate集群(可以是本地或云端),下载自托管n8n,为邮箱账户创建STMP权限,并添加API密钥和其他凭证。
- 选择你想使用的嵌入和聊天模型。
- 输入发送和接收邮件的邮箱地址。
- 开始运行。
工作流输出
该工作流的输出是一封周报邮件,总结基于arXiv上发表的AI和ML论文的关键研究趋势和未来研究方向。
以下是摘要邮件的示例:
你好,
以下是过去一周机器学习研究的关键趋势简报。
本周关键研究趋势
本周在检索增强系统、专业领域的基础模型以及平衡效率与性能的技术方面取得了显著进展。
-
高级RAG架构:研究人员正在开发超越简单文档检索的复杂RAG框架,AdaPCR引入了段落组合检索,UrbanMind提出了一个具有多级优化的城市智能框架。
-
表格数据的基础模型:Real-TabPFN表明,在真实世界数据集上进行有针对性的持续预训练可以显著提升表格数据基础模型的性能,优于在更广泛、可能噪声更大的数据集上训练的模型。
-
注重效率的技术:研究人员正在开发保持性能而不需要昂贵计算的方法,如logit重加权用于主题聚焦的摘要,以及策略性查询用于隐私保护的个性化。
未来研究方向
根据当前趋势,我们预计在不久的将来会看到以下发展:
-
可解释的RAG系统:继来源归因工作在RAG系统中的进展,我们可以预期更多研究致力于使复杂检索系统对用户透明和可解释。
-
跨领域和跨模态融合:视觉语言和代码专用LLM在检索任务中的优异表现表明,未来会出现能够处理文本、代码、图像和多模态内容的统一检索器。
-
以数据为中心的合成生成:如合成关系表格数据研究所展示的,我们可能会看到更多复杂的方法来生成高质量合成数据,用于专业领域基础模型的预训练。
本周的研究突显了研究人员如何使AI更高效、可解释并适用于专业领域。未来几周,请继续关注RAG系统、表格基础模型和隐私保护AI技术的更多进展。
下周见,
Archi
想让它变得更好?
欢迎调整、扩展或完全重新配置这个工作流。如果你有酷炫的改进,告诉我们,我们可能会与社区分享!💚