重磅 – 红杉资本合伙人撰文开启《生成式AI第二幕》

一年前，我们发表了一个假设，即生成式人工智能将成为技术的一个深刻的平台转变。然后是风暴。

作者：SONYA HUANG、PAT GRADY 和 GPT-4动画：詹姆斯·巴克豪斯（JAMES BUCKHOUSE），《中途》和《跑道》（MIDJOURNEY AND RUNWAY发布时间 2023年9月20日

科学家、历史学家和经济学家长期以来一直在研究创造寒武纪创新爆发的最佳条件。在生成人工智能中，我们已经达到了一个现代奇迹，即我们这一代的太空竞赛。

这一刻已经酝酿了几十年。六十年的摩尔定律为我们提供了处理超亿次运算数据的计算能力。四十年的互联网（由 COVID 加速）为我们提供了数万亿代币的训练数据。二十年的移动和云计算为每个人提供了一台掌心中的超级计算机。换句话说，几十年的技术进步已经积累起来，为生成人工智能的起飞创造了必要的条件。

ChatGPT的崛起是点燃导火索的火花，释放了我们多年来从未见过的密度和创新热情 – 也许是自互联网早期以来。在“大脑谷”中，这种令人窒息的兴奋尤其发自内心，人工智能研究人员达到了摇滚明星的地位，每个周末黑客之家都挤满了新的自主代理和陪伴聊天机器人。人工智能研究人员从众所周知的“车库里的黑客”转变为指挥数十亿美元计算的特种部队。arXiv印刷机已经变得如此多产，以至于研究人员开玩笑地呼吁暂停新出版物，以便他们能够赶上。

但很快，人工智能的兴奋变成了边缘歇斯底里。突然之间，每家公司都是“人工智能副驾驶”。我们的收件箱里充斥着“AI Salesforce”、“AI Adobe”和“AI Instagram”的无差别推销。100亿美元的产品前种子轮回归。我们发现自己陷入了筹款、人才大战和 GPU 采购的不可持续的喂食狂潮。

果然，裂缝开始显现。艺术家、作家和歌手挑战机器生成知识产权的合法性。关于道德、监管和迫在眉睫的超级智能的辩论吞噬了华盛顿。也许最令人担忧的是，硅谷开始流传一种传言，即生成人工智能实际上并没有用。这些产品远远低于预期，糟糕的用户保留率证明了这一点。许多应用的最终用户需求开始趋于平稳。这只是另一个雾化循环吗？

人工智能的不满之夏让批评者兴高采烈地跳起了严肃的舞蹈，让人想起互联网的早期，1998年，一位著名的经济学家宣称：“到2005年，很明显，互联网对经济的影响并不比传真机大。

毫无疑问，尽管有噪音、歇斯底里以及不确定和不满的气氛，但生成式人工智能已经比SaaS取得了更成功的开端，仅初创公司就获得了>1亿美元的收入（SaaS市场花了几年时间，而不是几个月，才达到同样的规模）。一些应用程序已经成为家喻户晓的名字：ChatGPT 成为增长最快的应用程序，在学生和开发人员中具有特别强的产品市场契合度;Midjourney成为我们集体创意的缪斯女神，据报道，只有<>人的团队就达到了数亿美元的收入;Character 普及了 AI 娱乐和陪伴，并创造了我们最渴望的消费者“社交”应用程序——用户在应用内平均花费两个小时。

尽管如此，这些成功的早期迹象并没有改变这样一个现实，即许多人工智能公司根本没有产品与市场的契合度或可持续的竞争优势，人工智能生态系统的整体热情是不可持续的。

现在尘埃落定了一段时间，我们认为这是一个缩小和反思生成人工智能的好时机——我们今天所处的位置，以及我们可能走向何方。

迈向第二幕

生成式人工智能的第一年——“第一幕”——来自技术淘汰。我们发现了一个新的“锤子”——基础模型——并推出了一波新奇的应用程序，这些应用程序是很酷的新技术的轻量级演示。

我们现在相信市场正在进入“第二幕”——这将来自客户。第 2 幕将端到端地解决人类问题。这些应用程序在性质上与第一个应用程序不同。他们倾向于使用基础模型作为更全面的解决方案的一部分，而不是整个解决方案。他们引入了新的编辑界面，使工作流程更具粘性，输出更好。它们通常是多模式的。

市场已经开始从“第一幕”过渡到“第二幕”。进入“法案1”的公司的例子包括哈维，该公司正在为精英律师事务所建立定制的LLM;Glean，它正在抓取和索引我们的工作空间，以使生成式 AI 在工作中更具相关性;以及正在创造数字伴侣的角色和艾娃。

市场地图

我们更新的生成式AI市场地图如下。

与去年的地图不同，我们选择按用例而不是模型模式来组织这张地图。这反映了市场的两个重要推动力：生成式AI从技术锤子到实际用例和价值的演变，以及生成式AI应用程序日益多模式的性质。

此外，我们还包括一个新的LLM开发人员堆栈，它反映了公司在生产中构建生成AI应用程序时转向的计算和工具供应商。

重温我们的论文

我们的原始文章为生成式人工智能市场机会提出了一个论点，并为市场将如何展开提出了一个假设。我们是怎么做到的？

以下是我们出错的地方：

事情发生得很快。去年，我们预计要过将近十年，我们才能有实习生级别的代码生成、好莱坞质量的视频或听起来不机械的人类质量语音。但是，快速聆听Eleven Labs在TikTok或Runway的AI电影节上的声音可以清楚地看到，未来已经以惊人的速度到来。甚至3D模型，游戏和音乐也迅速变得好。
瓶颈在供应方面。 我们没有预料到最终用户需求会在多大程度上超过GPU供应。许多公司增长的瓶颈很快变成了不是客户需求，而是获得英伟达最新GPU。漫长的等待时间成为常态，出现了一个简单的商业模式：支付订阅费以跳过排队并获得更好的模型。
垂直分离尚未发生。我们仍然认为，“应用层”公司和基础模型提供商之间会存在分离，模型公司专门从事规模化，研究和应用层公司专门从事产品和UI。实际上，这种分离还没有干净地发生。事实上，最成功的面向用户的应用程序已经垂直整合。
残酷的竞争环境和现有企业的反应迅速。去年，竞争格局中有一些过度拥挤的类别（特别是图像生成和文案），但总的来说，市场是空白的。今天，竞争格局的许多角落的竞争多于机会。从谷歌的Duet和Bard到Adobe的Firefly，现任者的反应迅速，以及现任者最终“冒险”的意愿，放大了竞争的热度。即使在基础模型层，我们也看到客户将其基础架构设置为在不同供应商之间不可知。
护城河在客户，而不是数据。 我们预测，最好的生成式人工智能公司可以通过数据飞轮产生可持续的竞争优势：更多的使用→更多的数据→更好的模型→更多的使用。虽然这在某种程度上是正确的，特别是在具有非常专业和难以获得数据的领域，但“数据护城河”的基础是不稳固的：应用程序公司生成的数据不会创造不可逾越的护城河，下一代基础模型很可能会抹去初创公司产生的任何数据护城河。相反，工作流程和用户网络似乎正在创造更持久的竞争优势来源。

以下是我们做对的地方：

生成式人工智能是一回事。 突然之间，每个开发人员都在开发生成式AI应用程序，每个企业买家都要求它。市场甚至保留了“生成AI”的绰号。人才流入市场，风险投资资金也流入市场。生成人工智能甚至在病毒视频中成为一种流行文化现象，如“哈利波特巴黎世家”或代笔作家的德雷克模仿歌曲“我的袖子上的心”，这已成为排行榜上的热门歌曲。
第一个杀手级应用程序出现了。有据可查的是，ChatGPT 是最快达到 100M MAU 的应用程序，而且它在短短 6 周内就有机地做到了这一点。相比之下，Instagram花了2.5年，WhatsApp花了3.5年，YouTube和Facebook花了4年才达到这一用户需求水平。但ChatGPT并不是一个孤立的现象。Character AI的参与深度（平均会话时间为2小时），Github Copilot的生产力优势（效率提高55%）以及Midjourney的货币化路径（数亿美元的收入）都表明第一批杀手级应用程序已经到来。
开发人员是关键。像 Stripe 或 Unity 这样的开发者优先公司的核心见解之一是，开发人员访问打开了你甚至无法想象的用例。在过去的几个季度里，我们一直在推销从音乐生成社区到人工智能媒人再到人工智能客户支持代理的所有内容。
外形正在不断发展。 人工智能应用程序的第一个版本主要是自动完成和初稿，但这些外形现在越来越复杂。Midjourney对相机平移和填充的引入很好地说明了生成AI优先的用户体验如何变得更加丰富。总体而言，外形尺寸正在从个人级生产力演变为系统级生产力，从人机交互向面向执行的代理系统演变。
版权、道德和存在主义的恐惧。关于这些热门话题的辩论已经激烈起来。艺术家、作家和音乐家是分裂的，一些创作者理所当然地对其他人从衍生作品中获利感到愤怒，而一些创作者则接受了新的人工智能现实（Grimes的利润分享主张和James Buckhouse对成为创意基因组一部分的乐观态度浮现在脑海中）。没有一家初创公司想成为最终的Spotify（h/t Jason Boehmig）的Napster或Limewire。这些规则是不透明的：日本宣布用于训练人工智能的内容没有知识产权，而欧洲则提出了严厉的监管。

我们现在处于什么位置？生成式AI的价值问题

生成式 AI 并不缺乏用例或客户需求。用户渴望人工智能，使他们的工作更轻松，他们的工作产品更好，这就是为什么他们成群结队地涌向创纪录的应用程序（尽管缺乏自然分布）。

但是人们会留下来吗？没有。下图比较了 AI 优先应用程序的第 1 个月移动应用保留率与现有公司。

用户参与度也乏善可陈。一些最好的消费公司拥有 60-65% 的 DAU/MAU;WhatsApp是85%。相比之下，生成式AI应用程序的中位数为14%（角色和“AI陪伴”类别除外）。这意味着用户还没有在生成式人工智能产品中找到足够的价值来每天使用它们。

简而言之，生成式人工智能最大的问题不是找到用例或需求或分布，而是证明价值。正如我们的同事大卫·卡恩（David Cahn）所写，“200亿美元的问题是：你打算用所有这些基础设施做什么？它将如何改变人们的生活？建立持久业务的途径将需要解决保留问题，并为客户创造足够深的价值，让他们坚持并成为日常活跃用户。

我们不要绝望。生成式人工智能仍处于“尴尬的青少年时期”。有一瞥辉煌，当产品达不到预期时，故障通常是可靠的、可重复的和可修复的。我们的工作对我们来说是艰巨的。

第二幕：共享剧本

创始人正在着手进行快速工程、微调和数据集管理的艰苦工作，以使他们的人工智能产品*好*。他们一砖一瓦地将华丽的演示构建到整个产品体验中。与此同时，基础模型基材继续充满研究和创新。

随着公司找出通往持久价值的道路，共享剧本正在形成。我们现在有共享的技术来使模型有用，以及新兴的UI范式，这些范式将塑造生成AI的第二幕。

模型开发堆栈

思维链、思维树和反射等新兴推理技术正在提高模型执行更丰富、更复杂的推理任务的能力，缩小客户期望与模型能力之间的差距。开发人员正在使用像Langchain这样的框架来调用和调试更复杂的多链序列。
像RLHF和微调这样的迁移学习技术正变得越来越容易获得，特别是随着最近GPT-3.5和Llama-2的微调，这意味着公司可以根据其特定领域调整基础模型并从用户反馈中进行改进。开发人员正在从Hugging Face下载开源模型，并对其进行微调以实现高质量的性能。
检索增强生成正在引入有关业务或用户的上下文，减少幻觉并提高真实性和实用性。来自Pinecone等公司的矢量数据库已成为RAG的基础设施骨干。
新的开发人员工具和应用程序框架为公司提供了可重用的构建块，以创建更高级的AI应用程序，并帮助开发人员评估，改进和监控生产中AI模型的性能，包括LLMOps工具，如Langsmith和Weights & Biases。
像Coreweave，Lambda Labs，Foundry，Replica和Modal这样的AI优先基础设施公司正在拆分公共云，并提供AI公司最需要的东西：以合理的成本提供丰富的GPU，按需提供且高度可扩展，并提供良好的PaaS开发人员体验。

总之，这些技术应该缩小模型的期望与现实差距，因为基础模型同时改进。但让模型变得伟大只是成功的一半。生成式 AI 优先用户体验的手册也在不断发展：

新兴产品蓝图

生成接口。基于文本的对话用户体验是 LLM 之上的默认界面。渐渐地，更新的外形正在进入武器库，从 Perplexity 的生成式用户界面到新的模式，如来自 Inflection AI 的人类声音。
新的剪辑体验：从副驾驶到导演模式。随着我们从零镜头发展到询问和调整（h/t Zach Lloyd），生成式人工智能公司正在发明一套新的旋钮和开关，它们看起来与传统的编辑工作流程非常不同。Midjourney的新平移命令和Runway的导演模式创造了新的类似摄像机的编辑体验。Eleven Labs正在通过提示来操纵声音。
日益复杂的代理系统。 生成式 AI 应用程序越来越不仅仅是自动完成或供人工审查的初稿;他们现在可以代表我们解决问题、访问外部工具并端到端地解决问题。我们正在从 0 级自治稳步发展到 5 级自治。
系统范围的优化。一些公司没有嵌入单个人类用户的工作流程中，并使该个人更有效率，而是直接解决系统范围的优化问题。你能从一大块支持票证或拉取请求中挑选出来并自主解决它们，从而使整个系统更有效吗？

离别思念

随着我们接近前沿悖论，随着变压器和扩散模型的新颖性逐渐消失，生成式人工智能市场的性质正在演变。炒作和闪光正在让位于真正的价值和整个产品体验。

在红杉，我们仍然坚信生成人工智能。这个市场腾飞的必要条件，历经几十年积累，市场终于来了。杀手级应用的出现和最终用户需求的庞大规模加深了我们对市场的信念。

然而，阿马拉定律——我们倾向于在短期内高估技术的效果，而低估长期效果的现象——正在走下正轨。我们在投资决策中运用耐心和判断力，密切关注创始人如何解决价值问题。公司用来突破模型性能和产品体验界限的共享剧本让我们对生成式人工智能的第二幕持乐观态度。

如果您着眼于价值和整个产品体验，正在构建人工智能市场，我们很乐意听取您的意见。请发送电子邮件给索尼娅（sonya@sequoiacap.com）和帕特（grady@sequoiacap.com）。可悲的是，我们的第三位合著者还没有电子邮件地址：-）。