作者丨刘杨楠
编辑丨海腰
图源丨CNBC
3月6日,开源数据库龙头MongoDB遭遇上市以来最黑暗的一天。
当天公布2025财年第四季度报告和2026财年业绩预告后,略显悲观的数据预测引得MongoDB股价暴跌近27%,估值缩水至143亿美元,较195亿美元的最高值跌去50亿美元。
华尔街的分析师们纷纷开始下调目标价格,但评级仍保持在“买入”或“持有”状态。分析师们之所以对MongoDB保持相对积极的态度,或许与前不久的一桩收购案有关。
2月24日,MongoDB宣布以2.2亿美元收购Voyage AI,为这家成立仅17个月的明星AI公司写下一个暂时的句号。
Voyage AI的故事短暂又辉煌,公司2023年9月成立,由清华姚班出身的天才学者掌舵,获“AI教母”李飞飞背书,共融资2800万美元,其发布的模型曾被数位AI大牛点赞。
正因如此,这笔收购让外界猝不及防,人们不禁好奇:这样一家技术过硬、团队顶尖且不缺投资者关注的明星初创企业,为什么会在成立仅17个月的时间选择被收购?
但从MongoDB今天的处境来看,这场收购中,Voyage AI或许是更加被需要的一方。
戛然而止的天才创业故事
Voyage AI的17个月可谓轰轰烈烈。
2023年9月,斯坦福大学计算机科学家、清华大学2012届姚班校友马腾宇(Tengyu Ma)创办Voyage AI,全明星阵容让人眼前一亮。
马腾宇自己的履历就足够惹眼。
2008年,马腾宇在清华姚班毕业后,到普林斯顿大学攻读博士学位;博士二年级获得理论计算机方向的西蒙斯奖、IBM博士奖学金、NIPS最佳学生论文奖、COLT最佳论文奖等多种奖项;博士毕业后,马腾宇到斯坦福担任助理教授,也正式开始研究AI。
和马腾宇打过交道的人无一不称他为天才。他的博导教授曾预言,“如果他创业,未来一定会给全球科技带来崭新一页”。2021年,马腾宇拿下有“诺贝尔奖风向标”之称的斯隆奖后,“AI教母”李飞飞不掩赞叹:“真正的天才不该埋没在实验室”。
于是,马腾宇创办了Voyage AI。
公司成立后,马腾宇组建起了一支来自斯坦福、MIT、加州大学伯克利分校和普林斯顿大学的世界级AI研究团队,并邀请李飞飞担任学术顾问。
Voyage AI的杀手锏就是通过其先进的嵌入和重排序模型,实现高精度检索能力,从而解决AI的幻觉问题。
嵌入模型是RAG系统的核心组件之一,可将文本数据转换为向量嵌入,以便在向量数据库中进行高效的语义搜索;重排序模型则在RAG系统中用于优化检索结果的相关性。
嵌入模型与生成模型非常相似,依靠强大的神经网络(通常基于Transformer)架构来捕获和压缩语义上下文,封装文字、图片、音频等背后各种概念之间的复杂关系。早期在嵌入模型中封装越多的知识,并将其生成的信息反馈到下一代模型的训练中,就会使得下游的RAG、搜索、推理系统更强大。
嵌入模型的训练难度也很大,需要在模型架构、数据收集、函数选择等方面多重考虑。
创业前,马腾宇已经带领团队在斯坦福人工智能实验室和麻省理工学院NLP小组进行了5年以上的研究,收集了海量数据集、进行预处理和后处理实验,以及开发专有方法以将对比学习应用于文本。
创业后,Voyage AI发布还了多个系列模型,包括通用嵌入模型、代码检索嵌入模型、多模态嵌入模型。过去三个月,这些模型都升级到了最新的3.0版本。
这些模型能够从高度专业化的文本和非结构化数据(如法律文档、金融报告、企业知识库等)中提取语义信息,从而显著提高AI模型的准确性和可靠性。
为了让应用侧的企业直观感受到voyage系列模型的实力,Voyage AI决定免费为每个组织嵌入前5000个文档/查询。
Voyage AI的工作也受到很多技术大牛的认可。
Spot AI CEO Tanuj Thapliyal就曾在Linkedin上发文表示,对马腾宇团队的工作成果感到很兴奋。“在我们AGI的旅程中,无论上下文窗口的大小如何。嵌入模型(embeddings)和重排序器(rerankers)是组织世界上非结构化数据,并保持其有序性的最为关键的内核。”
种种buff叠加,也让Voyage AI颇受资本欢迎。
2024年10月,Voyage AI宣布完成2000万美元A轮融资,总融资额达到2800万美元。其中,风投公司CRV领投了本轮融资,参与者包括Snowflake、Databricks、Pear VC、Tectonic Ventures等,且CRV普通合伙人Murat Bicer也加入了Voyage AI的董事会。
Voyage AI官网博客提到:“通过这笔投资,我们旨在扩大我们的产品范围,并继续为您提供最先进的非结构化数据搜索和检索模型。”
但就在所有人都期待Voyage AI的下一个里程碑时,突然宣布了被MongoDB收购的消息。
意料之外,情理之中
2月24日,开源数据库龙头MongoDB宣布收购Voyage AI,估值2.2亿美元。
这时距离Voyage AI A轮融资仅过了6个月,距离公司成立仅17个月。从历史经验来看,AI公司这么快退出的案例并不常见。
去年,乔治城大学安全与新兴技术中心在一项研究中分析了2014年至2023年的人工智能并购事件。研究发现,大型科技平台通常在人工智能公司成立后平均4.8年收购它们,而其他公司收购的人工智能公司平均成立7.4年,足以见得Voyage AI的“反常”。
Voyage AI A轮融资的领投方CRV也难掩遗憾,“对我们来说是较短的结局之一”,CRV合伙人Murat Bicer表示。毕竟业务更成熟时被收购,Voyage AI或许会得到远高于2.2亿美元的估值。
从CRV的公开表态可以感受到,他们很看好Voyage AI。
Bicer曾直言,CRV看重Voyage AI是一支非常强大的技术团队。“目前,该领域(生成式AI领域)真正拥有数十年而非数年专业知识和经验的人非常少,”他补充道。“当这些人在做某件事时,我们知道他们将以一种推动整个市场前进的方式进行创新。”
被收购前,CRV已经在为Voyage AI提供业务方面的辅助,帮助其组建管理团队、制定上市战略并更好地协调定价。
然而,Voyage AI的退出来得太快,CRV许多努力仍在早期。但尽管如此,Bicer依然将Voyage AI此次被收购描述为一个“非常圆满的结局”。
事实上,这次收购也是情理之中。
仔细翻看Voyage AI成立时的官宣博客会发现,公司成立之初,团队就指出,实际应用场景中,嵌入模型性能与行业专有数据有强关联。
具体来看,在模型训练和性能评测环节,高质量数据集都是必备项。
MTEB(Massive Text Embedding Benchmark)是一个大规模的文本嵌入模型评估基准,能衡量文本嵌入模型在多样化任务上的性能。它包含56个数据集,涵盖8种任务类型,如文本分类、聚类、检索、语义文本相似度(STS)等,并支持超过112种语言。
但博客提出,MTEB被“过度使用”了,有人会用评测集中的数据集直接给模型做训练,以此让模型在评测时有更好的表现,这也一定程度上折损了MTEB的公信力。为了进行更全面的评估,Voyage AI自己构建了九个额外的数据集,且数据均来自“真实世界的行业领域 (RWID)”,涵盖了技术文档、餐厅评论和新闻报道等多种数据。
博客进一步写道:“现实世界的场景总是比学术基准更具挑战性,因为每个行业都有其独特的术语和知识库,就像每个企业一样。”以Voyage AI的模型voyage-01为例,Voyage 01虽然开箱即用,但通过真实的业务数据微调,它就能以更低的成本变得更好。
Voyage AI目前还针对编码和金融场景量身定制了嵌入模型,并正在扩展到更多领域。“我们还可以在小型、未标记的公司特定数据集上微调嵌入,为LangChain、OneSignal、Druva和Galpha等试点客户实现10-20%的准确率提升。”
可见,想要嵌入模型在真实场景中有更好的准确性和相关性,很大程度需要与真实的运营数据深度集成。但对于医疗、金融等对数据安全要求极高的场景,企业通常不愿将业务数据随便提供给第三方厂商。马腾宇也表示:“要让AI应用充分发挥其潜力,企业必须信任其输出,因此检索需要与运营数据深度集成,以确保准确性和相关性。”
因此,和MongoDB等有企业大量真实业务数据的企业合作,对Voyage AI而言无疑是事半功倍的选择。
但数据库企业那么多,为什么是MongoDB?
MongoDB或许更需要Voyage AI
MongoDB可谓NoSQL数据库中文档型数据库的“鼻祖”。
大约从1970年起,此后二十多年一直是关系型数据库的天下。但传统关系型数据库在处理高并发读写、海量数据存储和非结构化数据时存在很大局限性。
直到2007年,关系型数据库来到转折前夜。
当时,Dwight Merriman、Kevin Ryan、Eliot Horowitz三位工程师共同创办10gen,初衷是打造一款面向开发者的PaaS产品,还拿到了超8000万美元的投资。
资金就位后,三人本计划找一个能够支持其PaaS产品的海量数据库。但当时成熟的数据库基本都是基于单机架构的传统关系型数据库,如Oracle,MS SQLServer等。即便Oracle支持一些集群部署,其扩展性也仅限于2-4台服务器。
于是,10gen的创始团队决定直接自己开发一个数据存储服务,让所有数据都能被存储,并提供易用的API,让开发者可以对数据进行常见的增删改查操作。
为便于开发者操作,Eliot决定使用JSON作为数据格式进行存储。JSON的数据在英文被称为“JSON Document”,“文档数据库”的名字由此而来。
两年后的2009年2月,10gen正式发布开源数据库MongoDB 1.0,首次打破了关系型数据库的统治。
之后,10gen在数据库的路上越走越远。2013年8月,10gen改名为MongoDB,正式以NoSQL数据库为主业;2014年,MongoDB收购WiredTiger存储引擎,大幅提高MongoDB的写入性能。
2017年10月,成立十年的MongoDB在纳斯达克上市。上市后,MongoDB的市场表现也超出预期,市值最高一度达到335.6亿美元。
但就在MongoDB势头正盛的关头,开源、灵活的技术特色也给公司带来不少麻烦。
2017年初,由于MongoDB数据库在默认配置下无需用户名和密码即可访问,使得大量黑客入侵了全球数万个MongoDB数据库,勒索用户交赎金才能恢复数据。
2018年10月,MongoDB又宣布将其开源许可证从GNU AGPLv3切换到服务器端公共许可证(SSPL)。一石激起千层浪,许多开发者和企业用户认为SSPL对商业用户不够友好,限制了软件的自由使用和分发。Linux发行版(如Debian和Fedora)甚至拒绝使用SSPL协议下的MongoDB。
开源许可证变更后,AWS、IBM和微软等云服务商们又纷纷推出兼容MongoDB的产品,以应对MongoDB的竞争。
不过,接连的风波并未伤及MongoDB的根本,他们仍在自己的节奏里不断优化产品。2018年6月,MongoDB推出多文档ACID强事务机制,意味着MongoDB能够支撑更复杂的数据操作,适用于更广泛的业务需求。
深圳钛铂数据创始人及CTO、MongoDB中文社区主席唐建法曾撰文总结了MongoDB的三条核心优势:
基于JSON的数据模型最接近开发者的面向对象的设计思维;
灵活动态的模型意味着在需求多变的时候极大简化数据库设计流程;
自动分片、多节点自动同步和跨中心能力支持各种现代化复杂部署需求。
目前,MongoDB是全球最受欢迎的文档型数据库,在全球100多个国家和地区拥有超过50000个客户。因此,对于Voyage AI而言,MongoDB确实是一个理想的合作伙伴。
然而,MongoDB今天的处境却并不乐观。
疫情后,全球经济开始放缓,各企业IT支出相应缩减,加以AI冲击,MongoDB往日的差异化优势逐渐被AI的光芒掩盖,Atlas的新工作负载增长低于预期。
3月6日,在2026财年业绩报告中,MongoDB的全年预期也不乐观,预计全年收入在22.4亿-22.8亿美元之间,低于分析师预期的23.2亿美元;MongoDB预计全年调整后的每股收益在2.44-2.62美元之间,远低于分析师预期的3.34美元。业绩预告发布后,MongoDB股价下跌近27%,和去年509美元的最高点也相去甚远,估值已缩水至143亿美元。
但尽管如此,收购Voyage AI对市场信心的激励作用已经开始显现。面对较为悲观的全年预期,多位高评级分析师仍对MongoDB给出“买入”或“持有”的评级。
接下来,MongoDB将陆续与Voyage AI深度集成。
MongoDB CEO Dev Ittycheria在博客中写道,Voyage AI与MongoDB的集成将确保开发人员不再需要管理外部嵌入API、独立向量存储或复杂的搜索管道。
“AI检索将内置于数据库本身,使语义搜索、矢量检索和排名与传统查询一样流畅,”Ittycheria解释道。集成本身将分三个阶段进行:
第一阶段,Voyage AI的文本嵌入、多模态嵌入和重新排名模型将通过 Voyage AI当前的API以及AWS和Azure市场广泛提供。
在第二阶段,MongoDB将把Voyage AI的功能嵌入到MongoDB Atlas中,首先是针对Vector Search的自动嵌入服务,该服务将自动处理嵌入生成。“随后将进行本机重新排名,允许开发人员立即提高检索准确性。”Ittycheria写道。
在第三阶段,MongoDB将添加先进的AI检索功能,并增强多模态能力。
“我们还计划引入指令调整模型,让开发人员使用简单的提示而不是复杂的微调来优化搜索行为,”Ittycheria解释说,并补充说它将通过在 MongoDB Atlas优化AI应用程序时嵌入生命周期管理来进行补充。
AI这艘时代巨轮,MongoDB虽然不是上得最早的那个,却也找到了最有经验的船员,未来能否跑上快航道,就要交给时间决定了。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://m.ylfx.com/shangxun/46736.html