高飞 25-01-20 13:12
微博认证:至顶科技创始人 AI博主

#模型时代##学习的正确打开方式# Databricks联合创始人Ion Stoica:如何用开源技术打造全球最大的未上市大数据公司?(开源产品如何做PMF)

这是红杉资本Traning Data近期的一期访谈视频节目,受访人是Ion Stoica是Databricks现任执行主席,也是加州大学伯克利分校的教授。

在硅谷的创新史上,将学术研究成功转化为商业产品的案例并不罕见,但能够建立起价值数百亿美元企业的例子也是凤毛麟角了,而Databricks是其中一个很经典的案例。Databricks 的估值近年来增长很快,从 2019 年的 62 亿美元飙升至 2021 年的 380 亿美元。去年 12 月,该公司又融资 100 亿美元,估值达到 620 亿美元,成为全球估值最高的未上市的大数据公司。

更重要的,这是一个从开源项目起家的公司。前两天看到MiniMax 创始人兼CEO 闫俊杰的访谈,他提到如果再有一次选择的机会,他第一天就会把模型开源。因为在一个技术不断迭代的时代,封闭不能保证你领先很久。

先大概讲一下这家公司的历史,Databricks成立于2013年,创始团队由UC Berkeley的研究人员组成。他们开发了Apache Spark。Spark是一个广泛使用的开源大数据处理引擎,Databricks继续在该项目中积极贡献代码和功能更新。所以,Databricks不仅是Apache Spark的创建者,还通过组织Spark峰会等活动促进社区发展。这些峰会为用户和开发者提供了交流和学习的平台,进一步推动了Spark的普及和应用。

而在访谈中,Ion Stoica分享了将开源技术打造为成功商业项目的方法论。

一、问题导向:商业化的基石
Jan强调,成功的商业化始于对问题本质的执着追求。"最重要的是要弄清楚你要解决什么问题,"他说,"因为来到伯克利的学生都是优秀的问题解决者,真正的区别在于你选择解决什么问题。"

这种问题导向的思维方式在伯克利的研究生态中得到了充分的实践。该校设立了为期5年的实验室项目,让教授和学生团队围绕共同的愿景开展研究。这种机制确保了研究不会流于表面,而是能够深入到问题的本质。

更重要的是,伯克利与产业界保持着密切的联系。Jan回忆道,在他刚到伯克利时,学校开始更多地寻求产业界的资金支持。这种转变带来了意想不到的好处:研究团队能够直接接触到产业界的实际问题。比如,他们从Google获得了当时看来数额惊人的年度50万美元的研究经费,这不仅提供了资金支持,更重要的是提供了了解真实业务挑战的窗口。

二、趋势研判:选择正确的时机
在商业化时机的把握上,Jan特别强调了对技术趋势的准确判断。"你必须要赌对趋势,"他说,"因为这些是你无法改变的东西。如果你没有与趋势保持一致,那就不好了。"

以Spark项目为例,团队识别出了两个关键趋势:
数据增长速度远超过单机处理能力的提升
内存容量的增长使得将重要数据集完整加载到内存中成为可能

正是基于对这些趋势的准确判断,团队在技术路线上做出了将数据保持在内存中处理的选择,这成为了Spark的重要技术优势。

三、开源实践:验证价值的试金石
Jan分享:开源项目不仅是技术传播的渠道,更是深入理解领域问题的最佳方式。"如果你建立了一个新领域的系统,并且这个系统被其他人使用,那么你就处于最佳位置来理解这个领域的新问题。"

这种思维模式在Databricks的发展中得到了充分体现。团队从一开始就采取了积极的开放策略,不惧与潜在的竞争对手展开合作。正如Jan所说:"如果有人能在Spark领域做得比我们更好,那我们就应该认输。"这种自信来源于对技术和问题的深入理解。

四、商业化的最佳时机
根据Jan的经验,当以下要素同时具备时,就是考虑商业化的最佳时机:

1、技术验证:核心技术通过开源社区获得了广泛验证。在Databricks的案例中,Spark已经成为了大数据处理的标准工具。
2、市场需求:出现了明确的商业需求。Jan提到,他们发现很多企业购买他们的产品时,最初是出于数据科学的需求,但实际使用中发现更需要数据工程的支持。这种真实需求的发现推动了产品的演进。
3、团队准备:研究团队对问题领域已经建立了深入的理解,并且具备将技术转化为产品的能力。
4、竞争优势:具备明显的技术优势和市场壁垒。比如Databricks在Spark领域的专业知识就构成了强大的竞争优势。

五、持续创新:商业化后的发展
值得注意的是,商业化并不是终点。Jan强调,通过商业实践,团队能够获得更多的问题反馈,这些反馈又会推动新的技术创新。这形成了一个正向循环:实践带来新的问题认知,推动更深入的研究,研究成果又促进更好的实践。

六、既然开放了,就要彻底开放
Jan在访谈中说了一段话,"如果有人能在Spark领域做得比我们更好,那我们就应该认输"。

Jan回忆道,即使在公司成立初期,Databricks就采取了积极的合作策略,与包括Cloudera、Hortonworks、微软在内的潜在竞争对手展开合作。这种开放态度背后是对自身实力的坚定信心:"我们内部常说,如果有人能在Spark领域做得比我们更好,那我们就应该认输。"

这种战略思维体现在多个层面:首先是对开源生态的深度投入,不仅包括Spark,还包括Delta和MLflow等项目;其次是与微软等科技巨头的深度合作。Jan指出,尽管这需要投入大量资源("投入数十名工程师整整一年时间开发Azure Databricks"),但这种押注最终证明是正确的。

也就是,首先保证你的赛道是成功的,然后才是你是成功的。这段话听完,我其实立刻想到了Stable Diffusion,在市场技术快速发展的时候,遮遮掩掩的开放,几乎把市场送给了Flux。 http://t.cn/A63hF1YF

发布于 韩国