2024-06-20 16:01发布于北京华创资本官方账号

  

Dify 是一个易用的 LLMOps 平台,旨在让更多人可以创建可持续运营的原生 AI 应用,提供多种类型应用的可视化编排,应用可开箱即用,也能以后端即服务的 API 提供服务。

2023年Dify成立, 名字源自 Define + Modify,意指定义并且持续改进你的 AI 应用,它是为你而做的(Do it for you)。

Dify刚推出时其基于 RAG 的 ChatBot 产品就引起广泛关注。公司成立12个月超过3万 Star,全球安装量超过40万,开源大模型中间件5月全球增速第一。

华创资本在天使轮投资了 Dify。

推荐语

Dify 创始人&CEO 张路宇出生于 1991 年,12 岁就开始做个人站长,是一个“电脑天才”。结束学业之后,路宇做了几年个人开发者,此后加入了早期创业公司。


2018 年,路宇创办了飞蛾,开启了自己的创业之旅。飞蛾是一个面向开发者做软件测试工程的协作 SaaS 产品,随着飞蛾被 CODING 收购、腾讯收购 CODING,路宇在 CODING 和腾讯工作了几年。


2023 年,路宇创办了 Dify,Dify 刚推出时其基于 RAG 的 ChatBot 产品就引起了广泛的关注。2024 年,Dify 新的主力产品推出:Dify workflow,一个兼顾易用和灵活的开发框架。Dify workflow 一经推出,就引起了用户和社区的广泛反响。路宇创业 12 个月,Dify超过 3 万 Star,全球安装量超过 40 万,开源大模型中间件 5 月全球增速第一,取得了非常不错的成绩。


本期万字访谈中,路宇详细分享了他的创业历程,对开发者、AI 技术、中间件的思考,干货满满。我们摘录了路宇的核心观点放在文首:


  • 创业的第一种动机,是不满意现状,现状没有把我的潜力发挥出来;第二种动机是创造的欲望;第三种是基于利他主义的,你希望帮助同事、员工发挥他们最大的潜力,对于用户也是,我希望用户在解决一个问题的时候,用的是世界上最好的产品,不需要走弯路。这是我创业的三种动机,如果说哪一种更强的话,我觉得利他主义思想这种更强。

  • 作为一个产品人,当你想做一件事的时候,最大的挑战就是找出一个没有被满足的空白市场,空白市场的最好的来源又一定是你自己的体感。To B 的工具产品有一个显然不同:它天生不为用户创造需求,因为用户的需求本身就在用户的心智里。做 To B 的产品,就是帮助用户把他 To Do List 上的一项东西更快更方便的给划掉。

  • AI 的技术栈现在来看基本上已经定型了。现在模型是暴露 API 来调用,但并不代表说模型对应用友好,因为一个应用要结合传统的技术、交互设计、数据源,以及企业内的可以调用的 API、Agent 的 Action 等。需要将这些东西综合编排,这也是今天的共识。这个架构再改动的概率不大了。

  • 大家低估了中间件的工程难度。所谓的工程就是很多复杂的东西排列组合,达到一个最优状态,这叫工程。我们也可以说所有的硬科技后面也是工程,只是颗粒度不一样。我们最大难点是技术本身的变化,多模态或者说应用端需求的变化。我们是在不停地变化的环境中去做产品,而不是像以前在一个非常恒定的一个环境去做产品,同时需要平衡易用和灵活这两个点。

  • Dify 从缩写上符合我们产品的理念和愿景,就是 Do it for you。从发音上来说,Dify 是由两个英语单词组成,一个是定义 Define,一个是修改 Modify。

  • 成立 12 个月超过 3 万 Star,全球安装量超过 40 万,开源大模型中间件 5 月全球增速第一。

  • 我一直更关心我们的团队,我把团队放在产品之上:我们的同事有没有在跟最优秀的人协同合作,他们是否在做自己本能上最感兴趣的事情,亲自动手去折腾;我们的团队有没有在保持创新,有没有每周持续地在创新,同时还能保证产品有非常好的出品标准。

  • 聚集了全球最多的钱、最好的人、最激烈的竞争。以前创业是马拉松,现在你要拿短跑的速度跑马拉松。

01 12 岁做个人站长,深耕开发者工具领域十余年,“利他主义”是创业最大动力

ZP: 请路宇先介绍一下自己,有什么关键的人生节点、经历和明显的特征?


张路宇:我是 1991 年出生的,可能身上有几个标签。第一个是我在同代人中接触计算机比较早,小时候会被冠以“电脑天才”这个名号,当然这是外人的看法了。我自己比较有感知的是,我 12 岁就自己做个人站长了,那个时候还是 Web1.0 的时代,我在线上做一些网站、社区就已经有很多用户追随,甚至说每个月有大几千的收入。


第二个,我的学生生涯到 2003 年,也就是我初中的时候就结束了,没有上过高中和大学,这是我跟别人人生轨迹最大的不同。所以,我没有被教育系统体制化,想做什么就会去做。


我做个人开发者的状态一直到了 2008 年,后来在老家创过业,当然做的事情很粗糙,帮人家去攒电脑,弄软件、本地社区等。那个时候,虽然我有很多野心,想去做很多事情,但是视野很受限。现在看 2010 年前后的几年,是中国互联网爆发的年份,有很多机会。如果你想去到中国顶级的公司,比如腾讯,也容易很多,但我没有这个视野。


直到我 2009 年去了苏州之后,第一份工作在一家叫蜗牛的游戏公司,入职就做了 20 人团队的技术主管,做游戏发行线的基础设施。从那家公司出来之后,我基本上都是在一些处于创业阶段的公司工作,A 轮或者 B 轮,基本上都是 SaaS 和工具行业。后来我 2018 年开始自己创业做飞蛾,这个项目后来被 CODING 收购,后面又随着 CODING 加入腾讯做了几年。


ZP: 飞蛾是家什么样的公司?后来是什么原因选择被 CODING 收购,又是怎么一起进入腾讯体系的?


张路宇:飞蛾是一个面向开发者做软件测试工程的协作 SaaS 产品。海外也有一些对标,比如说 TestRail,它虽然是整个 DevOps 中的一个小品类,却有非常好的收入,能收到 199 美元的月费。


我当时觉得我可以做出更好的产品,从 18 年 7 月份开始做,10 月份就有非常好的版本上线了,但上线后产品数据,尤其是收入数据不好,也是从这个点开始,我意识到中国的 SaaS 市场是有问题的,和理想的差距很大。


到 2018 年 12 月的时候,我们就选择被收购了。因为在整个 DevOps 的体系中,我们只是中间一个细分的品类,是可以融到 All in one 的产品中的。其次是我们当时是产品和技术人员为主,没有办法从头搭一份运营、商务的团队。选择的收购方是 CODING,是我曾经列入自己笔记,卓越公司名单中的公司。CODING 已经有很多年的经验和资源积累。我跟 CODING 的 CEO 张海龙有很多共同的理想,都热爱工具产品,热爱和开发者群体打交道。从理想,品位上来说有很多高度类似的地方,所以我把公司卖给他很幸运。


我后来在 CODING 又做了接近 4 年时间,负责了 CODING DevOps 产品体系 1/3 以上的产品,同时又担任了运营的负责人,一共带 60 多人的团队。加入腾讯,让我们有了两三百人的大团队,可以与很多的企业中层交流,也有机会尝试很多想法。所以我们对市场、对中国的企业软件开发者群体有了非常深刻的理解。此外,腾讯云体系给了我们几乎无限的客户线索,帮我们弥补了这类产品的后半场比如商业化和规模化的经验。


ZP: 你创业的动机是什么?


张路宇:创业的第一种动机,是不满意现状,现状没有把我的潜力发挥出来。我的职业生涯前半部分和中国绝大多数工程师看起来区别不大,但是我内心对现状有强烈的不满。带技术团队的时候,不满技术人员每天的面临的混乱、低效和不优美,那就想办法做技术管理。后来发现问题不出在技术、出在产品,那就去解决产品问题。开始做产品时,又发现公司的组织、文化、立足点错了,那内心就会非常难受,因为不能掌控自己的命运。


创业的第二种动机是创造的欲望。但你各方面有了积累之后,你会觉得有些产品不够好,或者问题没有被解决好,你想去解决它。闭上眼,你就能清楚地看到自己能创造一些东西。


第三种是基于利他主义的。你希望帮助同事、员工发挥他们最大的潜力,比如你知道一个伙伴的技术非常好,但是他在大厂做螺丝钉很多年,他的意志和好奇心在被消磨,没有办法做自己。我就想做伯乐,在他们年轻的时候,帮他把自己的能力全部发挥出来,愉快地做一些有趣又有价值的工作。对于用户也是,我希望用户在解决一个问题的时候,用的是世界上最好的产品,不需要走弯路。


这是我创业的三种动机,如果说哪一种更强的话,我觉得利他主义思想这种更强。


ZP: 你刚刚说你在卓越公司清单上写了 20 个公司,CODING 就在其中,还有什么其他的公司?


张路宇:清单我今天还能找到,清单里有很多大公司也有很多小公司,都是一些感染我的公司。比如当时的锤子,还有当时的魅族,青云,JetBrains。这个清单里面,SaaS 类型的公司比例还是蛮高的,因为我们当时觉得这是非常酷的一件事情。你能感觉到加入这些公司可以和一些非常优秀的理想主义的人一块工作。



02 AI Stack 已经基本定型,LLMOps 要解决复杂繁重的编排任务

ZP: 你从 18 年飞蛾开始,就一直在专注于服务开发者,为开发者们提供各种各样的产品。Dify 是一个什么样的产品?你是怎样想到目前产品的 idea 的?


张路宇:Dify 是面向应用开发者的大模型的应用技术栈,或者说应用开发平台,缩写是 LLMOps。我们提出 LLMOps 概念非常早,是在 23 年的 2 月份,当时全球的互联网上几乎搜不到这个词。


产品 idea,有宏观上范式转移的判断。我前面很多年做的就是 DevOps,研发管理、持续发布,数字化的东西。那么我们就会去用这个范式去衍生地理解大模型,以及 AI 带来的新的应用形态,新的应用所需要的新基建以及新开发范式。大模型 Ops 是一个很明显的趋势,因为需要配套的 Prompt 工程,应用之间,数据之间的连接,并且会有更多的非技术背景的人参与。这是宏观的范式转移。


微观的角度,我们确实上手做了一些大模型的实践,发现有很多新的技术栈,比如文本向量化,Prompt 工程, Agent Tools,Function Call 等等,我需要把这些技术脚手架搭起来,并且和现在的业务链接起来。我算是一个非常资深的工程师,学东西非常快,但是这套东西从理解到实现 MVP,也花了好几个月实践。可想而知,同样的需求会在成百上千的企业里面存在,这是微观的角度。


作为一个产品人,当你想做一件事的时候,最大的挑战就是找出一个没有被满足的空白市场,空白市场的最好的来源又一定是你自己的体感。一定是你自己在情感上,时间,技术,认知上没办法满足的时候,你才能去深刻的理解这是一个什么样的需求,我要通往哪里,达到什么样的目的,中间有什么东西没有解决。


我是做 To B 或者说工具产品的,在这个行业有一种范式,To B 是不发明需求的,而做消费品是可以发明需求的。你可以是围绕人性和情感多巴胺凭空创造一些新的需求,而且需求是无尽的。但 To B 的工具产品有一个显然不同:它天生不为用户创造需求,因为用户的需求本身就在用户的心智里。


我们有一个形象的比喻,做 To B 的产品,就是帮助用户把他 To Do List 上的一项东西更快更方便的给划掉。我们要做的就在他待办的清单里,但是要更快更好的完成这个需求。同理,我们要创造产品,寻找未被满足的需求,一定也是先从自己的心智或者身边的人寻找。我们想通过 Dify 把基于大模型去的创新,甚至是用 AI 转型企业待办清单上的一系列的事情给划掉。


ZP:  非常有意思,那如果我们聚焦到 Dify 做的事情的话,你觉得 Dify 最开始是想划掉待办清单上哪个事项?


张路宇:我们的出发点很简单,最早就是怎么做一个 RAG,就是 ChatBot 这种形式的应用。这里面有一系列工作,我需要理解大模型、 Prompt 工程、 OpenAI 的 API 、LangChain,我需要理解模型和我私有的数据是怎么交互的和融合,能达到什么样的效果,模型的瓶颈上限在哪。以及怎么让非技术人员参与整理数据,怎么去持续改进...展开就会有很多具体的活动,很多人的参与。放在任何一个团队里,我觉得都是挑战,都是上百万级别的人力成本和工作量。


ZP: 回到 LLMOps 方向,一方面我觉得你做这个事情非常符合你过去这些年的经验和经历;另一方面,你本身也是有很多可以选择的方向,比如说 Coding 的方向,这也是一个面向开发者的这个方向,为什么在去年那个时候没有选其他的方向,然后选择做 LLMOps 这个方向?


张路宇:从理性上去判断,有三个可选的方向,模型层、应用层、中间层。模型层我们做不了,在中国它是一个非常重投入且回报不确定的一件事情;应用层的投入可能没有那么大,但它成功的概率也很低,因为我一直坚信应用是涌现式发展,100 个公司里面可能只会成 5 个,甚至成 3 个。其他 97 个就是试错者,但他们做的事情也同样有价值。


我确定去做中间层的原因,一方面是我自己有强烈的需求,另一方面也是因为我很多年做企业服务经验的 Vision。我能看到在一个团队里各个角色怎么使用大模型,比如工程师、产品定义人员、技术,内容运营,合规等等,我能知道如何定义团队运作和信息流交换。


Coding 更偏应用层一点,也是另一种创业路径,非常技术驱动,希望把技术平民化,现实性更弱一些。Dify 的视角可能会把现实性看得更强一点,思考用户如何应用这些刚刚突破技术临界点的技术。


ZP:  Dify 在 LLMOps 的图谱中的什么位置?


张路宇: 首先,LLMOps 这个品类定义也不准确,是边界不清晰的概念。今年早些时候,海外的投研机构 CB Insights 专门画了一个 LLMOps 的图谱。我们是里面非常少数的中国企业。



这里分了很多品类,从模型本身,再到训练模型涉及的数据标注,再到训练数据的合规,向量数据库,Prompt 工程,Dify 所在的大模型的应用开发,模型部署等等。CB Insights 把这个总体都叫做 LLMOps ,这是一个非常宽泛的定义。


我觉得可以简单把 LLMOps 分两类,一类是为模型服务的,一类是为应用服务的。为模型服务,就是做一个更好的模型背后需要的一系列工作流。为应用开发服务的,就是逆推如何跟模型交互,以及模型外现有技术链条的交互。Dify 是第二类,所以是大模型的应用开发技术栈。


ZP: 另一个可能更大一点的话题,我们从更大的图谱去看,今天在我们面前展现的是底层的算力,大模型,然后有 LLMOps,应用,你觉得今天这几层之间的关系是什么?长期去看的话,今天呈现的这种关系和未来会有什么不同吗?


张路宇:我觉得现在来讲基本上已经定型了。


从算力层看。从算力到应用至少有两个异构层。我们都知道算力层面,Nvidia 的 CUDA、华为昇腾、苹果、AMD 都是不同的计算架构。算力上面会有一个推算层,或者说异构层,有专门的公司解决异构问题,以及提升集群的推理性能。


从模型层看,虽然都是基于 Transformer,模型底座也有不同流派。GPT 有自己原创的架构,Llama 有一个比较通用的架构,Mistral 采用 MoE 的架构,智谱也有自己的架构。这些底座模型有不同的数据配比、指令规范,微调模型、剪枝。


现在模型经常是暴露 API 来调用,但并不代表说模型对应用友好,因为一个应用要结合传统的技术、交互设计、数据源,以及企业内的可以调用的 API、Agent 的 Action 等。需要将这些东西综合编排,这也是今天的共识。这个架构再改动的概率不大了。


这张图展示得比较清楚:我们的核心是编排,编排往下有模型,包括原厂提供的模型和云厂商为代表的 Model Service。Dify 的中心会连很多东西进来,RAG Pipeline, Prompt IDE,本身的 LLMOps 等很多的子品类,还有一些我们不做,包括向量数据库这些也属于中间层,但我们只做左边这一块。再往上就是多样化的应用。


ZP: 这几层目前呈现的关系,长期来看大致就是今天这个格局了?还有变量吗?


张路宇:我认为也有一些变量,比如模型之间的协同,我们现在用 Dify 这样 Agent 的编排,可以让不同的模型交互,但是这种交互不是在 MoE 侧做的。把好几个不同能力或者模态的模型并在一块去使用,需要从训练阶段开始,或者在 Transformer 里面做,是很繁重的技术问题,没有一个好的中间层解决方案。这里就是存在技术变量的,是不是可以不通过编排,实现模型之间更好的编排。


ZP: Dify 最早是以 RAG 的 ChatBot 的形式开始的,这里我就有两个问题。第一个问题:我们从今天静态去看,在当前这个时间点,Dify 最核心的功能是什么?主要面向什么用户?第二个问题:之前我也体验了一下 Dify 的产品,我发现今年和去年相比发生了很大的迭代,从最早定位 RAG 的 ChatBot 的形态,一步一步演化到今天,我相信你们做了非常多的工作。你怎么样去观察和评估用户的需求,然后把这个需求转换成产品?方法论是什么样的?


张路宇:这个问题值得深聊。回到最初的愿景,做一个 RAG 的 ChatBot 这件事情是不是一个真需求?首先我觉得,去年 5 月份 Dify 让大家快速搭 Bot 这件事情,一定是走在创新前沿的。后续所有产品,包括云厂商 ChatBot 平台、OpenAI GPTs 等各种产品,都在沿用当时最早的这个范式。


到去年 7 月份的时候,我开始认识到,ChatBot 不是一个好情景,Bot 是一个过渡态,用户不需要那么多 ChatBot。一个正常的用户,日常用的 Bot 不会超过三个,第一个 Bot 可能是 OpenAI 之类的超级厂商做的超级助手,第二个是 Windows 或 MacOS 等操作系统做的原生级助手,因为它足够便捷;第三种是企业 Bot,因为企业有私有的数据,或者业务的上下文支持。日常使用的 Bot 不会超过三个,超过三个的认知负荷就很重了,甚至我觉得最好就一个,这是我们的看法。


我们第一步做 ChatBot,短期来看对的地方是它极度符合大家的认知和直觉 ,不需要经过培训用户就可以做出一个理想的东西,不需要考虑商业价值,比如今天的字节扣子也还在用这个范式。虽然现在看 ChatBot 需求没有那么成立,但是它帮用户上手和理解了一个新技术,自己徒手端到端创造并且交付 Bot 给客户端。让用户觉得大模型是一个可以亲近的,可以驾驭的东西。


我前段时间看了一个视频,苹果乔布斯在 1998 年发布的 iMac 就是一个非常经典的电脑。当年这个电脑有一些很有意思的设计,第一,它是一个色彩非常鲜艳的,圆鼓鼓的东西,为什么?是为了让大家亲近这个产品,感觉这个产品没有那么可怕,我可以驾驭。第二,注意一个细节非常有意思,看这张图(我们办公室特地最近买了一台):



ZP: 这是什么?一个把手?还是电脑的主机?


张路宇:这是一个一体主机,它加了个把手。你会不会觉得这个电脑很奇怪,明明是一个很重的一个电脑,我一般也不会去拎着他,那为什么要去加一个把手,把手的作用是什么?因为人天生看到把手可能就会上去摸一摸,在摸一摸的过程中,你跟它的距离就无限缩短,这个把手就让当年很多人接受了这个产品。所以我觉得 Dify 的第一个版本,拉近了用户的距离,是我们产品做的非常好的一个点。


今天来说,Dify 最重要的功能其实已经不是这个了,我们今年上半年主推的功能是 Dify workflow。Dify workflow 是一个兼顾易用和灵活的一个开发框架,它可以让多模态大模型编排成一个 API 或应用,中间可以融合数据、Agent 等等。我们有用户编了几百个节点。


Dify workflow 的受众也变了,变成了真正严肃的开发者,有企业客户用它做大模型批处理的 Agent,处理大量的文档。


ZP:是什么时候,观察和评估到用户有 workflow 编排的需求的?我理解其实用户的需求非常多,你是怎么样把这个需求梳理出来,然后变成我们的这个产品,过程是怎么样的?


张路宇:那就回到了产品经理根上的能力。一个产品经理重要的职能就是做需求的抽象,在无数的需求中抽象出最大公约数,并且在每一个功能上和特性上排优先级,这个过程一定是用户驱动和数据驱动的。


第一点用户驱动,指的是需求是靠用户样本聊出来的。就像 Dify 的第一个“把手”版本,让用户上手了,才知道自己需要什么,大模型的局限在哪,和预期有多少差距。用户会表述自己的需求,我们就获得了大量用户真实的声音。


第二点数据驱动,我们可能做了很多公司没有做的事情,比如我们搭建了很完善的内部飞书知识库。我们整个团队的知识体系分为探索研究,技术研发,增长和商业化四条线。在探索研究,我们会研究包括用户画像,用户情景,LLMOps 生态图等很多东西,应用生态研究等等。研究都是我们自己做的,每个领域有明确的观察员分工。我们观察上下游生态产品动态,每周更新最新的市场情报。通过这些数据收集几十万用户都在做什么,归因用户到底想做什么,来评估什么是重要的。



03 Dify = Define + Modify;成立 12 个月超过 3 万 Star,全球安装量超过 40 万,开源大模型中间件 5 月全球增速第一

ZP: Dify 这个名字怎么来的?


张路宇:给产品起名字还是一个挺难的事,这个名字准确来说是我选的,是 GPT 帮我取的,我在很多候选的方案中选了一个名字。创业的第一步就是起名字,产品的名字得好念,简短,能申请到域名,能注册到商标,所有条件都满足才行。我们觉得 Dify 是一个有意思的简短有力的名称,从缩写上来说,它符合我们产品的理念和愿景,就是 Do it for you 。同时从发音上来说,Dify 是由两个英语单词组成,一个是定义 Define,一个是修改 Modify,背后引申的意思就是我们帮助大家不断定义 AI 应用和调整它,也符合我们 LLMOps 的概念。


ZP: 你还记得当时让 GPT 起名字的 prompt 是什么吗?


张路宇:我可能已经不记得了,但一定是一个很长的 Prompt。大概描述是我要做一个什么产品,传递一个什么理念,做什么样的事情,能不能给我起 100 个名字或者怎么样,不断的讨论。


ZP:未来 6~12 个月会重点推出的功能是什么?


张路宇:我们现在已经有在平稳发展的功能,比如说 workflow,它的涨势非常好,有很多用户,我们现在也在对它做二期三期的迭代,这个可能会占相当大的比例,先把这个产品打造成我们想要的的样子。


此外我们还有另一个核心能力是 RAG Pipeline,我们叫 RAG 引擎,未来也会着重改进 RAG 的编排能力。


ZP:Dify 这个产品要做好,技术上的主要难点是什么?


张路宇:去年我们创业做这个事的时候,市场上有很多声音,也经历过一些挑战。比如说我们去年 5-6 月份刚出来做的时候,Dify 出来做第一轮融资,很多投资机构不 buy in,他们认为大模型是高科技,非常牛逼,中间件好像没啥东西。


但是现在一年过去了,你今天再回来看中间件,你会发现做好的人不多。原因是大家低估了工程难度,所有的这类问题背后是工程问题。所谓的工程就是很多复杂的东西排列组合,达到一个最优状态,这叫工程。我们也可以说所有的硬科技后面也是工程,只是颗粒度不一样。比如说苹果,你去做一个很高级的 M3、M4 的芯片,里面有光刻,有各种芯片的图纸设计,它也是个工程,只是说它更微观。那换到宏观上来说,我们做中间件,也是工程。所以我觉得是绝大多数人都低估了工程的难度,所以他们做不好,或者说认为这样的产品护城河低。今天看来不是这样的,今天看来工程很难。此时此刻,已经 2024 年 5 月了,你想去做一个非常好的 RAG 应用,仍然有很多工程问题,除了我前面说的编排工程之外,还有数据工程,这是一个大家忽略的一个难点,大家往往都低估了这一点。


第二个难点是具体的功能上,Dify 这样的产品的颗粒度很难把握。我们最大难点是技术本身的变化,多模态或者说应用端需求的变化。我们是在不停地变化的环境中去做产品,而不是像以前在一个非常恒定的一个环境去做产品。我们怎么去适应变化,怎么去快速地摄取和加工信息,是我们的难点。在具体的一个产品上,比如 Dify workflow,大家会觉得这个产品还是很惊艳,平衡了易用和灵活这两个点。

Dify 最开始最易用的版本,人人都可以驾驭,你不需要培训,凭直觉就能用好这个产品,Dify 的前十万个用户几乎没有人来问我们这个产品怎么用,用户天生就会用,这就是我们把它做简单的一个好处。但是它不够灵活,大家觉得离我想象的东西比较远。那我们就把它做灵活,做灵活的话就会有复杂的 workflow 的编排。


Workflow 的底层范式是 I/O 流,我认为 Dify 在这里所做的也并非是“颠覆式创新”。在去年 Dify 起跑时,除了 LangChain 还有 Dust.tt、Fixie 等明星融资团队在这个领域更早起跑。但今天回看,取胜的并非是这些“明星团队”——它们获得了相比我们 5 倍甚至更多的早期投资,可见钱不是最关键的,对同一赛道的深度认知、市场路径和产品定义能力起到了决定性作用。


ZP:你刚才说得特别好,在做产品的时候要在易用和灵活之间做平衡。这里能不能挑几个点展开讲讲,在做产品的过程中遇到的比较大的技术难点是什么?


张路宇:我不觉得我们在做出来这件事上有难度。怎么设计、设计成什么样子,我们要花很多心思;做出来,我自己觉得我们团队本身是还蛮精英主义,且执行力非常高,受过系统性训练,又磨合了很久,做出任何东西,对我们团队来说不难,它只是需要时间而已。更多还是怎么找平衡点的设计的过程。设计过程很困难。


但产品本身做出来,确实也不是一件容易的事。以 RAG Chatbot 为例,最粗糙的、最本能的技术是文本向量化,然后直接召回,这就是一个简单的 RAG,但是它的数据准确度无法接受。再往上就会引入很多新技术,比如混合检索、多度召回,召回之前要做意图识别,拿到结果之后还要用 Re-RAG 模型对结果做重排序等等,这里的环节非常多,把这件事情做好还是很复杂的。


这里还有前提,就是做 RAG 的话你的数据一定要好。数据不一定要多,但数据要好。很多企业和团队本身数字化做得不够,它得从头去建立这个东西,它对建成什么样没有把握。它本能地认为我企业有一堆文件,另外一个用户对这堆文件只要问问题我就能准确回答。其实这是不对的,现在还做不到这样。实际上你要先做意图识别,就好像你去图书馆找书,你得先知道你去哪个书架、哪个区域、在什么范围内去找,效果才好。这件事也是一个工程问题,和最早想做 RAG 的用户的直觉是不一样的。


ZP:从定量的角度来说,你最关心的北极星指标是什么?


张路宇:我们有最真切的指标和最虚荣的指标。如果从虚荣的指标来讲,比如 Dify 今天有超过 30,000 的 star 这种说出来很好听的指标,甚至我们收入都还可以,这个都属于虚荣指标。


我们真切的、自己内部定的北极星指标其实是基于 Dify 投产的用户数——拿 Dify 做了什么东西且赚到钱,或者他获得了 PMF。这个是我们真正的北极星指标,它是一个非常深度的指标,它也指导我们去选择用户,排除一些无效的需求。这个指标虽然很难做,涨得很慢, 但是对我很有用。


ZP:这个数据今天怎么样?


张路宇:这个数据我不好去统计。我们有一个统计上的难点,Dify 的开源版现在全球的安装量超过了 40 万,这是一个非常庞大的数字。这 40 万中,真正投产的一些非常好的应用,我们自己觉得这个比例也许不到 5%。但是这个数据对我来说也已经很好了,在目前的技术发展早期阶段已经是个非常好的数据了。


关于应用的量级,应该是在千这个量级。但这是一个在今天的 Dify 来看非常好的指标,因为我们看到 Dify 服务了很多还不错的企业,比如安克创新、得到之类的大企业拿我们的产品做了一些我们自己看了也觉得很惊艳的东西,这个是我们看了尤其高兴的事,比前面那些虚荣数字都好得多。


ZP:分享 1~2 个基于 Dify 做的有意思的产品。


张路宇:其实现在的产品形态差距没有那么大。ToB 其实有很多案例,但是大家可能没有那么关心。举个 2C 的例子,比如说 Miraa,是一个语言学习的 app,是旅居日本的中国互联网顶流独立开发者 Kevin Zhou 基于 Dify 做的一个爆款应用。用户加载一个 podcast 之后可以去跟读,它会帮你解释每一句话的意思。


图片


它有两个点,第一是它完全基于 Dify 背后的引擎去驱动;第二是 Dify 启发了作者,它的开发者 Kevin 跟我说如果没有 Dify 根本不会有这个产品,因为我们提供的技术启发了他,并且降低了很多门槛,他才有机会去做这样一个产品。


ZP:最近刚好是 Dify 开源一周年,当时为什么选择开源?现在怎么看待当时开源的选择?


张路宇:Dify 自创立第一天就有三个关键词:第一是企业,即面向企业;第二是全球化,即出海;第三是开源。这三个点是去年 3 月份产品还没做出来之前就已经定的基调,这三个基调到今天来说都没有变,我们一直都在坚持这三个点。


开源对我们来说是一个必选项,非常重要。


首先,大模型流行以后,GitHub、Hugging Face 等这些开源社区在过去的 18 个月内非常火爆,火爆程度比之前多得多。Dify 开源一周年就斩获了 3 万颗星,如果你去了解 GitHub 的历史,会发现 3 万颗星在 GitHub 是一个非常恐怖的数字。在今天看来可能没有这么惊人,但在大模型流行之前,要在 GitHub 做个 3 万颗星的项目需要 3-5 年甚至更长时间。所以可以看到本身开源就是非常火爆的。


第二,我们需要全球贡献者的参与。今天在 GitHub 上可以看到 Dify 有 200 多位贡献者,有很多人在参与,去提问题、提需求,这很重要。


第三,开源对于中间件而言很重要。Dify 是模型中立的,它不需要去捆绑任何的模型或云才能使用。模型端用户往往不能控制,但是开源中间件可以控制,可以确保数据安全、算法可控,所以开源也正好贴合这些用户的需求。


第四,开源无限降低全球化推广的门槛。Dify 要进入的每个新市场都很复杂,投入成本很大,需要很多市场预算。但事实是我们过去一年几乎没花市场预算。今天我们有很多的全球用户,比如我们最近在日本特别火,而且给我们贡献了不少的收入。但我不得不承认的是,到目前为止我们团队里一个会讲日语的都没有。这也是因为开源和拥抱社区可以降低早期的市场预算。


第五,我认为这个品类非开源不可。原因是我们想通过 Dify 去建立我们的编排或其他技术标准,需要最短时间内最大化市场渗透率,那么开源显然是构建价值网络、让大家加入并且快速增长的一种方式。大模型厂商最近都在搞免费、打折补贴,这是一种算力上的补贴。我们开源其实也是一种市场补贴,你要去构建一个价值网络,双边市场,早期肯定是要补贴,开源补贴也是其中一种。Dify 这个模式一开始跑得还算非常健康,在开源时期给我们带来了用户贡献者和收入,这是一个划得来的事情。


ZP:我们看到 Dify 的开源社区在 4 月出现了非常陡峭的增长,是什么原因?


张路宇:我们在正确的时间发了正确的东西。4 月份发布了有 workflow 编排功能的开源产品的大版本。那段时间吴恩达教授也在推广 Agent workflow 的理念,这个时间点是契合的,我们的 workflow 是在那个点上最 ready 的产品。


ZP:全球化在 Dify 的语境下意味着什么?


张路宇:我们不用“出海”这个词,我们用“全球化”。一些工具软件,比如说 Xmind、Figma 和 JetBrains,如果不告诉你这个产品背后是哪个国家的公司,你可能也不知道。技术类产品本身没有那么强的文化属性,本来就是跨国界的,一个好的技术产品必然是全球化。


一个技术产品,中间件,在中国火,在海外不火,那不是一个成功的产品,因为这是建立在大家共同的需求之上的。全球化是逼迫我们去做最领先的、最有效的市场中的有效需求。我们认为中国的市场噪音会多一点,所以我们第一天就把视野放在全球化。我们的英文版和一些其他国际友人友好的东西都非常早。


全球化的定义包括中国。我们认为中国是全球的一部分,这个想法和有些厂商可能不一样。现在有另外一种观点叫做中国是一个市场,中国以外的海外是一个市场,这两个市场要用不同的产品和团队去打。我们以前做过这样的事情,但是今天我们非常自信地认为 Dify 是一个全球化的品牌。我们不会去搞一个产品在两个国家是两个名字这种事情。Dify 是一个在全球都非常响的品牌,它未来会和 Google、微软是一样的,Google、微软不会是一个中国版和一个海外版。


ZP:有些创业者担心作为中国公司在海外会遇到一些问题,怎么看待这种担心?


张路宇:尤其是 TikTok 出事之后,大家有这种担心是合理的,但我还是觉得大家有一点过度担心。我觉得不同的品类是不一样的。TikTok 社会传播属性非常强,而我们是一个技术的产品。我们看到很多中国公司在海外做的非常成功的先例,比如说 PingCAP 等。


其次也取决于团队怎么回应它,你要确保自己是一个非常市场化的一个团队。讲个具体的例子,我们上个月遇到过类似的事情。我们在日本市场很火,火了之后有一个日本网友在推特上提出了一个问题:Dify 的背后到底是谁?它是一个什么样的公司?是不是腾讯控制的?因为我之前在腾讯工作过,有些公开的个人背景介绍会带有这个标签,他们也许在哪里搜到一些类似的词拼到一块,带有一定误解性。然后下面的网友就开始扒了,他们把我们公司的背景、团队背后的中国投资人等所有的东西写成了一篇文章,发到了社区上,意思就是你看这是个中国团队。


这个例子是说明:第一,一个产品一旦有了一定的影响,用户头脑中一定会产生一个问题——who are you?是谁做的?你规避不了这个问题。尤其是海外,全球用户是实名制,他们会去 LinkedIn 上搜这个团队,看能不能找到他们的 CEO、CTO、COO,他们不会忽略这个问题。第二,你藏不住。你不可能通过某一种方式掩饰自己,所以你没有必要做这个事情。


我们对这件事的回应是我们马上在这个点上回复了。官方包括我本人都回复了,我就明确地说,我们是以中国人为主的团队,当然我们有海外的、英国、美国、日本的同事,我们是一个非常市场化的运作方式。回应非常及时,有效地披露了我们该披露的信息。总体上来说回应是好的,用户基本上打消了疑虑,这个事情没有产生进一步的负面影响。紧接着的第二个星期,我们就和全球用户在 Discord 上开了一次线上直面会,全球的团队去互相介绍,认识一下,彼此拉近距离,然后这个问题就解决了。我认为没有大家想的那么恐怖。


总的来说,具体还是得看行业,我们不是敏感行业。第一,我们不涉及非常高精尖的技术制裁;第二,我们也不涉及广泛的社会舆论影响。我们身上有这两个标签,我们可以自信地去应对这个问题。我不能承诺说这种方式就适用于所有公司,毕竟我相信有一些技术还是处于贸易争端、技术进出口限制的风口浪尖的。


ZP:怎么看待当前赛道的竞争,Dify 在其中的差异化竞争优势是什么?


张路宇:你可以看 OSSInsight 的全球开源大模型中间件的增速排行,这个数据很客观。右边的数据是今年 5 月份的,Dify 在过去 28 天的 star 个数是 6000+,增速高于下面所有的产品。



虽然市场领域内的产品整体环比增速在下降,但 Dify 连续好几个月都在非常猛烈地增长。从这个这个虚荣的指标上看社区生态的话,我觉得我们是好于这些产品的,包括这里第四名是 LlamaIndex,也是 3 万+ stars,我们已经超越它了。


这件事情本身是在拼团队的综合实力,包括工程、品位、开发者社区运营等。比如 LangChain 是一个标杆,它在很好的时候拿到了很多的钱,红杉投它一大笔,发展到今天。放到现在,增速已经慢下来了。或者说现阶段产品影响力上某些点不如 Dify,原因是它本身团队一定是有优势和短板,每一个创业公司都是这样的。


我们是一个久经考验的成建制的团队,比一些偶尔抓住风口的人可能会强一点。LangChain 本身捕捉新技术的能力非常强,因为是后端工程师出身,但是要说开发者社区运营,整个产品的产品化程度,去谈业务,可能会有一定的组织和学习的过程。


我认为这个品类中未来会有一些产品会胜出。考量的维度一个是本身的市场渗透率超过一个点;第二是自己的技术标准,比如说我们的 workflow 会衍生出 Dify 的 DSL,也就是我们的编排语言,它是一种技术标准。技术标准推广开了之后就会有一个独特的价值网络,这也会有非常大的优势,你会有一个自己的技术生态,一个典型的例子是 Docker。


ZP:未来几年对 Dify 的预期和希望达到的目标是什么?


张路宇:我最希望达到的目标当然是所有人都在用 Dify 创造他们基于 AI 的有趣的东西。


如果说的比较抽象,我们希望 Dify 能帮助更多人,创新者、企业家、企业中层的技术专业人员。我们希望帮助所有的创新者和专业人士更快地成功或者失败。这里包括成功也包括失败,你去快速地验证想法,最终发现这个想法不可行,那么我们帮你少走弯路,帮你节省了生命,我觉得这件事也很有价值。我们整体的愿景都是围绕这一点。


具体的目标来说,我们现在已经有 40 万的安装量,希望未来一年会达到 100 万以上,覆盖到大大小小的各种企业。


ZP:Dify 目前除了要把产品做好以外,还有什么东西也是非常重要的?


张路宇:我一直更关心我们的团队,我把团队放在产品之上:我们的同事有没有在跟最优秀的人协同合作,他们是否在做自己本能上最感兴趣的事情,亲自动手去折腾。团队文化上的东西我们很关注,我们团队文化很硅谷,我们最拿得出手的产品是我们的团队。我现在的团队人数也不多,二十几个人,这个团队让我感觉到非常骄傲。


我自己非常擅长精细化管理,把所有的效率用到最高。当然,这个优点在 Dify 这件事情上,我觉得不是最重要的,甚至是我需要刻意去屏蔽的一件事,因为我们最大的创业挑战是需要持续的创新。


Dify 的创业跟以前不一样,以前我做过的所有赛道,时间不敏感,你好像晚一点做也行,早一点做也行,你真的上路了之后好像快一点也行,慢一点也行,不犯特别大的错就行了。今天在做 Dify 的时候你会发现技术环境、市场资金密度、团队人才密度都是极高的。聚集了全球最多的钱、最好的人、最激烈的竞争。你想在这个过程中活下来,你得用一种快于过去 3-5 倍的节奏奔跑,相当于以前创业是马拉松,现在你要拿短跑的速度跑马拉松。这对团队的要求特别高,你的团队在今天的市场能活下来,你得持续创新。持续创新是一件很难的事情,意味着整个团队文化要保持大家有激情、有好奇心,能紧密协同动手做有趣的事情,不会陷入到体制化、模式化之中,这都是很大的挑战。我自己认为我们的招聘文化都反大厂,跟大厂是相逆的,因为如果和大厂一样,就会和它产生一样的结果,我们正好跟它反过来,我们专门招那些大厂不要的人。我们专门在企业文化和组织上跟大厂不一样,最终我们会赢在组织方式上,因为我们跟它的行事方式完全不同;反过来大厂也模仿不了我们,它只能模仿我们的产品,但模仿不了我们的基因和做事的方式。


我一直非常关心我们的团队有没有在保持创新,有没有每周持续地在创新,同时还能保证产品有非常好的出品标准。



04 ChatGPT 发布那几天就深刻认识到这个世界完全不一样了

ZP:这次创业和之前最不一样的地方是什么?


张路宇:刚才讲的“快”,身上使命感重。因为你一不小心花了一年时间跑到了品类的中国第一或者全球前三的位置,所有人的眼光就都会盯着你,你变成一个品类的代表,所有的竞品都会盯着你抄,所有的用户都会对你有所期待,那么你身上的使命感就会重很多。你知道你在帮助所有的用户和关注你的人,你在引领一个方向,哪怕是一个非常小的方向。


ZP:这次创业最兴奋和最痛苦的时刻分别是什么?


张路宇:最兴奋的时候大概是去年 5 月份产品刚发的时候。我们在没有市场预算、完全冷启动的情况下,一周之间涨了 4-5k 颗星。所有人都在关注我们,所有的社区都在讨论“Dify 是谁做的”,这是一个我记忆犹新的时刻。


第二个时刻是今年 3 月份我去加州参加美国 GTC 的时候,我也印象很深刻,一个硕大的球场坐满了人,大家去看 NVIDIA 发的是什么,你知道来的都是一些创新者、企业家、投资人,坐满了整个球场,你还以为你是在看 Taylor Swift 的演唱会。大家都很有热情,在为了一些新技术欢呼,你就仿佛在宇宙中心,感觉大家在共同推动一件事情,就是现在所谓的生成式 AI 或 AGI,这个感受非常好。


最痛苦的时刻当然是融资了,去年 5 月份第一笔融资没拿到之前。一周见 30 个投资人,得说三十遍同样的话。这个过程也在不断地纠正自己。我现在很理解别人说公司创始人在融资或者对外讲故事的时候,为了讲一个性感的故事,他会反复地打磨,直到这个故事讲到天衣无缝。这会带来一个好处是,由于一个故事讲了 30 遍,你自己一定深信不疑,哪怕你原来没有那么信,但是讲了 30 遍之后,你自己给自己洗脑。但是,同时你要站在外面保持冷静,其实你讲的故事也许是错的,也许是带有很多无效的假定,你讲完故事拿到钱开始创业上路之后,你要时刻回头看看你做的事情对不对。也许你要从头基于第一性原理去看,考虑你所有的事情,而不能基于自己这个自证预言去做产品。


ZP:AI 行业给你留下印象最深刻的一件事是什么?


张路宇:ChatGPT 发布的那几天。我觉得有无数人跟我有一样的感觉,当你第一次对着一个这样的东西对话,连续几天,你甚至不眠不休地跟它对话,想看看它边界在哪,这会让你非常难眠的。你会发现背后有一个非常强大的模型,或者说一个超级的东西,几乎可以回答你所有的问题,即使它回答得不对,但是你的生命中从来没有过这样的经验。我觉得那一刻感受很深,影响很深,你知道从那一刻开始这个世界变了,未来所有想创造、想做出东西的人,他们背后都有一个强力的模型,或者说 AI,去加持他。我们不能说完全替代,但至少助力你去做很多你做不到的事情。


所以,从 ChatGPT 为代表来说,我们这帮人收获了比以往做任何事情更大的勇气,包括当你要创业,当你要创造一个新产品,当你要探索一个完全未知的领域,当你要去开拓一个从来没有开拓过的国家的市场的时候,你会无所畏惧,你不会有什么担心,你也许做不了 100 分,但你做个 70-80 分,还有一个强大的东西在帮你。以前不敢想,以前是你做很多事情,你会想,这件事能不能做,会不会团队不行,能力不行,语言不行,各种不行,会在做这件事情之前你就抹杀了自己的想法,但今天不会。


ZP:有没有书可以推荐给我们的读者。


张路宇:《创造》这本书是托尼·法德尔(iPod 之父)写的一本书,它的副标题叫“用非传统的方式做有价值的事情”。这本书对我有一定的影响,尤其是我在犹豫我是否创业的那段时间,这本书给了我很大的启发:怎么发现一个需要满足的需求,早期创业做一个产品的时候最需要关注的点是什么,什么东西是可以忽略的。


作者作为一个超级产品经理,总结了一些过往成功和失败的经验。比如你不要听任何人的,你要相信你自己;体会没有被满足的需求,你亲身感受到的第一手的需求很重要;怎么发现好想法,怎么确信自己的想法真的是一个好想法……


ZP:日常有什么兴趣爱好吗?


张路宇:以前我是个生活很有节律的人,跑步、骑自行车、冥想、读书,我在做 Dify 之前会把握好忙碌和松弛感。现在做 Dify 实在太忙了,我现在放松的手段和兴趣是听古典音乐,晚上休息的时候,到家戴上一个好一点的耳机,听个 30 分钟,有一个沉浸的状态,这个让我感受非常好。