新闻中心

新闻中心

XINWENZHONGXIN

你的位置:万博正规(买球)下单平台·中国官方全站 > 新闻中心 > 欧洲杯体育Luma Photon-万博正规(买球)下单平台·中国官方全站

欧洲杯体育Luma Photon-万博正规(买球)下单平台·中国官方全站

时间:2025-05-12 07:09 点击:184 次

欧洲杯体育Luma Photon-万博正规(买球)下单平台·中国官方全站

文|周鑫雨

裁剪|苏建勋

Luma AI 在视频范围叫板 OpenAI 故事,好比半途改打网球的杜兰特,打赢了网球男单大满贯纳达尔。

最近,这家建造于 2021 年的硅谷 AI 公司,在和《智能清晰》的交流中,复盘了视频生成模子 Dream Machine AI 爆火的过程。

在硅谷率先发布一款后果能对标 OpenAI Sora 的视频模子,对一家初创公司而言并退却易——更况兼,Luma AI 在视频生成范围算得上是"教师有素":

2024 年前,这照旧个主攻 3D 生成、范畴在 10 东谈主傍边的小公司。Luma AI 数据居品厚爱东谈主 Barkley Dai 告诉《智能清晰》,2023 年 12 月决定转型作念视频生成后,团队才推行了视频范围的东谈主才,范畴加多到了 50 东谈主。

他提到,Luma AI 能成为视频生成范围的蚂蚁雄师,技巧实力、发布时机和运营策略不可偏废。

东谈主才,是这家公司认为作念出视频模子最热切的钞票。2023 年 12 月,决定从 3D 转型作念视频生成后,Luma AI 吸纳了 40 个 AI 范围的东谈主才。

而和 OpenAI、Google 打擂台,Luma AI 又对模子的算法和 Infra 作念了诸多优化。Barkley 对《智能清晰》暗意,团队在 Sora 同款 DiT 架构的基础上,接纳了独家校正的架构,保证生成后果的同期,还从简了闇练和推理资本。

视频模子" Dream Machine AI "的发布时候,2024 年 6 月 13 日,踩中了视频模子赛谈的空症结——这也让 Dream Machine AI 具有了稀缺性,除了快手"可灵"以外,这是独一简直对大众盛开的视频模子;

而模子的"限免"策略,又坐窝眩惑了大批试用者:上线 4 天,Dream Machine AI 的用户量就破了百万。Barkley 对《智能清晰》败露,Dream Machine AI 的投流用度是 0,全靠 KOL 自愿安利,和用户的口碑发酵。

爆火之后,提高用户留存,不让光芒好景不常,是 Luma AI 如今的命题。

2024 年 11 月 26 日,在视频模子发布后近 6 个月,Luma AI 在 iOS 和 web 端上线了 Dream Machine AI 创意平台。与之配套发布的,还有 Luma AI 自研的首款图像生成模子,Luma Photon。

△ Dream Machine iOS 界面。

Luma AI 居品遐想师 Jiacheng Yang(杨家诚)告诉《智能清晰》,与 Midjourney、Adobe 等专科遐想用具不同,Dream Machine 不需要用户学习如何写 Prompt(请示词),也不需要用户懂遐想,"咱们的指标即是作念一款 AI 小白和遐想小白都能疏漏上手的 AI 视觉用具"。

据他先容,Dream Machine 共有 5 个中枢功能:

(1)用天然语言进行对话,好意思满图片的创作生成和裁剪;

(2)由 AI 提供创意点子,把柄用户输入的 Prompt,自动提供创意、作风选项;

(3)视觉参照,把柄用户输入的相片,生成带有交流主体或者作风的图片;

(4)将 AI 遐想的图片转动为视频,供用户检察图片中主体在不同角度下呈现出的细节;

(5)将悉数 AI 生成的素材发布在面板上,并生成可供共享的一语气,有助于团队进行头脑风暴。

△ Dream Machine 视觉参照功能。

为什么采用用图像遐想平台,去相接视频模子的用户?"想要扩大 AI 视觉范围用户的盘子,唯独视频生成是不够的。图像生成的把握场景会更无为,是以咱们想作念一个很好上手的遐想平台,用户能够疏漏上手的同期,也能展现咱们的模子智商。" Barkley 提到。

行业竞争,是行为初创企业的 Luma AI 不得不面临的问题。他们认为,打出互异化上风,是让模子和居品在行业中具有辨识度和获客的要道。

比如面临 Midjourney 等图像居品的竞争,Dream Machine 把语言贯通智商作念到了"天花板"。以及,这亦然一个最会遐想字体的模子——相较于 Midjourney 和 GPT 生成的带笔墨的图片,Dream Machine 图片中笔墨的遐想感和明晰度是最高的。

△ Dream Machine 在图片中生成的配文。

和视频模子一样,Luma AI 给 Dream Machine 破耗的投流预算,是 0。在 Barkley 看来,烧钱营销看的是请教率,这意味着最终照旧要用居品语言。以及," AI市集还很小,我以为对 AI 公司来说,烧钱营销还为前锋早。还不如把营销的钱,投到居品研发上"。

以下《智能清晰》与 Luma AI 增长厚爱东谈主 Barkley Dai、Luma AI 居品遐想师 Jiacheng Yang 的交流,内容略经《智能清晰》裁剪:

烧钱营销,AI 公司还为前锋早

《智能清晰》:2024 年 6 月发布视频模子 Dream Machine 的时候,团队有莫高兴料到会爆火?

Barkley:其实那时是远超咱们预期的,咱们一度出现服务器和 GPU 资源莫得看法承受的情况。

《智能清晰》:如果要归来爆火的训导,你以为是什么?

Barkley:其实最早发布的版块,还不是后果最佳的版块。但咱们决定全量免费放给悉数的用户去使用。

在那时,还莫得一个视频模子能够作念到这样。是以短时候内眩惑了许多用户的关注。

《智能清晰》:关于创业公司来说,作念免费的决定是不是还挺退却易的?

Barkley:其实咱们那时也给免费缔造了一个额度,我以为这是一个行业的 standard practice(基本操作)。

仅仅那时的峰值对咱们来说过高,大批的用户在短时候内涌入,服务器后台收到了太多的 request。

《智能清晰》:公司能职责流量带来的推理资本吗?

Barkley:其实咱们照旧在技巧层面作念了许多资本的优化,比如收敛去进步视频生成的速率,最初始咱们的模子生成 5 秒的视频需要 120 秒,当今只需要 20 秒。

以及在保持原有生成质地的情况下,视频模子的推理还有许多优化的空间。是以在半年时候里,视频模子的资本是鄙人降的。

是以我以为推理资本对咱们来说不是尽头大的职责,天然亦然一笔开支,但改日会变低。

《智能清晰》:你提到 Dream Machine 是有免费额度的,那么使用完免费额度后的用户付费率怎么?

Barkley:说真话咱们勉强费率皆备莫得任何预期。因为那时咱们对 Dream Machine 的定位是老师用户的居品,让用户知谈 Luma AI 视频生成的后劲有多大。那时市面上还莫得一个视频模子是按照对标 Sora 的水平发布的,是以咱们勉强费率皆备莫得对标的对象。

但当今发布的 AI 遐想平台,咱们的定位是最终去获客的居品。是以当今咱们对它的收入和付费率有更高的期待。

《智能清晰》:Dream Machine 在营销上插足了若干?

Barkley:0,咱们在发布的时候莫得作念任何的营销付费。

天然咱们提前往策动了许多创作家,他们试用后都以为很振作,致使大多数东谈主之前用过 Runway,还有东谈主用过可灵。但他们用了咱们的居品后,都以为说" This is the next big thing ",在推特上自愿帮咱们现实。

但咱们莫得作念任何的投放,因为咱们照旧服气收效的身分即是居品本人。

《智能清晰》:烧钱营销,这一套布置在硅谷 AI 公司常见吗?

Barkley:我嗅觉硅谷大部分照旧相比居品驱动的,运营这一套主若是中国公司。

视觉范围的市集还很小,我以为对 AI 公司来说,烧钱营销还为前锋早。即便 ChatGPT 的用户许多,然则像一些视觉模子,用户照旧很少数。

这个时候如果你作念投流,去作念赛马圈地,留存肯定不高,还不如把这些钱插足到模子和居品的研发上,用更好的模子和居品吸援用户的增长。

《智能清晰》:在发布视频模子之前,Luma AI 的技巧和居品照旧围绕 3D 生成的。团队是什么时候决定作念视频生成模子的?

Barkley:大要在 2023 年 12 月。

《智能清晰》:为什么从 3D 转向作念视频和图像模子?

Barkley:咱们底本其实也不会说我方是一个 3D 公司,公司的定位照旧视觉范围的 AI 公司,咱们想去贯通这个寰宇在视觉上的构造,是如何匡助 AI 对寰宇进行贯通的。

从独创团队的推敲布景来看,一初始 3D 是 Luma AI 比绝大多数公司和团队更擅长的事。后续咱们也如实作念了许多 3D 生成上的技巧打破。

然则 3D 不错被用于闇练的数据量级,相较于图片和视频来说都会少许多。同期在使用场景上,咫尺手机和电脑照旧主要的居品载体,但 3D 也会比视频更受到死心。

然则当咱们有更多的算力、更多的东谈主才,也有更多的智商去鞭策咱们的愿景,也即是更好地了解寰宇,咱们也天然地会从 3D 转向作念视频。

《智能清晰》:这会不会让公司看起来计策有些扭捏?

Barkley:从我行为一个里面成员的视角来看,我以为无论是 3D 照旧视频生成,一直都是合理的。

因为无论是 3D,照旧视频和图片,都仅仅一种模态。如果咱们最终想作念到的是对这个寰宇的贯通,那么无论是一种模态、一种生成,照旧一种创意的发扬,我以为只须指标不变,这些序论就仅仅帮咱们达成指标的技能。

《智能清晰》:从 3D 转型作念视频生成,时期有遭遇什么勤勉吗?

Barkley:我以为悉数这个词过程照旧相比顺利的,因为咱们在作念 3D 生成的时候,团队也就在十几东谈主的范畴,但当咱们作念视频生成以后,引入了许多视频范围的东谈主才,当今团队范畴仍是当先了 50 东谈主。

这个过程其实是吸纳了更多新成员去鞭策指标的好意思满,而不是说底本大众就在时时地换标的。仅仅底本作念 3D 的东谈主,当今也在冉冉初始作念视频方面,比如数据等各方面的服务。

《智能清晰》:作念 3D 的阅历对视频生成有匡助吗?许多反映说 Dream Machine 的通顺轨迹作念得很好,这和 3D 积存下的空间贯通智商策动吗?

Barkley:我以为可能不一定有那么径直的相关。

但从咱们发布最早版块的视频模子初始,咱们对相机的轨迹通顺,包括视频里有若干机位的变化,是十分侧重的。

是以那时用户也会渊博反映说,Luma AI 的模子固然偶然候生成收尾不是那么踏实,然则它能给到许多的机位的移动,以及复杂的东谈主物通顺轨迹。

我以为畴前在 3D 上的一些训导,能够让咱们在作念视觉模子的时候,意志到进步机位的丰富度和通顺轨迹的复杂度,能够提高用户对视频生成内容的铺张意愿。

不外我以为畴前的训导,包括模子本人之间,其实莫得那么大的关联性和鉴戒真谛。

《智能清晰》:是以技巧转型最热切照旧补充新的技巧东谈主才是吗?

Barkley:是的。

相接住模子的爆火,需要有居品

《智能清晰》:6 月份 Dream Machine 走红后,你们奈何斟酌用户留存的问题?

Barkley:咱们发布 Dream Machine 的时候,就知谈背面一定要有居品去相接用户连续踏实的需求。

比如你行为一个 ChatGPT 的历久用户,即便后续会出来许多智商作念得和 GPT 差未几的模子,你照旧粗略率会采用使用 ChatGPT。因为 ChatGPT 通过历久的深度学习,仍是把捏了用户民俗,能够更好地贯通你的意图。

行业里历久会有更好的模子出现,但居品最终是能够让用户留存的点。

《智能清晰》:团队是从什么时候筹画作念这样 AI 遐想平台的?

Barkley:这个想法其实在咱们最初始作念视频模子的时候就有了。是以居品的想法是前年(2023 年)12 月和视频模子同步鞭策的。

仅仅在居品的遐想过程中,咱们自后意志到,要想把悉数这个词遐想过程涵盖,也必须要作念到能够生成图片。是以在视频模子发布 5 个月以后,咱们以为图片模子也富裕好的时候,把两部分同期整合成一个居品。

《智能清晰》:平台的指标用户是哪些东谈主?专科遐想师照旧大众?

Barkley:其实咱们以为底本的 Dream Machine,更多的用户照旧偏专科的,至少是有作念 AI 电影的训导,或者知谈奈何用 Prompt 去生成更好的后果。

但其实咱们更但愿当今的居品,让之前没灵验过 AI 致使莫得遐想训导的东谈主用起来。比如,如果他们在服务中需要用这样的过程,不错相称容易地通过一轮一轮地和 AI 进行对话去好意思满。

咱们在 6 月份发布的视频模子 Dream Machine,其实照旧需要一些使用门槛的。咱们在那时候就在想,但愿正常东谈主也能 access 这些视觉用具,就好比视觉里的 GPT。

但视觉是一个很小众的垂类范围。咱们作念遐想平台的想法即是,如何去扩大这个群体。唯独扩大群体,身手让视觉范围的 AI 赢得更好的发展。

《智能清晰》:非专科遐想师很难把一整套遐想的服务流用得很深刻。我的大部分生图需求,可能输入一个浅易的 Prompt,用 GPT,或者 Midjourney 就能欢快。

Jiacheng:咱们的想法是,把用户能疏漏感受到分手的功能作念到最佳,比如咱们图像智商比 GPT 好,然则语言贯通智商比 Midjourney 要好。

我用合并个最基础、皆备不复杂的 Prompt,让 Dream Machine 和 Midjourney 对比一下:i want to make a poster for my brother band " crazy avocado " .(我想为我昆仲的乐队"荒诞牛油果"作念一张海报。)

△ Dream Machine 把柄" i want to make a poster for my brother band ‘ crazy avocado ’"生成的乐队海报。

△ Midjourney 把柄" i want to make a poster for my brother band ‘ crazy avocado ’"生成的乐队海报。

你看 Midjourney 生成的海报,既不 Crazy,也莫得 Avocado 的元素,也看不出来是个乐队的海报。

语义贯通的智商其实比你假想的热切,会影响许多场景的落地。因为生设置时的、面子的图片,在实用场景中真谛不是很大。

如果要让 Midjourney 简直回话你的意图,你需要写许多 Prompt,包括海报的遐想、上头写的笔墨、评释 Crazy 的作风等等。学会写 Prompt,我粗略花了两三个月时候。

但我信托 ChatGPT 的大部分用户是不会去学的,他们即是进来问一个问题,得到一个论断。

咱们作念遐想居品的念念路,亦然一样的。按照之前市面上的居品,如果我想要得生成回话我意图的图片,着手,我要花 20 好意思金买 Claude 或者 GPT,帮我生成 Prompt;其次,我要再花 20 好意思金到 40 好意思金买 Midjourney,生成图片;终末我还要花 20 好意思金的订阅,把这些图片酿成视频。

算下来,文生视频起码要花 60-80 好意思元。当今用 Dream Machine,可能 10 好意思元就能经管了。

《智能清晰》:Dream Machine 语言贯通智商的来源,亦然自研模子吗?

Barkley:语言模子用了第三方的 API,咱们再去构建了一个 Agent。这个 Agent 能够贯通用户意图,然后通过不同的 Prompting 的方法,把用户意图转动为图像和视觉模子能够贯通的指示。

《智能清晰》:Luma AI 当今既有模子,又有居品,奈何去作念贸易化?

Barkley:居品照旧会接纳订阅的方法。模子即是提供 API。

《智能清晰》:不作念定制化?

Barkley:定制化不太符合初创公司,会漫步元气心灵。

咫尺莫得专科视觉用具,在界说交互范式

《智能清晰》:一个俗套的问题,你们奈何看待巨头下场?按照国内的情况,字节和快手的下场,仍是给许多初创公司带来了融资和获客上的压力。

Barkley:咱们发现,这个问题其实是公司和股东之间的问题。唯独股东才会蔼然:如果哪天一个巨头把你这个事情作念了,会奈何样?

但实质上,咱们公司许多 Research 都有这样的嗅觉:当公司达到一定例模,需要你去互助多样各种的东西的时候,你鞭策的速率会变得尽头慢,翻新的速率也会掉下来。

固然 Luma AI 的团队在畴前一年多的时候里也延伸了许多,但照旧保持着快速翻新、快速迭代的节律。

我以为有一个类比尽头好:其实你在大公司里,简直去作念视频模子和相应居品的团队,可能也唯独几十个东谈主。比如 OpenAI 看起来很大,但 Sora 的团队也就这样多。

天然说到更大的公司,比如 Google,他们可能有比咱们更好的 distribution channel(扩散渠谈),但他们相同会受制于多样过程上,一个新址品会有贸易化等许多方面的 concern,鞭策的速率不会那么快。

《智能清晰》:Luma AI 的迭代节律有多快?

Barkley:举座迭代速率一直是以几个月,致使是 1-2 个月来遐想的。时期会加入新的功能,底层模子的后果也在进步。

就像 Dream Machine 1.0 在 2024 年 6 月发布,1.5 版块是在 8 月发布。1.6 版块加了 camera control(镜头戒指)功能,在 9 月底发布。

《智能清晰》:一个新的遐想用具型居品,奈何去获客?

Jiacheng:我以为着手不错去分析 ChatGPT 是奈何获客的。你会发现,ChatGPT 不光最佳的门径员在用,你隔邻的大叔大妈也在用。

我以为 AI 用具带来的最大的变化是,由于它本人的可塑性和生动性,它不错服务险些悉数有视觉需求的东谈主。

我并不以为咫尺特定的视觉专科的软件,有相称好的交互,换句话说,咫尺莫得专科视觉用具界说了悉数这个词行业的交互范式。

《智能清晰》:你奈何界说"好的交互范式"?

Jiacheng:比如 ChatGPT 就界说了悉数这个词行业 ChatBot 的交互范式,像当今好意思国的小孩都不是说 ChatGPT,他都是说你有么有问你家的" Chat "。

这里的" Chat ",仍是成了一个像" Google 一下"的活动。

咱们作念 Dream Machine 亦然一样的。谁能先把正常大众的假想,通过一个畅通、浅易的顺次,呈现出一个面子真谛,然后能共享给别东谈主的或者灵验的图片,谁就能在这个范围有上风。

《智能清晰》:从立项到上线,时期你们对交互体式进行了哪些探索?

Jiacheng:咱们咫尺来说,包括行业对咱们的默契,都是一个视频模子科研公司。

然则如今的 AI 技巧是一个相称以用户体验为中枢的居品,技巧型居品的指标和迭代过程很通晓,即是最佳的用户体验。

咱们能预想的最佳的用户体验,即是用最天然的交流方法,把 Dream Machine 当成一个创意助手或者 Creative Partner。你奈何和遐想师互动,就奈何和系统互动。

有了这样一个指标,咱们就会去了解咱们的图片和视频模子,能够提供怎么的智商。同期也去了解悉数这个词行业处于怎么的发展阶段,第三方的语言模子能够给咱们怎么的匡助。

时期,多样各种的 Agent 软件用具也在迭代,大众关于 AI 把握层的念念考也有变化。是以一年以来,咱们的居品即是一个连续迭代的过程,具体即是一个月把柄行业变化打磨,再花一个月去修改。

这些东西总体统筹、交融起来,才有了当今这样的后果。

Barkley:时期咱们也发现,在 AI 视频生成范围,咫尺图生视频比文生视频愈加受迎接,因为用户在乎可控性。

是以悉数能够进步可控性的,都是用户相称需要的功能点。

《智能清晰》:时期行业哪些居品或者默契的动向,会对公司的居品研发节律产生影响?

Barkley:其实我以为畴前一年时候里,咱们的居品策略莫得变太多,照旧一直想作念能让悉数东谈主裁汰使用模子的居品,不会跟着其他 AI 居品的发布去作念任何的策略养息。

我以为居品团队更蔼然的事一些 Research 上的动态和进展,比如咱们想作念作风扶植、作风转移的功能,就会去查有哪些最新的学术推敲和论文,致使居品团队会加入 Research 团队的接头,去看研发功能的可行性。

《智能清晰》:居品团队在日常服务中是奈何和算法团队交流的?

Barkley:立项的时候,咱们会从用户的角度,以为作风鉴戒这样的功能很热切。

然则从 Research 的角度,其实他们不细目这个功能能不行作念出来,以及能达到怎么的后果。是以 Research 会先去作念许多的实验,直到他们把算法作念出来以后,咱们看到这个功能的极限,再去念念考奈何把功能融入到举座居品和体验上。

是以其实 Research 是一个愈加不细想法过程,往往需要相比长的时候,也不知谈要花多万古候闇练。

《智能清晰》:时期也会断念许多暂时不够好的功能。

Barkley:对。是以其实许多功能咱们会从用户的角度去想,有的功能 Research 团队能够在短时候内作念出来,有的功能咱们又络续插足,去作念更长的研判,体当今改日的居品里。

迎接交流!

迎接关注!欧洲杯体育

官网: www.kb-motor.cn

邮箱: 5c1c95cc@outlook.com

地址: 新闻中心科技园3095号

Powered by 万博正规(买球)下单平台·中国官方全站 RSS地图 HTML地图


万博正规(买球)下单平台·中国官方全站-欧洲杯体育Luma Photon-万博正规(买球)下单平台·中国官方全站