随着 AI 视频生成技术高速发展,2023年陆续出现了如 Gen-2、Pika 等受用户欢迎的产品,OpenAI 发布的 Sora 再2024年又带起了新的一波热潮。尽管目前大多数工具生成的视频长度较短,质量参差不齐,角色一致性等问题尚未完全解决,但技术的进步表明我们正处于一场变革的早期阶段,这为新进入者提供了市场机会。
Higgsfield AI 是一个 AI 驱动的视频创作和编辑平台,旨在通过其应用程序 Diffuse,使用户能够通过单张照创建高度个性化和逼真的人物角。该产品特别关注社交媒体视频创作,让普通用户、社交内容创作者以及希望脱颖而出的社交媒体营销人员能轻松、精确地将创意愿景变为现实。熊猫体育官网
01 觉察 AI 视频生成产品痛点,发布首款视频生成APP,目标实现视频创作普及化
现如今,各个领域的 AI 应用都在不断涌现,OpenAI 所推出的视频生成 AI 模型 Sora 更是一举引爆科技界。Sora 可根据文本信息生成时长一分钟的高保真视频,还可以对视频色彩风格等要素精确理解,创造出人物表情丰富、情感生动的视频内容。然而,Sora 目前尚未对公众开放,OpenAI 似乎将该产品定位于资金充裕的创意人士,而非业余爱好者或小规模营销人员。
因此前 Snap AI 负责人 Alex Mashrabov 察觉到了机遇,并创立了 基于 AI 技术的生成式视频初创公司,专为开发量身定制的个性化应用而设计的 Higgsfield AI。目前 Higgsfield AI 已经推出了第一款 APP 应用程序——Diffuse。不同于 Sora“高端定位”,Higgsfield AI 致力于实现社交媒体视频创作的普及化。他们的长期目标是为创作者和企业建立专业级视频营销平台,以及一系列消费产品。“我们的目标受众是各类创作者,从希望与朋友们分享有趣内容的普通用户到愿意创作新内容的社交内容创作者,再到希望他们的品牌脱颖而出的社交媒体营销人员。”创始人 Mashrabov 表示。
Diffuse 是一款用于视频生成的移动端应用程序,主打提供无与伦比的个性化和控制,生成逼真的人物角色和动作。Diffuse 允许用户从预设的视频资料库选择或本地设备上传视频图像。仅通过上传一张,用户就可以将自己置身于各种 AI 场景中,并模仿任意指定的动作。此外,Diffuse 还包含一个内置的提示词生成器,允许用户描述期望的生成的视频内容,实现创意控制。
“我们的模型支持高度逼真的动作和表情,”Mashrabov 说。“我们正在建立面向消费者的‘世界模型’,并开发一流的视频生成和编辑功能,并具有很强的控制能力。”
Higgsfield AI 所使用的视频模型是基于 Transformer 的扩散模型。值得一提的是,该模型是由一个仅 16 人组成团队在不到 9 个月的时间内开发出来的。整个模型的训练仅仅使用了一个由 32 块 GPU 组成的集群。相较于 OpenAI 训练模型所需要的成千上万的 GPU,这无疑是极为低廉的算力开销。
创始人 Mashrabov 认为,缺乏获取途径、技术知识或资源不应该成为实现内容创意的障碍。因此,Diffuse 在上线之初便提出了“移动优先、社交前瞻”的市场战略。“通过优先考虑 iOS 和 Android 应用程序而不是桌面工作流程,我们使创作者能够随时随地创建引人注目的社交媒体内容,”Mashrabov 说。“通过在移动设备上开发应用程序,我们从第一天起就优先考虑功能的易用性,以及是否对消费者友好。”
生成式 AI 都不可避免地存在一个问题:它们可能会“复现”训练数据,从而引发版权问题。Higgsfield 目前尚未透露训练数据的来源,以及是否会保留用户数据以训练未来的模型。不过,Diffuse 的用户可以随时请求删除他们的数据。
此外,像 Higgsfield 这样的数字克隆平台也容易被滥用。例如,只需上传某人的舞蹈视频,即可生成自己表演相同舞蹈的视频,这将使得人们的创意更容易被盗取。当被问及 Higgsfield 可能采取了哪些预防措施来防止滥用时,Mashrabov 声称平台采用了自动化和手动审核的组合方式。他们决定逐步推出产品,并首先在选定的市场进行测试,以便监控潜在的滥用情况,并根据需要对产品进行改进。
事实上,目前已有多家公司入局在视频生成领域并相继推出产品。Runway 是最先推出视频生成应用的公司之一,在 Sora 横空出世之前,Runway 一直被视为 AI 视频生成的第一选择。Pika 模型极大程度降低了视频生成的使用门槛,凭借着极高的语义理解准确度和画面的精细程度,远超行业预期。此外还有 Haiper,它由两位前 DeepMind 团队成员创立,并获得了超过 1300 万美元的风险投资。
为了赶在竞争对手前一步,Higgsfield 计划将种子轮融资用于改进视频编辑器,赋予用户更多的视频编辑能力。此外,Higgsfield 还希望训练更强大的视频生成模型,专门用于社交媒体应用场景。这一举动与他们将社交媒体营销视为主要盈利市场相关。同时Higgsfield 已经在 Apple Store 上架 Diffuse 应用程序,并在加拿大、印度、菲律宾、南非以及一些中亚国家展开推广。而且目前,Diffuse 的提示词生成功能也已推出付费订阅模式。
此外,Higgsfield AI 宣布与 Google Cloud 达成合作关系。一方面,Google 的 Gemini 大模型可以生成高质量数据,可用于 Higgsfield 模型的训练。另一方面,强大的谷歌云基础设施建设使得 Higgsfield 拥有高度可扩展的 GPU 集群,最高可节省 13 倍推理开销。未来,Higgsfield AI 将和 Google Cloud 一起,致力于制定 AI 安全性标准和开发水印技术,以限制恶意内容的生产和传播。
而 Higgsfield AI 的联合创始人和 CRO 则是 Yerzat Dulat,他的人生目标非常简单直接——创建一家市值数十亿美元的人工智能公司。