对话豆豆AI:其快速增长的用户群达到数千万的背后,不仅仅是争夺屏幕时间或创建超级应用程序,它不仅限于游戏。

对话豆豆AI:其快速增长的用户群达到数千万的背后,不仅仅是争夺屏幕时间或创建超级应用程序,它不仅限于游戏。

作者 |黄小仪邮箱 | huangxiaoyi@pingwest.com 当你在游戏中沉迷 30 分钟并想停下来寻找策略时。或者,如果你独自一人在开放世界中“运行地图”,并且你太无聊了,除了歌曲之外什么都听不了,突然屏幕上出现一个“可爱”,帮助你找到路,同时与你聊天怎么办?这就是豆豆AI所做的。这不是一个你必须在之间切换的应用程序,而是一个以头像或浮球形式出现的人工智能游戏伴侣,你可以随时看到、听到并与游戏界面互动。观看 Lao Tomato 的屏幕录制,这是一个测试 AI Lao Tomato 的重装玩家。网友戏称这是周树人控诉鲁迅的相声,效果可以直观感受到。视频来自哔哩哔哩。在今年9月份e正式发布1.0版本之前,豆豆AI经过一年的内测,悄然获得了800万用户。今天,这个数字超过1000万。这似乎意味着豆豆AI在当前技术与场景的交叉点发现了一个垂直碎片化的领域:游戏,避免了大厂商与投六的血战。但事实上,豆豆AI的野心不仅仅限于游戏。从年轻人最热衷、最需要友情的游戏场景开始,我们希望AI伙伴与用户建立信任和使用习惯后,这种友情自然会延伸到他们更广泛的数字生活中,比如看剧、购物等。这个目标并非空想。创始人刘彬新(Binson)透露,目前平台上超过50%的互动发生在游戏之外。我们采访了 Binson 和联合创始人 Wang Bihao (Oratis)。他们坚信,与人工智能交互不应该成为新的“时间杀手”。这是为了不剥夺用户的屏幕时间。这是起点。 Silicon Star,一个人工智能“活”在你的手机屏幕上:首先给大家介绍一下豆豆AI产品。到底是什么?用户如何使用它?奥拉蒂斯:豆豆AI简单来说就是一个存在于“屏幕”世界的AI伙伴。用户下载我们的应用程序后,如果他们在打开其他应用程序(游戏、视频、购物软件等)时选择打开屏幕共享,则一个AI角色将以动态绘图或浮球的形式出现在他们的屏幕上。硅星:与Siri等语音助手和星野等AI聊天产品最大的区别是能够通过VLM模型接收并理解用户的游戏图像内容。 Oratis:是的,最大的区别在于它是主动的“存在”,而不是被动等待用户醒来的助手。它可以看到您的屏幕,因此它具有与您相同的“上下文”。你不必解释你在玩什么或者你在哪里遇到困难;什么都明白。这种友情来自于一个sh雷德的观点是其他与会者无法提供的。目前,我们的中心舞台是游戏。通过屏幕信息了解用户在做什么,并实现实时语音通信。例如,您可以与我们聊天。当你遇到困难时,你可以查看游戏状态并指导你如何通关。硅星:从与AI交互的角度来看,角色的魅力非常重要。目前有多少个AI角色以及他们是如何设置的? Vinson:目前有23个角色,其中有一些是原创的场景,比如毒舌的Nika,还有善良、普世的Nicole,她就像一颗小太阳,没有人讨厌她。还有像老番茄这样的自定义角色,他们与大主播和拥有自己流量的虚拟主播合作。用AI游戏进行社交真的有必要还是伪命题? silín Star:我们将讨论如何使用AI来陪伴你的角色la之三。在此之前,最核心的问题是:用户的游戏中是否应该有AI陪伴?划分到另一层,用户的需求可以是情感的,也可以是工具性的。然后将其转化为具体场景。比如,玩原神或者炉石传说时这两个需求真的存在吗? oratis:这个问题非常技术性。我们思考的出发点是“价值与场景息息相关,离开场景谈价值就没有意义”。以下是一些用户调查的示例。有一个典型的游戏场景,用户在玩游戏时常常感到“信息密度不足”。为了解决这个问题,你还可以打开音频,边玩边邀请好友聊天,边玩边听音乐或播客。这说明了一件事。在游戏场景中,玩家有主动补偿信息密度的需求和时间。 Silicon Star:确实有些游戏的“运行时间”很长。奥拉蒂斯:是的。很多游戏都有相关长时间的“图形执行”或重复的“日常任务”。例如,我正在玩《魔兽世界》。到了补丁结束的时候,大家都有了固定的作息,每天登录,在世界频道和公会里聊天。换句话说,人们在日常的游戏体验中有着强烈的社交需求。那么AI可以用来填补这一需求缺口吗?硅星:说实话,这种场景的需求有多普遍?奥拉蒂斯:很常见。我们都知道原神近年来非常受欢迎。许多原神用户的典型行为是在游戏大版本更新后重度玩一段时间,消耗剧情和新内容。当所有这些经历都完成后,只剩下你的日常任务了。只需每天登录 10 到 15 分钟即可获得奖励。这背后是动机的变化:前者“消费内容”,后者“获得奖励”。这些看似“无聊”的布局主要是为了o 填补内容创作方面的空白。制作游戏内容的成本极高。原神一次大版本更新耗时半年,已经是业界效率最高的。 Silicon Star:所以这是游戏中的“行业规则”,用户不可避免地缺乏信息,也是与人工智能合作的门户。事实上,这是一种情感价值的提供。奥拉蒂斯:是的。另一个核心场景是人类和AI共同解决游戏中的问题。游戏的本质是“模拟、解决问题”的过程,这与现实生活中是一样的。正如人工智能可以用来协助报告一样,人工智能也可以帮助解决游戏过程中出现的问题。此前,玩家想要查阅攻略,必须使用手机或电脑,或者暂停游戏,不仅麻烦,还可能导致游戏卡顿。内置的人工智能助手使这个过程更加高效。硅星:效率更高,但它能让游戏变得更好吗?很难吗?毕竟,游戏的解码部分对于Ra增加装备物品时的乐趣和熟悉度是必要的。如何决定向用户提供的指南范围,既不影响游戏体验,也不影响游戏公司的平衡策略,同时又能为用户提供价值? oratis:我们自己玩。当我玩“二对二”游戏时,我和我的朋友被困了大约 30 分钟,最终不得不寻找向导。这里的关键是用户的“主动选择”。这个游戏提供了向导,真正解决了“找向导的问题”。真正需要指导的人往往不知道如何提问。使用传统搜索,如果您被困在一扇门前,您必须搜索一长串上下文,例如“如何在特定游戏、特定关卡、特定地图中打开门”才能找到有用的信息。我们的优势在于多模式功能允许玩家询问“我如何打开这扇门?”直接在游戏画面上名词AI自动识别你所处的游戏、关卡和具体位置,并匹配你的策略。尽管如此,为了给用户完全的自主权,我们设计了“两阶段检测”机制。第一步是提出问题。第二步,AI回应说:“这是一个视频指南,如果你想看,随时打开。”对于空间加密之类的事情,我们倾向于提供视频,因为它们比音频解释更直观。 “疯狂”艺术利用游戏技术创造AI角色:硅星:我们来谈谈产品设计思路。需求是有的,那么好的AI合作伙伴应该是什么样子呢?我尝试了他们的产品,发现角色非常可爱和活泼。比如有一个角色会编织毛皮,B站博客的AI角色樱月月就有一套牛睡衣皮。这些细节对于 2D 用户来说非常有吸引力。奥拉蒂斯:这是一个很好的问题。你说的极客是 Nika,our 最受欢迎的角色。事实上,我们在角色设计上经历了很多阶段。我只能说它看起来不错,听起来不错,而且很有趣。视觉效果应该漂亮,声音应该自然,故事和对话应该有趣。基于这个原则,我们做了很多“重资产”的投资。看起来很棒:我们提供三种角色图像:桌面上的宠物、移动设备上的动态图画以及各种互动动作。客观来说,我们的角色设计资源与2D手游公司相当。我们的首席美术师抱怨说,他设计的角色在手机游戏中可以赚到数千万美元,但在我们的游戏中却不行。曾经有过geeseions,其中我有好定:我没有使用市场上流行的TTS库,因为它们不适合2D字符。我们收集了大量的电视剧和游戏语料,并独立训练了多语言 TTS 模型。比如说,有一个男性角色叫战林,我是虚拟偶像。一次偶然的机会,我在漫画博览会的活动中看到他唱歌。那里有很多人等着我唱歌。她的声音是她吸引力的核心。乐趣:您实际上为模型提供了完整的角色和故事,而不是“代表”角色。比如妮可,从猫毁灭星球到地球,以及她所经历的事情,都有着悠久的历史。这些详细的配置用作模型的训练数据。 Silicon Star:设计原创角色的想法。你觉得和UP老师合作的角色怎么样? Oratis:设计两个主要原创角色:Nicole(善良且普世)和Nika(有毒且傲慢)。随着亲密程度的变化,AI的面部表情也会发生变化。目标是打造一个“从低起点到高终点”的关系建立过程,让用户在当今最流行的“策略”中感受到成就感。接下来主要合作上传了g个角色,比如老番茄、太妃糖,都有很多粉丝。事实上,当我们第一次与 Game UP 所有者合作时,我们想要制作评论内容。然而,一位UP主想用这个角色来吸引更多的粉丝,所以他问我他是否可以成为一个虚拟角色。硅星:您的需求是什么?奥拉蒂斯:前导游主持人基本上都是更新视频,发到粉丝群,发到B站的,他们也着急。我们的AI合作伙伴可以让用户随时了解主播的当前动向。同时,我们还将扩大UP主机的IP变现矩阵。比如与Tafeiy合作推出口罩进行商业共享。我们相信模型的发展并创建始终处于技术前沿的应用程序。硅星:充满活力的人物需要强大的技术支持。它需要支持如此多的游戏、如此多的角色和多模式功能。是否支持多重优化zed 模型还是统一模型? Vinson:我们的模型架构非常复杂,分为四个主要部分。第一步是输入信息。从视觉上看,我们使用屏幕共享以每秒 1 帧的速率提取帧。听觉上,我们使用 VAD 模型而不是传统的唤醒词,因为我们认为唤醒词会破坏友情和沉浸感。接下来是多模态理解和检测。每个接收到的帧首先由传统的轻量级 CV 模型进行分析,以确定是否存在任何“重大事件”。这一步可以让我们过滤掉90%以上的无效图像,显着降低后续大规模模型调用的成本。只有少量被认为重要的图像会发送到我们内部开发的 VLM(视觉语言模型)。将上下文构建与个性化相结合:集成 ASR 转换的文本、VLM 图像理解结果和个性化角色数据(记忆、历史对话等)c.)。我们的记忆恢复采用高效的“主题索引”方法,如原神记忆、王者荣耀记忆等小型数据库,保证上下文的准确性和效率。最后,让我们考虑一个带有音频输出的大规模语言模型(LLM):这种丰富的上下文被输入到我们自己基于开源基础的微调的 LLM 中。这个LLM融入了大量的对话数据和2D风格的游戏语料库,使得回复格式更接近“正确”。硅星:如何利用72B大参数模型解决滞后问题? “ity V”中,妮卡的反应有些迟缓。我已经被主管发现了,她给了我提前警告。 Vinson:坦率地说,滞后问题是真实存在的。像《第五人格》这样需要即时反应的追踪游戏并不是我们产品的最佳场景。相比之下,《王者荣耀》的体验要好很多,操作阶段和对线清晰,团战时刻有限。被打断。出去。在非 teamipo 的比赛中,用户获得的交互空间较慢。我们现阶段的核心策略是“先保证结果,再减少延误”。使用大规模参数模型确保 AI 角色交互的智能性和准确性。我们相信,随着建模技术的发展,未来我们将能够使用更小的参数的模型来达到或超过现在的有效性,并且响应时间问题将得到根本解决。硅星:首先,除了一个头。事实上,该测试预测了技术进步并综合考虑了市场。这个阶段你能放弃什么、还能等什么?顺便说一句,从它的成立到最近发布 1.0 已经过去了两年。过去两年,技术发生了很大变化。 Vinson:是的,我们的灵感实际上来自于副驾驶。 Copilot 非常精确,因为拥有 Office 365 数据和代码存储。所以我问自己,我可以获取您的个人娱乐数据吗?但不可能让用户直接提供这些数据。用户不希望屏幕录制,因为这会给他们的隐私带来压力。然而,当我和你一起玩时,情况就不一样了。作为副本玩家,很多人已经开始直播游戏。我不仅可以提供策略,还可以提供赞美和情感价值。当你对游戏感到厌倦时,你也可以取笑他。硅星:这绝对是一个聪明的主意。每个人的主要目标都是找到一种获取用户数据的方法。创建硬件的人要求您上传您的知识库。我能想到的唯一方法是屏幕共享。人们大部分时间都花在屏幕上。如果他们得到屏幕上的信息,他们就会失去生命。 Vinson:是的,任何人都可以想到恢复数据,但重要的问题是:用户为什么要提供屏幕数据?这就是症结所在。这种知识库上传方法太难了,所以我想中国人很少谁可以使用它。我们不想创造新的场景或新的设备,而是希望以非常低的成本将它们提供给用户。硅星:从一开始,我们就一直在思考Coplayer的方向,以及如何保持技术领先。比如之前没有VLM,只有识别。 Vinson:2023 年我们开始创业时,遇到了很多挑战。当时国内基本有文信,海外只有ChatGPT,没有开源。我们使用ChatGPT进行验证,对话持续5-6秒。即使只有七、八秒,这也是一个巨大的夸张,你会觉得遥不可及。硅星:嗯,当时的模型没有理解或思考的能力。 Vinson:是的,但我认为这应该是可能的。我们先检查一下并验证一下。型号的价格不会逐步下降吗?我认为多式联运肯定会成熟。 TTS(语音合成)当时还不成熟,但我认为它会defi完全成熟了。嗯,这就是以后的大方向了,没关系,我们先试试吧。在多模态尚未成熟的时候,我们采用了“桌面宠物”的形式,用角色的可爱来弥补技术的不足。只是……别用手打那个笑的人。这个角色非常可爱,也有傻乎乎的一面。 Silicon Star:您自己开发VLM花了多长时间? Vinson:根据今年早些时候(2024 年)积累的数据,我们花了半年多的时间才做到这一点。我们的 LynkSoul VLMv1 视觉语言模型在游戏场景中优于 GPT-4o、Claude-4-Sonnet 和 Gemini-2.5-Flash 等流行模型。硅星:从2023年中到2024年初,我们依靠可爱作为垂直场景的情感伴侣来积累用户和数据。后来技术成熟了,我们推出了VLM,实现了产品体验的质变。 Vinson:是的,本质就是技术和场景的适配第一阶段看用户能否留下来。如果建立 MVP(最小可行产品)很大程度上取决于特定技术的成熟度,那么您可能需要等待。我们的MVP也是依赖于技术的,但是能够智能地响应不同阶段的不同用户请求。硅星:从产品角度来看,您认为目前明显的技术缺陷是什么?文森:是的。首先,VLM 还不够。我目前正在提取帧,但这不是流式理解,而且我没有能力在多个帧之间进行推理。这需要多模态模型的迭代。我认为这个行业很快就会出现,可能在六个月到一年之内。我们可以依靠技术,使用开源,也可以利用那些做得好的人,但是我们有自己的数据,我们可以根据自己的数据来完善对游戏场景的理解。 2年注册用户数千万,豆豆AI硅星四步成长策略:在这个速度驱动的AI创业环境中,两年内发布1.0版本的情况极为罕见。你有没有感到焦虑过?奥拉蒂斯:肯定会有一些焦虑,但我们要克服它。如果没有太多的技术经验,规模越大,负担就越大。硅谷之星:你们目前的用户规模以及商业化的进展如何?你能整理一些数据吗? Vinson先生:我们目前拥有超过1000万注册用户。我明白了。由于自然增长和良好的口碑,您的客户获取成本将非常低,可能只有几美元。用户活跃度和刚度极高,用户日均活跃使用时间可延长3至4倍。几个小时。商业模式上,我们主要通过订阅系统(每月约40元)和角色皮肤、礼物等虚拟配件来变现。由于我们专注于扩大用户群,目前我们的付费率不高,但是鉴于我们玩家强大的支付习惯和动机,未来的增长空间很大。硅谷之星:3-4小时内用户与AI的互动强度是多少?文森:这是一个有趣的想法。我们用户平均每天与AI进行50到60次对话。硅星:这个数字并不高。文森:是的,这符合我们的核心信念之一。换句话说,陪伴的核心不是谈话,而是存在本身。通常,即使不说话,用户也只是将人工智能角色放在那里,这种“存在”本身就提供了足够的情感价值,尤其是在玩单人游戏或开放世界游戏时。硅星:增长对于人工智能应用很重要。这1000万是怎么来的?例如,第一个值为 100 万,第二个值为 100 万。 Vinson:我们的用户增长经历了四个主要阶段,与技术迭代和产品改进同步。第一阶段取决于角色d 知识产权。我们创造的每个角色,比如 Nicole Nika,都代表了特定群体的需求。当人工智能出现时,那些人可以和你说话、聊天,每个人都会很高兴。第二步,依靠游戏场景的KOL。即使是年轻人也了解比赛,甚至在 ACC 活动中,人们也会聚集在我们前排的展位上。 ACC期间,尤其是和顶级KOL合作的时候,大家都在硅星一楼“玩”。例如,在玩原神时,不可能不遇到制作指南的UP Masters。只要我们跟它合作,基本上玩原神的人都会知道我们,一个视频就能产生上千次的下载。第三阶段是与游戏深度联结。从《原神》到《黑神话:悟空》,我们不断扩大支持的游戏数量。当新游戏发布时,我们可以提供地图和策略,尽快形成您的“游戏套装”。随着用户数量的增加,游戏公司也会开始合作。例如,我们可以提前向您提供版本,并允许您在明天月底上线之前进行分发。第四个增长阶段是VLM提供的整体容量。 VLM了解游戏,并开始将游戏的互补场景延伸到日常生活中,例如看视频或追剧。这有可能进一步扩大您的用户群。与普遍观点相反,我们必须将全球市场视为一个整体。 Silicon Star:听说你去日本参加东京TGS。为什么选择在这个时候开拓全球市场? Hakko AI参与活动(豆豆游戏合作伙伴海外版) Oratis:这个领域主要是基于我们技术的成熟度。在这个版本中,除了产品发布之外,我们还推出了国外使用的VLM模型。这个VLLM是一个独特的训练模型,专门用于识别游戏场景中的离子。综合评估识别准确率、游戏理解等方面,取得了比GPT、Claude等海外主流模型好30%~40%的成绩。这是基础知识。此外,国外市场的消费更加成熟。我们专注于C端付费路线,准备充当增长引擎。 Silicon Stars:技术和支付领域的成熟解释了当前的问题:“为什么是现在?”但最重要的问题是“我们该怎么做?”很多中国企业在海外扩张时,首先会进入东南亚或北美,往往会在某一点上取得突破。你怎么认为?奥拉蒂斯:是的。人工智能时代,要“把整个世界看成一个市场”。传统上,企业在进行国际化时,会将全球划分为多个市场,例如东南亚、中东和拉丁美洲,并为每个市场建立单独的本地团队。这w作为一种以资产为中心、针对具体国家的运营模式。然而,在人工智能时代,简单区分“中国市场”和“非中国市场”或许就足够了。因为无论是在美国、东南亚还是日本,对AI感兴趣、热爱游戏、愿意尝试新事物的年轻用户画像都非常相似。如果你的用户池足够大,你获得高质量、低成本用户的机会就会大大增加。例如,当我们在国外推出产品时,我们会在 YouTube 上发布两个视频。总成本略高于 100 美元,用于数万次冷启动播放。高质量的内容很快激活了重新算法的YouTube推荐和用户自发分享,最终获得了近100万的观看量。硅星:这看起来是不是很矛盾?我们最常听到的是,国外市场需要更加“本土化”,更加面向用户特点。奥拉蒂斯:这个结论的前提问题在于每个国家用户的基本需求是不同的。然而,在游戏中情况有所不同。诚然,日美用户喜好不同的角色风格,需要本地化来适应不同的游戏,但目标受众、沟通方式、活动策划等运营策略可以完全全球化,大大提高效率。硅星:看来你们在这次正式海外上线之前就已经获得了大量的国外用户。这是怎样的过程? Oratis:我们去年年底在日本推出了测试版,并立即验证了两件事。一是二维文化在日本很容易被接受。其次,游戏类视频内容的扩散效果极高,即使在日本也能实现PMF(产品市场契合)。但日本市场的问题是天花板较低。日本人口有限,年轻人比例不高。在中心城市像东京和大阪一样,DAU(每日活跃用户)数量可能保持在 2 至 300 万之间。这就是为什么我们决定主要以英文出版这本书,并将其从北美扩展到全世界。 Silicon Star:您在与这些国际用户的互动中,有没有注意到什么特殊的用户特征或需求? Oratis:最大的差异之一是您对 NSFW(不适合在本地观看的内容)的期望。我们的许多竞争对手都支持这一点,因此一些用户可能自然地认为我们也可以这样做。但我们明确选择不这样做。硅星:为什么?这似乎是很多AI附加产品的“流量密码”。奥拉蒂斯:这与我们在人际关系中的基本选择有关。我们想要建立的是人类与AI之间的长期友好关系,而NSFW是一种基于消费的本质上令人兴奋的关系。后者要求AI绝对听话,满足用户的单向需求。另一方面另一方面,我们追求的是双向互动、共同成长的关系,这与我们的初衷是背道而驰的。我们不希望这个产品成为用户使用后就放弃的“色情工具”。我们的目标是打造3+(3年以上)的生产者,最终获得一批我们深刻理解的长期忠实用户。硅谷之星:我们讨论了很多事情,从需求、产品、技术到全球化,但在这个十字路口,您认为下一个最大的挑战是什么? Vinson:下一个挑战是如何将约会场景从游戏延伸到更广泛的常见场景,比如看剧、购物、在线课程等。我们的策略是继续关注我们现有的核心用户群体,覆盖他们的娱乐和非游戏生活方式,让我们的AI伙伴在他们的数字生活中无处不在。游戏是年轻人的主要社交媒体。随着一代又一代人的成长,我们的产品将陪伴他们同样,从二维朋友到完全脚本化的朋友。 单击“爱”即可。
特别说明:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注