正文
首页-傲世皇朝注册「首页
作者:an888    发布于:2024-01-05 23:45   

  首页-傲世皇朝注册「首页目前已知的被人类称为算力平台的产品仅有两个,PC、智能手机。人类当下多数人寄希望于XR能担当起第三次算力平台产品的重任,而我认为只有通用机器人才是人类第三次算力平台产品,而XR因为是通用机器人的一个交互配件产品而获得持续性销量增长。原因如下:

  算力平台是指产品具备强大的终端算力,能承载庞大的生态开发者的应用,来持续拓展更多的使用场景,满足十分繁杂的用户需求,并且从理论上只要算力不断升级,貌似这些拓展没有上限。但总体来看,算力平台是一个智能产品的结果,而不是开始,PC最早是办公场景,交互配件为鼠标、键盘,随着软件应用和网络信息服务不断丰富,拓展到娱乐、支付等更广泛的场景。然而近几年PC销量快速下降,手机销量超过PC销量并且还在上升。PC目前和未来除了办公和端网游,其他的场景逐渐趋弱。智能手机的场景起步于通讯,经过十几年发展,除了通讯,目前娱乐、支付等都是强势的场景,这些主要的场景都曾经在互联网时代由PC领导过,而随着智能手机更为庞大的生态应用和设备移动便携特点,迁移到了智能手机,并且称为移动互联网时代。

  我们看到算力平台产品品类诞生最初并不是多场景的,但随着算力和所有其他能力的增强,不断拓展场景,最终完成广度和深度的充分延伸,获得巨大销量规模的同时,完成了与人类紧密结合不可分割的同化现象,这个结果被称为算力平台产品实现。

  为什么XR不能成为算力平台产品?这里涉及到一个事实推导:自从2013年智能硬件风潮兴起至今十年,除了智能手表销量稳步增长,每年稳定超过1亿台,其他富应用的智能硬件全部失败。当然还有些细分行业的富应用智能硬件有稳定的销量表现,例如智能音箱、智能乐器等,但规模与智能手表比是天壤之别。通过现象洞察本质,可以看到人类对于身上佩戴带电的智能产品似乎有着某种定律,这就是若无必要无需增加。智能手表之前经历过机械手表、电子手表的教育,品类出场的场景仍然是单一的刚需:时间。智能手表除了满足刚需场景,还有一个很重要的维度属性:价值彰显!将几百万元的瑞士名表功能覆盖并超越并且仍旧保持了高调高价值的品牌归属感,无疑苹果手表做到了,这也是一种品类性价比。这种品类性价比成功范例都是无比神奇伟大的产品,例如特斯拉将传统跑车的性能和品牌高端价值圈层复刻,却用电车技术把价格降到普通人买得起的程度,这也是品类性价比的成功。

  以此推断XR前身是眼镜,但眼镜的品类刚需是眼病,最广泛的是近视眼,人类并不是天生近视,这属于没办法的“刚需”,随着现代激光手术和各种医学技术发展,近视眼被治愈抛弃眼镜是稀松平常了;其次眼镜的奢侈品时尚属性要比手表弱太多,不足以产生品牌高价值圈层。于是两个基本消费支撑逻辑都是薄弱的。所以作为单独的算力平台产品,我个人观点是不能实现的。

  但XR的技术发展是人机交互的一个重要方向,尤其是视觉为主的各种感知技术,将是直接复用到通用机器人的很核心的技术。并且XR本身也会成为开发通用机器人和普通人使用机器人的一个重要的配件产品。这点我们以后详细展开。

  综上所述,引申出第一个产品定义的核心问题:通用机器人的品类出生场景是什么?在回答这个问题时,我们不得不还是要回到历史去找逻辑。我们说的PC、智能手机的成功是消费级产品,也就是非专业普通大众为购买者和使用者,而场景的诞生,并不是消费级产品所创立的。每一个新的重大技术的出现,都会遵循五阶段顺序落地:军事、商用、娱乐、消费、教育,并不会因为人们的努力跨越阶段。

  电脑被发明初衷就是军事中加密解密需要,在PC落地办公消费产品前,IBM早已普及了算力中心的商业应用,PC刚出现只是这种应用的延伸,办公场景准确讲是商用大场景中的细分场景,PC刚开始也是公司采购为主,而让PC破圈的就是娱乐,其中最强的细分场景就是游戏,再后来才逐步有了更为广泛的场景支持,进入消费刚需品范畴。而智能手机前身更为久远,因为通讯技术最初也是军事上的刚需,经历无线电时代、互联网时代到移动互联网时代,逐步在商用、娱乐、变为消费刚需品。智能手机起步时至今,算力和同价位的PC相比,都不能算强大超过,但这个品类一开始就解决了个人随时随地能通讯信息,而PC这个品类无法做到,只能看着手机逐步增长,并且一步步把PC的主流场景兼容并取代。

  所以从五阶段看,很容易观察到,通用机器人,尤其是双足人形机器人,最初是为了军事上替代士兵的一种地面战争机器,现在各家人形机器人第二波浪潮,开始深入各种商业行业场景落地,最典型的是2021年特斯拉发布擎天柱,那个时候产品定义是替代人去人不愿意去的危险的工作,和重复枯燥的工作,也就是通俗理解的工厂替换人类工人来拧螺丝。当然大家已经知道了今年8月21日,特斯拉更改了擎天柱的产品定义,变成了居家伴侣,是的,这是我三年前做的通用机器人产品定义,被传递到了特斯拉那里,但是实现周期还需要很多年。因为这是消费级的产品定义,已经变成算力平台产品了,我们看如果不经历娱乐场景,是不可能跳跃发展到消费阶段的。

  这个答案是不是和PC、智能手机的逻辑好像有点不一样,虽然也是从军事场景延伸来的。其实逻辑一样,只是对工具的定义认知需要拓展。从人类使用者的角度看,PC、智能手机都是服务于人的工具,而你说通用机器人是替代人执行任务,这不是替代人了么?延伸到科幻终点,也许是的,但是在通用机器人还是一种产品的时代,仍然是一种工具,为什么说工具的定义需要拓展?我们大家公知的机器都是工具,但是还有一种公知不容易察觉,那就是人类创造的公司内或组织内的各种职务职位,也是工具,担任职务职位的人,我们俗称“工具人”,所以人在公司或组织内工作,其实就是实现组织目的的一种工具。所以通用机器人更简化的称谓应该是“智能工具人“,再简化应该是“智能人”。就像智能手机,个人电脑,这些名词都具有人体的某些器官,不是纯机器的称谓。

  有了这个场景定义后,相信很多人突然会联系到这几年火爆的AI数字人、虚拟人,没错,他们的前身有很多为了替代真人的应用,例如智能客服。这些纯软件的技术都是为以后实现通用机器人必须要素。我们还是回到历史看,电脑最终落地到消费端,实际上是OS系统的成熟,智能手机也一样;而在时间上,软件设计和体验要求是远远领先于硬件产品的,比如每次游戏大作发布的时候,甚至当年的旗舰显卡都无法胜任最佳性能要求,而软件定义的硬件又成为超前和更为强大的产品,例如苹果iOS与Mac OS分离,才决定了智能手机的品类出现和胜出。而历史上每次高维技术的出现,都会诞生新的硬件品类,或者将旧品类用新技术重塑为新品类,例如小的OS驱动了手表变成智能手表;AI语音技术驱动了音箱品类变成智能音箱;而这几年大模型技术一定会驱动更大的硬件新品类出现,这就是具身智能,其中最典型的就是通用机器人,而其中最典型的形态就是双足人形机器人,这一次是把“工具人”这样的旧品类变成了“智能人”这样的双足人形机器人。

  回到品类出生场景:替代人执行任务,这个需求要远比信息加密解密和通讯更古老、更普遍,如果能完全实现,那么这个产品的商业规模一定会超过PC、智能手机。

  自从1992年波士顿动力开启强动态的人形机器人与四足机器人的历史,到今年出现大模型的典型应用ChatGPT,随后大语言模型在机器人训练上展现出突破性的效果,这一刻让我想到了冯诺依曼发明现代电脑的时刻。在这里也回忆和记载我在2020年研究AI和机器人的时候,洞察的一切,今年都发生了:

  3、2020年已经有一些AI代码生成的工具出现,机器控制也是通过代码实现,AI完全可以输出机器控制代码,输入端用视觉理解,就会出现通用机器人。

  这也是为什么2020年10月27日,我在我自己生日的那天凌晨,写下知乎的第一篇通用机器人的文章。我那时遵循第一性原理理解AI,只要算力、能源增长,模型无限膨胀,就可以实现智能的宏观现象,但是大家众所周知的原因,并没有人愿意为ROI不确定的探索付出宝贵的赚钱的时间。另外这种跨界的探索,对于典型的技术驱动的工程师意味着巨大的职业风险,绝大多数人希望在一个特定的技术行业里发展,例如AI模型工程师习惯于在电脑、手机平台上做音频、视觉、或NLP的深入的研究,而用模型驱动机器人,如果做不出来,再也找不到工作了。综合的原因,我也不敢背负巨大的GMV实现目标,也没有可以认同并探索的团队,导致这个方向不了了之,但念念不忘必有回响。

  我知道这个世界依然还是有很多愿意探索未知的人,所以写了文章,后来我在国内找过几家机器人,准确说是机械臂公司,也找过AI公司,因为做模型训练实验是成本巨大的,没有任何人愿意尝试。再次不得不也感谢一位投资人,他把我的产品设想和框架探索的方法传递到漂亮国的AI专家那和知名的公司,google、openAI、特斯拉,一些愿意尝试跨界探索的,甚至是科学家,都在实验用模型驱动机器人,也取得了令人惊奇的效果,开启了模型驱动机器人实现通用具身智能的时代,而他的理想是成为通用机器人时代的巴菲特,也恭喜他参与了众多投资AI驱动人形机器人的case。也感谢他和另外的朋友愿意让我去漂亮国参与机器人AI模型的创业。

  在文章中我预见2025年才会出现通用机器人,我并不是自负说我和那位传播者是关键,我相信同时代这么想的人肯定还有,虽然不多,但有几个人就足以了,我们都是通用机器人出现的加速者,这个伟大的产品,我们并不能创造和拥有什么,只是加入这个历史潮流,添砖加瓦。但不可否认内心还是有种高兴是来自于通用机器人的诞生我们都参与了,我策划过很多跨界产品,这也是最复杂和最神奇的跨界产品。本文我希望能把我对通用机器人的完整的逻辑和定义,以及可能的实现方向尽力叙述,以启发更多的创业者共同加入这个可能会改变文明的方向。

  回归主题,那现在基本可以确认,通用机器人的构成是有硬件+大模型+技能生态构成,当然早期不可能有技能生态,也不能有开发者放弃PC、手机的存量诱惑来开发通用机器人的生态,而且技能生态的前提:统一的开发逻辑,并没有出现。这个具体稍后再讲,Roadmap我们只讲宏观。

  这里我做一个合理假设,参考马斯克以往的创新创业经历,paypal、spaceX、特斯拉等,从发布idea,到商业大获成功,至少需要十年时间。太遥远的科幻需要的时间和资源无法粗估,太短期的商业门槛又不高,很容易陷入竞争和行业衰退期,所以选择7-10年才能做成的项目,能确保早期没有很强的竞争者,甚至连做的人都没有,从而能深耕壁垒,发展期就能独占鳌头。

  这次人形机器人擎天柱是2021年发布idea,如果也需要十年商业大获成功,那么这个时间就是2031年,通俗意义上如果取得100万台的销量,就算是商业成功了,所以我在Roadmap上标注了这样一个里程碑。

  在同时期,从对PC、手机等行业的分析,一定有众多的跟随者、模仿者、和蹭概念者,所以一定会复现PC、手机行业的演化格局,本人预测甚至全球做具身智能的公司将达到上万家,之后又是开始行业集中度逐步提高,中小玩家逐步离场,存留下来少数品牌,形成较为稳定的竞争格局。

  在这种竞争中,我们要回到产品定义看决定产品体验核心的并不是单纯的硬件,而是软硬件结合的体验,其中大模型是类似传统智能硬件OS的存在。那么谁拥有机器人大模型开发与迭代能力,谁就拥有通用机器人的核心话语权,其次是大模型驱动配合的硬件及供应链能力,所以这个创新产品类似苹果,但又不是苹果现有的资源所能为的。如果乔布斯对苹果的定义是一家软件公司生产的软件体验定义的智能硬件产品,那么通用机器人的准确定义应该是一家AI通用大模型公司生产的AI体验定义的类人智能硬件产品。

  在此肯定很多朋友会问,为什么一定要用大模型驱动,用传统算法控制不行么?其实并不是用魔法打败魔法,我这么定义是有一个底层的逻辑:如果是toB的机器人,因为使用场景特定,工作流程特定,操作体验也是明确的,更偏重于自动化解决方案,其实传统自动化机器已经解决的很好了,没有必要用人形机器人;传统机器在用AI赋能后,不用大模型,用强化学习的小模型已经能很好解决问题了。另外toB的场景很多需要100%的任务完成度,不能有闪失,所以专用算法更适合,而不是通用模型。那么看C端,尤其是消费级,可以说场景是远比PC、手机更多的,这样几乎无限的场景,不固定的需求,怎么可能用人工代码的方式来实现呢?如果人工做,这是无底洞,先不说成本了,就是整个微软公司的程序要来做,都是做不完的。所以是从最开始就要放弃人工做的想法,建立机器自动策略的模型,并不断完善模型,才有可能落地C端。另外就是C端消费级场景,相比工业商业场景,需要足够泛化的能力,但不用需要100%的任务完成率,在软硬件上有降规特点,从而也能降低成本和价格,换得更大的销量,各方受益。

  我们暂且称能驱动机器人的大模型为:具身智能大模型。这个目前Google的RT-X已经是截止到现在的最新最强大的模型了,但肯定离实用还远远不够。现在的关键,尤其是中国,还没有团体足够的重视具身智能大模型的开发,大量的优秀人才都在屏幕的世界卷AIGC,至于这些内容创作能否帮助人类文明推进,似乎没有答案。而传统机器人行业的团队,统一在等待西方国家发布一些开源模型来尝试复现,并且这种等待投喂的策略,注定也会把硬件产品创新滞后,因为这一次大概率是软硬件结合的创新,没有软件定义先导,硬件存在代际的滞后。我甚至会说出,别忘了,有的人沉浸在互联网的黄金时代,而错过了整个移动互联网,而这次很可能又错过具身智能的时代。

  我们看一下场景变迁:从已知的波士顿动力开始,已经渡过了纯军事场景的时期,现在是人形机器人的落地行业商业的时期,这个时期,很多人形机器人硬件公司,在无需大模型驱动情况下,找到一些行业场景是可行和现实的,国内也有几家有些销量的。并且这个时期最典型的矛盾是人形机器人与其他形态的机器人,竞争优势不明显,甚至有些做人形的创业者因为回答不了商业客户给他的问题,为什么不用其他运动底盘,一定要用双足,也回答不了如何完成100%任务完成率,进而改变了硬件形态,甚至为了接单,放弃了人形。但正是因为这样的矛盾挖掘,使得人形机器人真正地发展,和与专用机器人逐渐划清品类界限,教育所有人逐渐开始认知通用机器人的定义,与其他机器人的区别。

  接下来一个浪潮就是具身智能的娱乐大时代,除了智能宠物和各种有主动策略模型的智能硬件产品开始出现,人形机器人当中的仿真机器人开始登上娱乐新闻媒体,仿真机器人负载低,但拥有足够亲人的外观,并且率先融合语言大模型,由虚拟人、数字人验证过的场景,在需要真实身体到位的现场,都会由仿真机器人出面应付自如。也许动画片里的一种玩偶剧,可能会先用仿真人重塑。当然也有些进家庭的仿真机器人,例如成人仿真人,接入语音发音的大语言模型。并不是说仿真机器人只能用在娱乐行业,其实商业应用也会大量应用和替换掉以前的传统服务机器人。在这个时期,普通民众终于认同和接纳人形机器人,因为他们已经体会到,这种机器人的交流是没有障碍的,而且具备情商,没有恶意。没有人能会拒绝能给自己带来快乐的事物,有趣的产品在性能要求上又比有用的产品会降规更容易实现,成本更低,更容易商品化。很多先进技术都会经历先落地在有趣的方向,进行破圈,而后才逐步进入普通大众的日常生活的有用场景。

  娱乐时期十分重要的是,这个时期,人形机器人或者具身智能产品,真正形成产品本质固化和产品方法论。

  人类掌握世界的三种方式:科学、艺术、哲学。我们不说这么深奥的,但是也要说人类通过什么来传递表达信息,大家肯定首先想到的就是语言。但实际上语言是信息的压缩,PC、智能手机本质都是信息终端,在信息终端除了展示文本信息,为了弥补语言的信息缺失,彩屏还带来了丰富的图片、视频信息,让人们爱不释手。

  除了语言,人类还有两个传递表达信息的方法:情绪、肢体。这两个表达方法的历史远比语言要古老,要真实。受到PC、手机硬件的局限,这两个品类无法在情绪、肢体这两种交互上做事情,而机器人是行为终端,行为包含了一切信息传递表达的方式,语言、情绪、肢体。如果说PC、手机载体的AI,当下最火的就是AIGC,那么未来人形具身智能如果要有个概括性的名词,最可能就是AIGA,最后一个A是Act,行为,或角色,即利用AI创造并驱动行为和角色。

  人们看电影,被角色打动、沉浸,其实就是一种多模态感知角色的语言、情绪、肢体;有时候没有台词,情绪也是隐藏的,仅仅通过肢体动作,就能让观众感受到角色心中所想。这里包含的信息其实是科学纵深的,但是受到PC、手机统治级的影响,没有太多科技公司来研究,但是依然人类凭借电影、短视频行业的进步,积累了大量的行为数据。在数字人、AI大模型的时代,这些数据全部都会被利用,从而使得具身智能具备了PC、手机完全不具备的人机交互系统和全新的方法论:

  通过对使用者的语言、情绪、肢体的综合多模态识别、理解,进行策略制定和行为输出,而输出的也是语言、情绪、肢体的多模态。

  从此人类即PC时代的鼠标键盘交互,智能手机时代的触摸屏交互,进入到多模态识别多模态行为展示的机器主动交互。我们看三个时代的交互创新,一次比一次使用门槛低:在鼠标键盘时代,还要专门学习输入法,从历史来看学习门槛高的五笔只存留在特殊记录职业者,大众已经不再使用了,但就算是拼写输入,掌握的已经是学龄儿童以上了,在国内是小学三年级以上了;触摸屏交互已经比较接近自然交互,但仍然需要使用者主动触发,还要先理解屏幕内的app内容、按键布局、按键含义。这使得app埋点分析法变成了移动互联网产品迭代的标准方法之一,可以用用户习惯统计来改善整体APP的操作体验,有些个别的应用也使用了基于个体的习惯单独生成的交互界面,当然在信息终端的时代,并不需要全部都是个性化。

  而到了具身智能的主动交互,使用者无需学习任何方法,仅需要表达自己的信息,产品就会识别理解,并给予正确积极的反馈,而这种反馈也是完整的,不仅仅是文本这样简陋的信息。也许使用者伤心说不出话的时候,机器人也不用说话,而是能轻轻拥抱和抚摸安慰,这种肢体语言胜于千言万语。

  延伸一下,如果不使用模型,这种具身智能的主动交互几乎无法完成,AI1.0时代的语音命令使用,用过的人都觉得是比手机app控制要方便,但是支持的命令数量有限,其实感觉不智能,还傻傻的。后来模型技术不断优化,语音助手都具有了一定的情商回复能力,但注定了问题解决范围的有限性。而未来具身智能大模型,需要不仅仅是语音回复体验,更多的是情绪和肢体动作输出,这时候如果用以前的方法生产,工作量是三次幂的级别,所以这种方法又回到只能依靠模型来做。至此,人类把通用机器人的几乎所有环节都让模型来控制,而人类只用去完善模型就可以。这就是产品实现的方法概论。

  娱乐时代,人形机器人开始进入普通家庭,直到实用能力已经很强,可以执行家务、做饭、负重、清扫、代驾等(参考擎天柱输出的C端产品定义),才会出现真正的消费时代,从有趣破圈,到有用,再到实用,大概就是十年的跨度。此时如果没有强力竞争者,擎天柱的软硬件能力应该全面吊打其他产品,又会重复苹果、特斯拉的消费现象:首先社会精英、男性为主,开始购买高价位的型号进家庭,全面打理家务,为什么要拒绝一个声音好听、动作柔和、家务全能、知识量超过80%人类的,上的了厅堂,下的了厨房的管家呢;过几年低配低价型号开始逐步由跟随者购买,最后转为女性最受欢迎的智能产品,谁能拒绝身高力大,情绪稳定,声音暖男,从不抱怨,家务全能,知识量超过80%人类,下的了厨房,上的了各种场所的大保镖呢?

  而完成这一切,大模型是决定性的核心,随着top1产品的销量打开,逐步开启了技能生态的快速建设时期,不断丰富产品的场景,满足越来越多的需求。最终,人形机器人的面向大众销售的核心定义已经不再是替人完成任务了,而是陪伴、教育、娱乐、家务等全场景,而且大众对人形机器人的认知逐步进入替代人类某些职业角色的时代,在这个时代,也出现了销量暴增的前提:性价比!

  这种性价比是品牌企业的综合实力的结果,而不是开始,这也是很多硬件创业者的误区之一,其实出现性价比的时候,品牌已经成功。人形机器人是如何完成大众认知从更智能的工具机器,转变为替代人类某些职业角色的类人智能体的呢?这是技能生态建设的结果,在多年的努力下,人形机器人具备了使用人类已有的各种工具完成任务,例如做饭炒菜,人形机器人可以使用最普通的厨具,作出色香味俱全的美食,这已然是大厨的角色被替代了,人形机器人可以驾驶任何车辆,完成代驾工作,这已然是代驾角色被替代了……还有更多的例子。也许大家会认为没必要,以后智能炒菜机、自动驾驶车更普及了,没有必要非要人形机器人来做这些事。这里涉及到通用产品和垂类场景化产品的区别与持续的博弈,后面会专门讲到。总之人形机器人的能力在这个时期,足够强大,那么这种能力是否有客观的标准来评判或被证明么?有,而且这种客观标准判定法已经在AI历史上应用过:与人类顶级的代表PK。例如下围棋,AI要找人类世界冠军PK;同理,人形机器人厨艺证明,实际上是与米其林大师PK;运动能力证明,是参加人类奥运会,成绩与人类世界冠军PK;驾驶能力证明,也许是与F1赛车手PK,或者拉力赛冠军PK……当然这种PK实际上在娱乐场景早期就开始了,仿生人形机器人的情商能力、肢体表达含义能力,都在与好莱坞影帝影后PK。

  与人类每个职业角色的顶流PK,就是改变大众认知的最佳方法。而在能力未曾达到与顶流PK的前期,掌握人类职业角色的典型行为,并展示,也是很好的市场营销办法。这就是为什么我定义了展示人形机器人机械素质要用瑜伽、芭蕾、健身操,当然还有个原因是波士顿动力一直偏向与高动态展示,比如跑酷,然而跑酷并不是职业角色,也不是像奥运会的项目一样是一种大众熟知的竞技项目,纯粹展示高动态,不和大众认知连接在一起,就很难破圈,也很难让大众明白,这与平凡的自己有什么关系。

  再各种PK取胜后,大众会逐渐发现,这样一台机器,竟然可以取代家庭教师、大厨、保洁、保姆、代驾、健身教练……那么人们才会算账,每年在教育、美食、清洁、健身等各种日常的开销,综合起来似乎买一个能拥有全能的,更专业的,远超过人类平均水平的技能的机器,不仅能极大改善生活品质,还能更省钱。这就是真正地性价比的底层逻辑。在这种现实下,销量高速攀升,又进一步促进技能丰富,形成自我增强的反馈系统,此时人类第三代的通用算力平台产品实现了。

  这个问题好像困扰了很多人,以上文提到的智能炒菜机和自动驾驶举例,场景化产品已经做的足够好了,为什么还需要人形机器人用旧的、甚至古老的工具再做一遍这个事情呢?想起三年前,是扫地机器人的行业巅峰时刻,我刚提出来通用机器人可以用扫帚拖把进行清扫,而不需要购买扫地机器人的逻辑,这对于当时的大多数人都认为是没有效率的一种科幻退步,就像漫威电影已经神幻的角色,却要表演肉搏战一样不现实,仅仅是节目效果。没错,其实我举例子的时候很多场景都是节目效果,但我想说的核心是逻辑而不是那一刻的场景:人形机器人是可以操作人类工具的,而不是它要取代那些工具。如果这些工具中古老的部分操作起来大家觉得荒诞,那么换一个,比如人形机器人做饭就用现在人类主要用的电饭煲、智能炒菜机,效率质量是更加提升的,这样总可以了吧?这个必要性在哪?因为人形机器人可以完成一件事的完整闭环,彻底解放人的劳动:例如人类依然要把食材清洗加工后放入厨具,吃完后依然需要清洗残余物;就算自动洗衣机已经很自动了,但是把脏衣服放进去,洗之后再拿出来挂晾,依然需要体力劳动。大家仍然质疑这种边缘的劳动量已经很小了,我承认,但是世界上的产品创新方向就是为了巨婴化卷的,古有训诫:四体不勤五谷不分;一屋不扫何以扫天下;但最终这就是产品红海激烈竞争后的芸芸众生相,在此我们不讨论更深入的科技有害还是有益的哲学争论,仅围绕产品化和商品化层面继续。

  不可否认从需求强烈程度来看,炒菜、洗衣核心环节是最强的,但是为了完成一件事,一个任务,不能实现全流程的自动化,那么就是存在改进点,不要小看这些每个像碎片一样的这种始末环节,累积起来也是一种显著的消耗。智能家居发展这么多年,都解决不了一种场景:一个屋子主人出差如果时间很长,回来发现房屋各处受潮长毛、空气弥漫发霉的味道、花盆的植物枯萎、谷物生虫等,如果没有人形机器人,意味着如果想保持室内如同日常,那可能就是航天实验室的智能化程度才能实现,而如果有了人形机器人,在主人不在的时候,无风的时候可以开窗通风,为植物浇水晒太阳,定时打开空调抽湿维持温湿度……让世界即使没有人类,也能维持良好的状态,随时迎接人类的回归。而实现这些,无需增加更智能的家用电器,因为人形机器人也像人类一样操作遥控器。

  我知道这仍然说服不了大多数人为什么不用智能家电,我也并没有说人形机器人会替代这些智能家电,会阻碍智能家电本身的智能化迭代,只是想再次强调通用产品和垂类场景化的产品不同,他们存在共同闭环解决一个任务的无人化全自动的价值,进而发生协作关系。

  而这种关系显然通用产品会彰显出最大的适配效率:例如自动驾驶目前都是部署在某些品牌的某些型号的车上,即使很多年以后,我相信已然不会是车的标配,因为总有热爱古典汽车的人,也总有价格敏感型的消费者,愿意购买更便宜不带科技的车型。那么如果这些人酒后找代驾,是人形机器人接单,完全可以跨品牌、跨机型来操作,实现通用的自动驾驶,而且是与车型无关的。

  这个例子进一步显示了人形机器人的产品定义本质:替代人去执行任务。这里有个语言的精妙处需要阐释:替代人去执行任务,把重点放在后半句“执行任务”,那么机器自动化是理所应当的解决方案,推导出场景化产品,但如果把重点放在前半句“替代人”,那么人形机器人就是最好的解决方案,进而推导出通用产品,也能推导出为什么移动机械形态是双足,而不是轮子。

  延续自动驾驶的例子,如果特斯拉发现,擎天柱具备了替代人类司机的操作能力,可以操作任何车型,那么从协作角度,替人类驾驶特斯拉model系列的开启自动驾驶的车,实际上是双系统冗余,或者还能补充一些视觉盲区死角,提升整体效果,当然为了节能也许会仅使用车上的自动驾驶系统。那从竞争角度,会不会让model系列就不再装载自动驾驶呢?不会,因为并不是买model的人必须买擎天柱。但对于其他厂商意义就不一样了,和现在激光雷达为主的多传感器融合方案竞争特斯拉的纯视觉方案一样,竞争始终不会停止,前者竭尽全力证明纯视觉的短板,更复杂更恶劣的环境、更精确的感知反馈都胜出纯视觉,为了占据一个市场比例,也要进行市场营销和面向公众的科普。如果人形机器人取得司机驾照,非特斯拉品牌的车企,也会极力证明用机器人开车的不安全性、不全面性等,来维护自身自动驾驶方案的存在必要性。但这些并不能阻止消费者购买五菱宏光之后再买个擎天柱当司机的行为。更何况这种组合总价格还比一辆model3便宜,还能获得更多用处。

  长期来看,这种安全性质的方案,消费者在支付能力范围内是不嫌更多的,所以冗余多系统是竞争发展又共存共荣的。

  但某些场景就不一定能共存共荣了,最经典的案例就是智能手机的拍照场景的深度发展,导致了传统数码相机品类的消亡,只剩下更专业性能的数码单反这样细分而小众的市场。当然智能手机还干掉了很多其他品类,有人专门统计过,据说有上百种大大小小的数码产品品类被智能手机兼容和对场景深度竞争发展而替代消亡。

  而这种不同品类的竞争替换,恰恰是通用产品的天生属性。通过跨品类的竞争替换,使得通用产品性价比日益显著,也使得通用产品的销量规模日益庞大。

  那么人形机器人会与哪些品类竞争不共存共荣,而可能是替代的结局呢?会不会是替代PC和手机?我只能说短期不会,手机和PC的自相似性很高,都没有完全替代PC,更何况人形机器人大概率是没有太多显示器的一种智能产品。但长期来看不一定,因为人形机器人可以替人类操作手机和电脑,进而让人类直接交互信息终端的行为逐步低频化,也许加上未来的脑机接口等无屏信息交互方案的成熟和普及,共同造成了屏幕产品的衰退。

  还有其他品类么?这设想不出来,毕竟人形机器人主要能力发展方向不是替代现有的智能家电产品,而是替代人类的某些职业角色,也可以说人类是不完美的旧品类,在做很多职业角色的时候,质量参差不齐,就用人形机器人这样的新品类来兼容替代不足以达到平均水平的各种职业角色的人类。但是可以预见的是,在单一场景不专业的品类被人形机器人兼容后,可能会仅存留少数。就拿扫地机器人来说,如果人形机器人拿着抹布擦地,而且还能把各种阻碍物拣取分类,至少真的没有必要买个很便宜的扫地或拖地机了,清洁市场上仅还有深度清洁的品类还存在,例如能杀菌除螨的蒸汽拖把等,也就是人形机器人不太会深入到那么专业效果的体验程度的品类依然生存良好。也是只有这些专业的场景化产品能和人形机器人发生协作关系。

  长期看很多品类可能会反向为人形机器人操作方便做兼容性升级,出现人形机器人的配件产品,或更效率的信息连接,例如智能家居的中控产品,历经品牌商例如智能音箱、电商渠道商、房产前装商三波推动,都没有发展统一起来,有可能被人形机器人的普及所实现,别忘了如果不接入信息连接,人形机器人依然可以操作遥控器。

  我们从智能手机看,还是拍照的例子,主流的前后摄手机,并不能解决好很多拍摄场景,所以仍然存在数码单反和各种单场景设计的产品。那手机为什么不做能pk那些单场景体验更优秀的镜头呢,因为那样带来手机的重量、尺寸增大,续航变少,便携性这个品类内核受到破坏,这是不允许的,除非是手机上游的镜头模组厂商开发出性能更强大的,又保持了重量、体积、功耗,进而升级换代。当然在合理的范围内做一个细分用户群的细分型号是可行的,但这是具体产品工作落地的内容,不在本文展开了。

  正因为这个方法限制,通用产品才有了场景体验的设计标准,做过完整的产品工作的人都知道,功能是一种虚,而体验才是一种实,体验设计都是一种可量化的工作。正如乔布斯说过,一个产品的困难在于可能有上千个问题,又必须在一个人的大脑中同时解决。哪些体验要强化,哪些要妥协,哪些要摒弃,这是异常困难的,所以产品的魅力也在此。但至少可以明确,凡是为了提高单场景体验和效率,破坏了通用产品的多场景兼容性,这是不允许的。

  在人形机器人经典的科幻美剧《西部世界》中,反复出现的钢琴,公认的乐器之王,也是妥协取胜的伟大的产品。其实每一首曲目,都像一个场景,都讲述了一个声音的艺术世界,钢琴为了满足所有曲目的兼容性,放弃了曾经使用的调音工程更简单的五度律,和世界上最美最和谐的纯律,而采用了十二平均律,这并不是听觉体验最完美的声学系统,甚至标准音都各种原因定为440Hz,而不是传说最美的432Hz。就这样不完美的产品,哪怕有一个曲目的声学体验是最好都没做到,变成了能演奏所有曲目的声学都不是最差的产品,这种妥协,让钢琴变成乐器之王流行下来,甚至200多年至今都没有再迭代这个妥协后的基本框架。

  消费级通用产品的每个单场景体验甚至都有体验更好的场景化产品能完成,这是现实理所应当发生的,而正是因为有场景化产品的深入研究,也为通用产品的场景体验升级方向指明了道路。因为消费级通用产品并不是以单场景体验最优获得竞争优势的。

  所有产品人和投资人都希望找到一个能做起生态的产品,因为这样才可能同时具备品类规模大、生命周期长、长尾利润足的所有优点。

  曾经我也做过一个细分行业的带屏产品,梦想按照智能手机一样,做成行业内的平台级的消费产品,但是行业的应用其实不超过一百个,内容也就不超过一万个,不用开发者,实际上一个公司花一年时间足够能做好90%的拓展场景了,这种产品形态、甚至工作量也不比智能手机(非自研)少很多,尽管作为行业第一销量可观,但是不可能拥有生态。

  人形机器人严格按我的定义,根本不是某个行业的产品,甚至也不能说是传统机器人行业的产品,而是要划分在通用算力平台产品范围,就像以上描述的,也许只有PC、智能手机行业的人,才能体感接近理解。然而到具体工作的时候,又会出现gap,因为PC、智能手机的从业人员都以传统软件和电子电路硬件为基础,生态以软件应用为形式。这些人概念上能理解人形机器人的通用性,但具体工作时也存在基础认知匮乏,硬件认知只需要补充电机电控和机械运动等领域的术语,但真正困难的是,理解AI模型驱动,和传统软件驱动,是完全不一样的,毕竟PC、智能手机的AI风暴也是今年才开始。所以对于技能生态,和应用生态有什么底层构建的不同和表现形式的不同,都还难以想象到。这点稍后会展开详细说明。

  这段核心点是,如果沉浸在行业商用的机器人公司,很难建立更宏大的生态架构,甚至很难进入真正的通用产品构建的研发方向上。

  首先要说明,我是专业的产品人,但不是专业的技术专家,如果引用技术内容有误,感谢斧正。对于产品与技术,实际上是矛盾统一体,如果一个产品人不去了解技术,那么天马行空不易落地;但如果一个产品陷入技术细节,往往不够高瞻远瞩。产品人需要知识的广度大于深度,但没有深度也不行。一般产品要了解技术的诞生初衷、发展历史、技术原理、技术主要术语、demo效果、边界极限、风险缺陷、对其他事物的依赖相关性、实施的项目资源概况。一个优秀的产品人,其实在很短时间内就能掌握成熟的技术以上方面,因为除了自学,还有研发同事的助力、竞品的展现辅助。但对于前卫的技术,不成熟的,往往缺乏深度思考和应用的洞察,就算得到较为重要的认知,也很难在大范围内得到赞同和支持,从而懈怠甚至放弃,严重的可能经不住挑战而产生自我否定,这就是创新的代价。之前其他文中我提到,做世界上没有的产品,核心方法是用户洞察和知识领先,在这里不展开方法描述,直接还原一下思维过程:

  1、如果有一天人形机器人普及到千家万户了。一个普通人如何使用,这个体验过程我在三年前的第一篇文章里已经写了,这里不在赘述。

  2、如果机器人不会某项技能,如何学会?这里面涉及到一个重要的概念:什么是机器人的技能?

  上文提到,机器人替人做任务,但任务每次不一定100%成功,但普通消费者可以忍受一定成功率,当然不能太低。我们说的技能就是高概率完成相似任务的一个类,比如,用户说给我把什么东西拿过来,大体的流程相似,都需要识别--策略--执行--监测反馈修正--送达。所以拿苹果还是拿杯子,是差不多的,用到的基本动作也只是组合流程的差异,需要的识别能力、策略能力都是相同的。这里很容易延伸出一个思维方法:

  将机器人基本动作编程成为基本动作库,再由模型给出调用的策略和执行的每阶段的目的数据,再加上监督反馈修正程序,就可以完成。

  如果不是拿某物了,用户说来,陪我下棋,这时候显然光有棋子棋盘的识别和运动动作库不能完成任务,需要接入一个下棋的AI策略模型,类似手机里打开了一个AI下棋的app,只不过在人形机器人的产品上没有屏幕交互,也无须用户点击下载选择打开这些步骤。总之人形机器人最自然的交互就是ta自己懂得去调用一个下棋的模型,来完成策略的补充。

  这里面我们会发现,技能有时候是简单的任务,有时候是复杂的任务,我们做个纯思想实验,如果人形机器人将在未来几年增加到类似app store的app数量一样,几百万甚至几千万个技能,如何实现呢?很显然,靠厂商一个个场景摸索,一个个模型输出方合作接入,都是难以完成的,app store最大数量的应用贡献者,是百万数量以上的个人开发者和创业公司,而AI模型的开发者目前和很多年都集中在PC、手机的AI化方向,并且机器人的AI模型开发的成本相比其他的也更加高昂,需要硬件设备,等于增加了个体开发者的门槛。

  我们看一下AIGC目前的模型都在做什么,可以说除了机器人,AIGC全都在做,那么一个可能的思路是,机器人厂商解决了一部分特有的行为模型,其他的技能是否可以直接从PC、手机的AIGC模型上进行移植呢?具体看一个例子,就是下棋这件事,如果机器人触发了要去加载alpha go这样的AI模型,来完成和用户的对弈交互,那么从alpha go模型视角,首先要进行棋盘与棋子状态的输入,经过推理给出下一步策略,这个策略再由机器人还原成把棋子识别-行为策略(抓起某棋子放在某位置)-执行(机械运动)-监督反馈(识别过程是否到位)-完成(放下棋子)这样一套动作流程。可以用以下图示表达:

  我相信在主控模型的交互框架内,产生广泛共识的协议,是可以促进在pc、手机平台的AIGC团队,付出额外的开发量来承担下游模型提供输入输出的接口开发,并且提交到机器人技能生态圈的。

  这里听上去挺像Hugging Face,一个集合了众多AI模型的平台。但区别在于Hugging Face是面向开发者的,上述的下游模型,只是一种推理使用的状态,并不作训练。当然具体接入使用的时候,主控模型也许有能力自己有一套办法,自动设置下游模型的一些必要参数,不暴露给普通使用者,例如用户感觉到棋手太厉害,要求降低难度,主控模型主动调节下游模型下次推理使用的网络深度等参数。其实这种方案,更接近在GPT上开发插件,GPT在获得用户需求后,利用合作的插件进行数据搜索和信息返回展示。

  对于下游模型的管理者或开发者,主控模型也许要搜集统计本次使用的关键数据,和用户的反馈信息发送给他们,以便于他们改善下游模型体验。

  是否单层的下游模型就能完成技能支撑呢?不一定,我再举一个例子,根据用户描述来画一幅画,这是三年前我在北京和朋友聊的最多的一个例子,那时有AI根据文本作画的模型,但我就在想,这个画能不能做在一个教育机器人上,用手臂拿着笔和调色盘就能画出来,来教孩子画画。其实这个场景实现光使用AI作画模型是不足够的,还需要一个把一幅画通过视觉识别,来转化成各种颜色的带笔画笔序输出的模型,当然这个模型想一想就头大,笔画笔序的训练数据从哪来等一堆问题。抛开下游模型如何实现不谈,假设终究有一天有这样的模型了。那么主控模型首先要连接AI作画的模型,把这个模型输出的图像传递给笔画笔序转换模型,最终转换模型输出了颜色选择和笔画笔序等信息给主控模型,主控再针对这个信息要求识别环境并执行动作完成。

  在创作画画的例子中,下游模型是两个参与了,可以推导:主控模型需要能搜索模型库,找到合适的模型,并且进行接口信息的调度和传递,最后还要转化为执行策略并执行。

  也可以夸张地说,主控模型是模型的模型。不仅要承担直接的自然的人机交互对话,还要有自知之明,懂得自己的不足,去模型库里寻找帮助。

  3、主控模型的自我增强,也存在与下游模型的竞争博弈。这点其实很像手机OS厂商自带的应用,例如通讯录应用曾经吸引了众多创业团队,也创造出阶段性很好的流量,但是最终集体消亡,手机厂在完成os核心功能优化稳定后,就会在核心应用上进行优化,首当其冲的就是通讯录应用。在通用机器人时代,主控模型因为具备下游模型的管理能力,从而拥有竞争下游模型的基础和动力,例如刚才画画的例子,颜色选择与笔画笔序模型,也许这个模型的体验不仅是大量的训练数据,可能还和硬件传感器(颜色偏差)、机械运动精度等有很强的关系,那么如果厂商发现这个需求场景使用是高频的,那么很有可能投入资源,专门做这样的模型,或者通过对主控模型的优化来兼容了绝大多数画作还原动作的情景。下棋也有可能因为用户场景逐步高频,厂商通过数据驱动本身,可以迭代增强主控模型的能力,也就是说如果有几亿台机器人每天都会和人类下棋的话,那完成训练模型的数据量是可能的,主控模型自己就能训练具备下棋这项技能。之后会下架很多水平体验都没有超过主控模型的下棋模型,只保留了alpha zero,因为它不是基于真实数据,而是基于“左右互搏”凭空从零开始学习成为棋王的,主控模型无法超越它,只能协作

  先忽略下游模型的因素,简化为主控模型、机械体、传感器、环境(包含用户),进行一个简单的UML示意图,首先传感器对环境进行感知,发送信息给主控模型,主控作出策略,输出运动指令给机械体(实际上是给到机控芯片和机控软件一些输入,需要再转换),机械体开始运动,此时,加入自动化反馈系统,即利用传感器识别机械体和环境状态,再输入给主控,主控来决定是否调整改变原来的策略,如果改变则给出新的目标指令,机械体进行下一步运动,传感器识别机械体和环境状态,再输入给主控,如此往复。这里第一次反馈的时间是t1,第二次反馈的时间是t2,当然性能算力优秀的产品,这种反馈间隔会很小,就是监测刷新率会提高。如果以云端部署模型,那么网络延迟也很高,这种刷新率就会很低,这种情况下容易造成反馈不及时,机械体运动对环境有负面操作,例如碰到人体未停止。

  我们知道工业机械臂的工况环境是简单和一致的,有良好的运行安全规范,而机器人进家庭,是不可能有统一的运营操作规范的。所以除了让主控模型能感知环境,还必须要感知自身机械体,才能及时调整动作,降低安全事故。并由此也更加强化了通用机器人为什么必须使用强大的设备端算力,而不是全部依赖云算力。

  也许有人说我们增加压感皮肤给机器人,遇阻停顿或回退不就可以了么。先不考虑成本增加,其实遇阻已经是接触上了,也许惯性的动量就能伤及人类,所以我始终坚持用视觉,暂不考虑雷达,因为主动雷达都有能量辐射等潜在风险,而视觉是被动感知更安全,其次是视觉对模型能力要求更高,更倾向于升级主控芯片能力,通用机器人卷起来依然和PC、智能手机一样,是芯片算力在AI能力维度上无上限卷。而芯片不断升级上限,将带来主控模型迭代的更强的能力。

  这里说一个技术应用点,就是XR的绝大多数视觉识别的应用,都能迁移到通用机器人的产品框架上,也就是如果现在通用机器人定义为视觉为主要传感器,那么坐等XR技术的发展和完善,将收获更多更好的成熟技术迁移。在三年前我预见了这个逻辑,并且在meta2022年发布quest2的手势识别2.0技术的时候惊呼,这就是通用人形机器人可以直接使用的监测反馈技术。后来告诉那位投资人传递者,使得特斯拉擎天柱在今年应用尝试,得到了肯定的效果。

  通用机器人在家庭环境内,始终处于开机待服务的状态,这点对数据隐私要求胜过了以往所有的智能产品。我们看手机、PC也有摄像头麦克风,虽然也有隐私顾虑,但是用户并不是全天时时刻刻在使用打开屏幕,很多时候手机在衣服兜里、包里,电脑是合盖的状态更多,很多应用在合法权限内,也不能偷偷开启摄像头和麦克风。所以电脑和手机的隐私顾虑不会成为购买和使用阻碍。

  而通用机器人不一样,这是自主交互的产品,意味着买回家就应该全天候开机,它始终观察家中一切,并且随时响应人类对它的交互。没有电就自动回充,也不存在没电关机的问题。而且在使用过程中,用户明确地知道,机器人就是利用获取家中一切画面和声音来进行识别和策略制定,等于全天候的隐私公开。这种隐私焦虑如果没有合理的技术架构证明安全性,将成为拒绝购买的最强大的理由。2019年Google I/O大会上,发布了联邦学习的技术,用于手机设备的隐私数据安全,同时又能利用手机端数据进行os级别的统计反馈用于各项优化。当时我也是惊呼,这完全就是通用机器人的产品化必须的技术,有过之无不及。

  未来通用机器人的端算力、存储也是与PC、智能手机相似,不断提升,但是如何利用这些设备的闲时算力,和宝贵的众多家庭环境数据,只能使用联邦学习,将设备内的数据进行第一层模型处理,获得已经完全表征化的无法还原为隐私的数据再上传云端,供为后段模型训练的输入。

  除了分层训练,也可以将闲时算力用于加速训练或推理的分布式框架。当然这个概念还很早期,还没有人尝试过,而且收到网络等条件限制,对比专用集群训练和推理,目前的分布式很难在效率上胜出,但如果对比用户侧的电脑和智能手机,也许是有效率体验改善的。

  之前设想的是大量PC、智能手机正在蓬勃发展的AIGC会迁移至通用机器人品类上,而毕竟这些都是开发者创作的更多,开发者在人类中占比仍然是很小的一个比例。如果能利用普通使用者来自行训练技能,那么将建立一个远比苹果app store要大很多的技能生态。这里有通用机器人及通用模型本身不能100%完成任务的一种改进动力,还有隐私环境造成很多私密技能无法公开采集数据训练的,但确实很刚需的场景。

  这种交互体验其实我在三年前的第一篇文章内已经简单写过,并且还透露出,类似教育小孩子的这种正负面情绪反馈交互,会对通用机器人可能产生情感。但三年前,我也不知道技术上如何实现,只是从AI模型的数据采集、标注等环节,做了一些假设。

  首先我三年前就提出数据采集应该采用家庭环境真实的数据,标注工作量可以交给用户,而不是开发者。当然视频识别训练的成本很高,而如今Sam技术的出现改变了视觉的行业格局,也清晰了用户标注的交互,降低了所有环节的成本,这种降低程度是好几个量级的降低,可以说直接把通用机器人在家庭内的数据采集和标注交互变成了现实可用的方案。

  接下来一个重要的技术是nerf重建,典型的交互:用户打开启动机器人,首先需要熟悉家庭环境,进行建图,视觉扫描后,基于nerf快速重建3D家庭模型,并且利用3Dsam进行物体分割。下一步在可识别的物体上自动标注,对不可识别的物体上请用户在手机上对3D物体直接进行标注。这样就获得了新的物体识别特性。

  再接下来,就是技能训练,可以在这个3D仿真模型内,进行反复的训练,我给这个过程借用了《奇异博士》电影的一个名词,“镜像世界学习”,这不影响现实世界,训练足够好了,再切换到现实的推理操作模式,进行实操。当然这里面仍然存在物理层的gap,但至少已经拥有了执行概率,随着未来技术完善,这个概率只会越来越高。

  果然,这几天meta发布了Habitat3.0,提供了先进的虚拟仿真家庭的机器人训练器。

  当然,我仍然坚持三年前我的判断:最广泛的普通人参与技能开发,应该是提交人类的示范视频,由视频理解的模型进行学习,再传递到主控模型或下游模型进行训练。也就是像拍抖音短视频一样提交很多视频,人形机器人就能掌握更多的技能。

  主动发起合理相关的话题至今在AIGC也没有实现落地,这种智能目前还是人类独有的智能,但通用机器人,是具身智能,根据环境识别,必须实现合理相关的主动发起话题,否则和没有大模型的传统智能硬件,没有太大体验差异。在这种交互模式的卷到极致,其实就是对用户的察颜观色,再制定策略。上周微软官方发布的论文中也提到了这一点,当然我可以自豪地说,这在三年前我就洞察到了。但我是从心理学出发,主动交互的最高境界就是察颜观色,还有情绪的本质是信息压缩和传递,情绪是人类表达内心真实活动的最不易掩藏的语言,并且控制他人情绪是控制他人行为成本最低,效果最好的手段,当然我们不延续什么机器人统治人类的话题,总之在通用机器人时代,通过传感器感知和语言对话分析,来提取用户情绪状态,将成为必须的、策略制定中权重最高的因素,各个品牌产品竞争的体验核心,就是对微表情的捕捉识别、细微情绪的感知和交互。至少目前已经证实,大模型的共情能力已经超过人类平均水平,其实虚拟人技术也融合了情绪化肢体动作表达,人形机器人的情绪化策略行为并不是遥不可及的。

  正文先写到此吧,其实很感谢另一位投资人把我拉入AI机器人的一个行业群里,让我又和行业很多人有了接触和交流,我仅把三年前没有吐露的内容,和在行业人交流讨论的一些话题整理出来。希望能启发更多愿意投身于通用机器人方向的人们。当然技术不断发展,我对通用机器人也有悬而未决的超多问题,但我相信大的产品框架基本稳定,各种细分的、更新的技术都会解决那些悬而未决的问题,我也会持续关注,阶段性再把观察思考分享出来。

  最后在说说一个市场营销的操盘:马斯克猫女机器人。其实1月份我和一位神秘投资人聊的那一次,想这样具备情感能力的人形机器人,如何让大众获得认可的认知。首先不能宣传人形机器人的本质,是替代人完成任务,这很容易被升级为就是为了替代人类和消亡人类的产品,这只会引起抗拒和恐慌,虽然今年4月份我问chatGPT如何让人类灭绝,ta回答其中一条就是制造机器人。

  那么如果拐个弯呢?我想到这世界的很多不文明、不幸福的场景,都是公知的,说大点是文化造成的,说细点,是不文明的一部分人造成的。那么人形机器人替代的应该不是全部的人类,而是造成那些不文明的人类。比如如果奶粉工厂全部都是人形机器人操作,那么他们的模型受到国家监管,而且从技术上很容易监管,远程就可以调取人形机器人摄像头进行视频共享观察,这样就绝对不会发生毒奶粉产品。但是这些场景还是商业应用,我们必须要找到家庭购买的理由和场景,最好是个人购买的理由和场景。

  我直接把问题导向了单身狗人群的单身男性,也就是目标人群找一个很细分但量还很大的,如果把伴侣做成产品,有人类女性这样的旧品类,也有人形机器人这样的新品类。我们用Kano模型来分析旧品类:

  魅力属性(没有也能接受):像明星一样闪耀动人,毕竟谁不想拥有梦中情人呢。当然大多数人不会去真的一定要找明星结婚。

  期望属性(有满意,没有就下降):外表美丽、性格温柔、不瞎闹、善解人意、知识量在线;

  针对旧品类的kano分析,提出新品类的功能:可定制皮肤外观,可以选择喜欢的梦中情人。外表美丽、性格温柔、不瞎闹、善解人意、知识量在线;能生育后代,人工培育。没有彩礼,仅2万美元相当于14万人民币,绝对忠诚,家务小能手。

  拥有全部旧品类的好的属性,去除了不好的属性。当然,我们一致认为,这个人形机器人的概念一定用马斯克的名义宣传,才会被百倍放大关注,才会达到认知教育的效果。其实14万单纯看也是一笔不小的开支,但是好的营销并不是要卖便宜的东西,而是让消费者得到占便宜的心理状态。这种占便宜的逻辑如何引导,哈哈,加对比:

  曾经美女、明星都是富人们的玩具,现在马斯克把这个价格打下来了,就像特斯拉把跑车的价格打下来一样。而且人形机器人永远不会衰老,永远青春,一机传三代。借鉴了钻石恒久远,一颗永流传的策划,当然机器人永流传也没人信,但一机传三代,服务三代已经很有性价比了。

  感谢这位想做AI机器人时代的巴菲特的投资人,不知道怎么催动了全网媒体都在宣传测试这套营销话术哈哈。

  最后补充个判断,大概率擎天柱会从芯片、模型全栈自研实现世界上主机最好的体验,然后慢慢补充生态,发展成为类苹果的模式。

  而其他的没有芯片能力的公司大概率只能依赖手机AIGC成熟后,带着芯片和生态移植到机器人脑袋里的方式,类似安卓机的模式。

版权所有Copyright(C)2023-2024首页_利澳注册_首页 txt地图 HTML地图 XML地图