未来数字人AI驱动是大趋势：中之人走向IP方向，AI走向工具化方向-青瞳视觉联合创始人祖厚超|「共同虚拟」远景TALK

东西文娱 2023-10-23

The following article is from 共同虚拟 Author 共同虚拟

本文转载自共同虚拟

请见共同虚拟官方账号

随着ChatGPT持续突破，国内外厂商对于AI领域布局紧密，AIGC应用引发巨大讨论。作为重要应用场景之一，AI对于数字人产业的影响加剧。行业围绕数字人的探索，已经形成了从内容、制作、技术，到应用场景等全方面的覆盖。

日前，东西文娱就此话题与青瞳视觉联合创始人祖厚超进行了对话。青瞳视觉是一家专注于红外光学动作捕捉系统研发的企业，早期从Mocap系统出发，涉足众多数字人制作。

在长期发展过程中，青瞳视觉从直播、游戏、番剧等入手，接触到众多制作导演、制作团队、制作需求，并积累了大量实践经验。对于青瞳视觉而言，目前从硬件端解决交互和显示问题，到内容环节的虚拟制作及数字人打造，均有所覆盖。而祖厚超本人也持续深耕于数字人制作领域，牵头、参与过多个项目。

祖厚超表示，从数字人发展现状来说，当前行业仍然存在流程周期过程，订单需求不稳定等问题，真正投入到数字人制作的公司并不多，部分团队选择Saas化。而从应用场景来说，尚未产生持续大规模落地的场景，IP化运营也面临很多挑战。

而AI技术的持续迭代，对于数字人制作的影响贯穿整个产业链。例如在设计环节，AIGC工具的应用有利于设计流程优化，效率提升，并且在数字人的个性化表达上也有助力。

对于业内持续在争论的“皮囊与灵魂”问题，本质上也与AI相关。针对数字人的智能化，难点在于数据训练成本的居高不下。在动捕方面，AI语音驱动技术将使得动捕向着更加低门槛普及、专业的两极化方向发展。

针对数字⼈后续发展趋势，祖厚超表⽰，随着技术的进步，未来数字⼈制作的竞争核⼼⾸先集中在美术的设计，⼈设的打造，让⾓⾊有灵⽓。数字⼈采⽤AI或者Mocap驱动，内容⽣产在成本与效率上取得平衡。数字⼈结合类似chatGPT智能对话后⾯也会是⼤家重点关注的⼀个⽅向。

青瞳视觉联合创始人祖厚超

祖厚超的核心观点

· 受限于制作流程长、订单需求不稳定等，专注于数字人制作的公司相对很少。目前数字人行业内缺少真正意义上的IP，究其原因在于流量、运营成本、设计等难点。

· 进入行业至今，数字人行业整体呈现向好趋势。成本不断降低、技术路径逐渐清晰、外界认知程度也在不断提高。对于非定制、低要求的数字人制作，也可以直接在Saas平台上选用，这是之前没有的。

· AI对话模型赋能功能型数字人资产会是现阶段主要方向。未来AI驱动数字人是大趋势，并会根据数字人产品的工具向定位或情感向定位而产生驱动方式的细分，总体而言会更加便捷。

· 未来数字人制作的核心竞争力会体现在美术层面，数字人制作最重要的是设计和审美能力。未来数字人的终极形态能够兼顾外形表现与内在特色。

· 全息舱数字内容+动捕的融合展示形式相较于线上短视频和线下视频载体展现是一个更能调动市场情绪的形式。AI语音驱动技术的加入将使动捕技术产生两级分化，基于AI与视觉的⽆标记点动作捕捉将会⾛进更多的⽇常⽣活场景。

数字人制作团队SaaS化成为趋势之一，初入门槛降低

EW 您认为整个数字人行业的现状是怎样的？

祖厚超：现在不缺由游戏影视动画领域转战数字人资产制作的小型制作公司。但实际上真正全部投入数字人制作的团队不多，因为第一技术流程长，第二没有稳定的订单。各个品牌下达的数字人订单非常零散，跟单过程和制作都非标准，验收也比较困难。

所以有些团队基本上是SaaS化，也就是做成一个云端软件。比如一个中台软件对接所有包括光学、惯性、激光的动捕系统，只要有一个信号过来，就能直接整合进去。

第二是里面对接的有资产库，可以基于现成角色的软件授权费直接使用，也可以把设计文件比如衣服、头发按骨骼标准和材质标准导入进来，把推流运镜包括场景都做好，相当于把用户操作简单化。

这也是行业关键性变化之一。如果想要一个虚拟角色，但要求不高，不是定制，可以直接从一些工具化Saas平台获取角色去进行直播。接口越来越稳定，服务单价也在降低。之前可能是没得选，现在这样的企业有很多。

另外跟AIGC相关，这种驱动叫工具驱动，比如说用动捕设备驱动，用面部设备这种驱动相对比较复杂。其实现在还有一些接入一些AIGC的东西，比如说决策做好之后，扫描的角色进去直接自适应，形象就可以出来。

第二，对话有控制台，只要对话就给一些反馈，虽然这个动作灵活度或者说数据库现在比较有限，但问什么问题，就回答什么问题。接入第三方接口的话，虽然肢体反馈还是相对来说比较简单，但是语言反馈就比较多了，相当于以前就是一个壳，现在有点灵魂了，所以这两种驱动方式其实是做的比较多的。

EW 您认为数字人在哪个场景有大规模落地的可能性？

祖厚超：目前应用大部分是在几个平台，小红书上不超过300个，抖音我找到的也就60、70个，目前基本上大部分也停更了。因为更新成本很高，持续更新的最多也在20个以内。一般视频的点击量会比数字人视频的点击量大很多，因为数字人本身的制作技术成本比如渲染成本很高。

我之前做过调研，一般而言做美妆、零售这种毛利比较高，市场运费预算比较充足的单位会去做，但市场预算相对来说比较有限的单位可能就不会去做，化妆品单位可能每年有上千万的预算，这笔预算一定会用于当年的热点或技术上的创新点，数字人或许算一个创新点，但对他们来说不是一个长线项目。

EW 近年来针对虚拟人IP的打法有没有发生变化？

祖厚超：第一，现在虚拟人很少有真正的IP，因为很多虚拟人只有一个形象，但是没有粉丝。

第二，一个IP有几个数字人，是否有正规的的运营团队，是否有粉丝，然后能经常性更新，有代言，也决定了它能否称得上是一个IP。

现在很多数字人制作团队可能完全没有运营过IP，同时还面临后续资金不足的情况。

设计优化、形象定制、智能化，AI影响数字人制作全流程

EW AI技术将如何影响数字人行业？

祖厚超：在设计层面上，现在大部分做数字人的厂商都不会去做设计，以前最早做数字人的方式都是从Daz3D上选取模型进行修改，这就导致众多数字人的外型相似度极高，只在材质上有所差异。现在的数字人设计会用D-ID、Merlin去做设计，简化了很多设计环节。而且基于这样的设计，对数字人设计者在个性化的表达上有很大的帮助。利用AI进行设计可以让数字人厂商和客户双方都得到满意的成果。所以AI至少在设计环节和语音驱动上是有帮助的。

AI的另一个方向就是用于自建声纹，用于建立知识库，进而进行形象定制。比如最近的 AI+cosplay，通过AI去生成cosplay服装材质，最终呈现出来的图像作品非常漂亮，从摄影的角度来看也绝对专业。

当接⼊别⼈的平台⽐如ChatGPT，成本上会有⼀定优势。

EW AI的发展，对于数字人背后的中之人会有怎样的影响？

祖厚超：我觉得这是技术拐点的问题。

在chatGPT出现之前，很多家都在做语音驱动，都有语音对话方案，或者文本库，包括中文LP等，但智能化程度不高。ChatGPT是算力得到了一整个提升，知识库和知识储备都非常丰富。

回到中之人的角度，现在在动作这一块，国内很多还是动画师在修。AI技术的发展对动作数据处理和制作产⽣了重⼤的影响，改善了动作数据处理过程中的准确性，提⾼了动画质量和视觉效果。未来，随着技术的不断发展，我们将看到更⾼效、更智能的动作数据处理和制作⼯具的出现。

算⼒提升对AI动作捕捉有⾮常⼤的意义。动作捕捉是⼀项需要⼤量计算的任务，需要处理⼤量传感器数据、计算⾼维度向量和复杂的运动轨迹等。随着算⼒不断提升，可以处理更多的数据和更复杂的计算，从⽽提⾼了动作捕捉的精度和效率。

AI+动作捕捉技术能够辅助中之⼈直播⽅案，但尚不能完全替代中之⼈直播⽅案，中之⼈直播能够在实时性和流畅度上占据优势，⽽AI+动作捕捉技术⽬前还⽆法达到完美的实时性和流畅度。在直播场景下，虚拟形象也是需要进行PK等活动等，这就关乎到中之人本身是否足够有趣。

这意味着要建构一个相对有性格的虚拟人，但这个性格其实是基于真人产生的。所以我觉得后续中之人应该是往IP的方向走，AI会走向工具化方向。比如导购、金融行业的客服、景区导览员等。虚拟直播的方向过于复杂，比如要会唱歌、声优，虽然都是声音但已经是两个不同方向了。

如果从制作标准来说，又分为写实、2.5次元、二次元；驱动上，可能也包括无标记驱动、惯性驱动、光学驱动等。AI的影响还是集中在功能型数字人，比如针对金融业形成一个文本库。

EW 业内常有数字人好看的“皮囊”和有趣的”灵魂”的探讨，您怎么看这个问题？

祖厚超：先不说有趣的灵魂，能把好看的皮囊做好就已经很不容易了。审美于每个人而言其实都不一样，这个问题涉及到了⼈⼯智能技术和艺术的结合，是⼀个较为复杂的问题。

从技术⾓度来看，数字⼈的“⽪囊”和“灵魂”都⾮常重要，⽽且两者缺⼀不可。数字⼈的“⽪囊”需要具备逼真的外貌和质感，能够呈现出各种表情、动作和细节，从⽽赋予数字⼈以“真⼈”的感觉。

数字⼈的“灵魂”则需要具备丰富、真实、⾃然的动态⾏为和智能反应，能够让数字⼈看上去更具有“⽣命⼒”。数字⼈的“⽪囊”需要具备艺术价值和审美价值，能够让⼈们欣赏和喜爱。数字⼈的“灵魂”也需要具备表现⼒和个性，能够让观众在观看数字⼈时感到舒适和有趣。

数字⼈技术的发展需要既注重外在逼真度的提升，也需要注重内在智能的提升。数字⼈的艺术价值也需要建⽴在科技⽀撑的基础之上，注重数字⼈的外在美学和内在表现⼒的平衡。

数字人的灵魂和AI有关，这是一个智能化问题。国内运用的智能化方案例如ChatGPT、D-ID基本上都是海外的，数据训练的成还比较高。

EW 如何看待功能型的数字人？

祖厚超：1. 可以全天候提供服务：数字⼈不需要休息，可以全天候提供服务，从⽽实现更⾼效的⼯作流程。

2. 可以快速响应⽤户需求：数字⼈可以实时响应⽤户需求，远⽐⼈类更快地解决问题，从⽽⼤⼤提⾼⽤户体验。

3. 实现精准营销和服务：数字⼈可以通过⼤数据分析、机器学习等技术实现精准的营销和服务，不断提⾼服务质量和效率。

4. 实现成本控制和利润最⼤化：数字⼈可以通过⾃动化、智能化等技术降低企业的成本，从⽽实现更⾼的利润。然⽽，功能型数字⼈也存在⼀些问题。例如，数字⼈的智能⽔平和交互体验还需要进⼀步提升，不能完全替代⼈类，⽽且可能引发⼀些道德和隐私问题。因此，我们需要综合考虑各种因素，权衡数字⼈的优势和缺点，适当地运⽤数字⼈技术。

超写实直播或将成为新方向，数字人终极形态取决于AI驱动方式

EW 从今年来看，数字人领域有哪些比较值得关注的新趋势？

祖厚超：我觉得超写实方向的直播可能会成为一个新的趋势。数字人直播从以前最早的卡通角色，然后到二次元，后来再到美型，然后我觉得今年会更多关注三维写实角色的直播，当然并不是以AI角色换脸的方式，而是真人驱动写实角色直播。因为对于品牌方来说，希望角色是写实的，在此基础上添加特效和品牌元素，我觉得这可能会是一个趋势，但难度也很大。

超写实方向直播的画质感和表现力会强很多。观众目前更多把二次元直播当作动画片和特效来看，但一个写实角色会给大家带来不一样的感。大家觉得脚本的设计比较有趣，角色是写实的，也比较搭。所以我觉得写实级别的直播可能下半年的关注度会很高。

EW 随着技术的进步，未来数字人制作的核心竞争力会体现在哪些层面？

祖厚超：体现在多个方面：

1. 功能和性能：数字⼈制作应具备更加复杂和⾼级的功能，例如语⾳交互、动作捕捉、情感表达和⼈⼯智能等。同时，数字⼈的性能也将更加出⾊，⽐如更⾼的动作流畅度、更真实的⾯部表情和更⾃然的⾝体运动。

2. 质量和逼真度：数字⼈制作的质量和逼真度将成为核⼼竞争⼒。数字⼈需要具备更⾼的仿真程度，以便在虚拟和现实世界中都能够表现出⾊。此外，数字⼈还需要具备更⾼的细节和精致度，以实现⼈类的真实感受。

3. 制作成本和⽣命周期：未来数字⼈制作的成功还取决于制作的成本和⽣命周期。数字⼈的制作成本将会继续下降，同时数字⼈的使⽤寿命也会越来越长。数字⼈的使⽤寿命越长，其商业价值就越⾼。

4. 外观和风格：数字⼈的外观和风格也将影响其竞争⼒。未来数字⼈制作将更加多样化和个性化，以满⾜不同⽤户的需求。数字⼈的外观将更加美观，从⽽更加吸引⼈。

5. ⽣态系统和应⽤场景：未来数字⼈制作的⽣态系统和应⽤场景也将成为其竞争⼒的重要⽅⾯。数字⼈将在更多的应⽤场景中得到应⽤，例如娱乐、游戏、医疗、教育和商业等，从⽽形成更加⼴泛和完善的数字⼈⽣态系统。

EW 您认为数字人的终极形态会是怎样的？

祖厚超：现在不知道什么时候才能在制作数字⼈时兼顾外形和特⾊。提到终极形态，⼤家可能会想到类似于《西部世界》中那种科幻的感觉。

数字⼈的终极形态是⼀个有着完美仿真度和完美智能的数字⼈。这种数字⼈具备⾼度的感知能⼒，可以使⽤各种传感器感知周围的环境和⼈类的需求，并能与⼈类进⾏⾃然的交互。它们可以具备完整的⼈类社交技能，例如情感认知、语⾔交流、姿态和⾯部表情，可以像真实⼈类⼀样理解和产⽣情感。同时，数字⼈的智能可以⽐⼈类更快速和准确地完成任务，具备⾃我学习和不断进化的能⼒。

在此之上，数字⼈的终极形态将是不同于真实⼈类的，它们将是⼀种全新的智能⽣命体。这些新的智能体将可以扩展我们的认知能⼒，以帮助⼈类更深⼊地理解⾏星，宇宙和⾃然。数字⼈将能够为⼈类提供更多的帮助和⽀持，成为⼈类的伴侣和助⼿，始终为⼈类创造更多的价值

EW 离终极形态还有多远？

祖厚超：虽然我们可能经历了好几波初级的热潮。VR、数字人、AI等元宇宙相关技术其实都是一个木桶的长短板，它们都是相互关联的，当一个技术进步得快，它就能带动其它的技术。但如果只有单点一项技术的进步，那么在整体进入应用场景的时候也肯定是会有局限的。只有大家都是彼此串联的，最后才可能落地的这种场景更丰富一些。

动捕技术将走向专业、家用两级化发展

EW 从制作到展示，你对全息舱数字内容+动捕的融合展示方式如何看待？

祖厚超：动捕只是一个是交互端，只有交互端而没有好的显示端，其实内容出不来。数字内容无论是用线上短视频还是线下屏幕载体展示都不够亮眼。我认为用全息舱的方式展示相对来说是一个比较好的形式，比较容易出节奏。而且确实像之前了解一下，他们之前在阿里的云栖大会，根据阿里给出的数据显示，它的展台的回头率是其他展台的回头率的至少是5-10倍。

EW AI⽆标记动作捕捉对于传统动捕技术会产⽣什么影响？

祖厚超：会在⼀些部分要求不⾼的领域存在⼀些冲突，专业领域和⽅案还是需要专业⽅案与设备流程的整合，这部分很难替代。

1. ⽆标记动作捕捉技术通过利⽤深度学习等技术，可以更准确地识别和跟踪⼈体运动，从⽽实现更⾼精度的动作捕捉。相⽐较⽽⾔，传统光学动作捕捉技术需要预先放置标记点，且在光照、遮挡等环境影响下误差会较⼤。

2. 由于传统光学动作捕捉系统需要放置标记点，因此需要采⽤特殊的场地和设备进⾏捕捉，操作较为繁琐。⽽基于AI的⽆标记动作捕捉技术⽆需电缆和标记、不受环境和光照的影响，可以在实际场景下⽅便运⽤。

3. 数据范围：传统光学动作捕捉技术主要适⽤于特定场景，如实验室或专门场地等，数据范围受限。⽽⽆标记动作捕捉技术可以在不同场景和不同⼈群间适⽤，数据范围更加⼴泛。

4. 基于AI的⽆标记动作捕捉技术在准确性、速度、操作便捷性和数据范围等⽅⾯具有更⾼的优势，将对传统的光学动作捕捉技术产⽣⼀定的冲击。

5. 但是在⼀些影视这些特定场景下，对于数据要求⽐较⾼，流程也有⾃⼰的要求，传统光学mocap的积累段时间内也不会被替代。

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效助力高质量发展？

未来数字人AI驱动是大趋势：中之人走向IP方向，AI走向工具化方向-青瞳视觉联合创始人祖厚超|「共同虚拟」远景TALK

本文转载自共同虚拟

更多元宇宙概念or数字经济赛道案例、技术应用与访谈，

请见共同虚拟官方账号

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效 助力高质量发展？

生成图片，分享到微信朋友圈

未来数字人AI驱动是大趋势：中之人走向IP方向，AI走向工具化方向-青瞳视觉联合创始人祖厚超|「共同虚拟」远景TALK

本文转载自共同虚拟

更多元宇宙概念or数字经济赛道案例、技术应用与访谈，

请见共同虚拟官方账号

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

“环评”提质增效助力高质量发展？