查看原文
其他

东西文娱×知春资本直播回顾 | AIGC是生产力的连续进化,下一代AI要实现从0到1的创造

知春小宇宙 东西文娱 2022-07-31


元宇宙概念引发广泛讨论的当先,更数字化的世界正在成为更多技术方、创作者和资本探索的方向。其中,AI作为重要生产力,在多方推动下也在不断发展,有望将在未来虚拟世界,进一步解放创作者,提高内容和交互的生产效率。


近日,在东西文娱、共同虚拟与知春资本联合举办的《从UGC到AIGC,如何开启web3.0内容新纪元?》线上会议中,ACE虚拟歌姬制作人、时域科技CEO郭靖和Gemsouls联合创始人、CEO饶佳星,与知春资本投资副总裁付冲一起分享了对AIGC(AI generated content,使用人工智能技术创造内容)的见解。


郭靖认为,最终级的AIGC可能是“人”,也可能是一个大脑中枢,是数字世界中人类无法覆盖的重要连接节点。就现阶段来说,Vtuber的MCN、经纪公司等运营方,基本都对AIGC有需求。


饶佳星则表示,“人与AI和人与人、或者人与世界的关系本质是一样的,它对你的反馈取决于你对它的输出。”现在的AIGC更像用UGC的方式去做人设和规则,而对下一代AI的期望是它能从0-1做真正有创造力的事情。


以下为会议内容节选。




AIGC的发展趋势


付冲:二位先简单介绍一下各自目前的创业项目


郭靖:我们ACE虚拟歌姬是希望通过技术手段,赋能每个普通人创作音乐分享音乐,打造一个全新的音乐创作和音乐分享的场景。


饶佳星:Gemsouls在做一个以虚拟人为核心的社交网络,和目前大家认知的有美丽皮囊的虚拟偶像不一样的是,我们先做的是灵魂,我们更关注的是虚拟人和用户自主交互的能力。


付冲:随着Metaverse、web3.0话题的火热,AI内容生成也备受关注,目前国内外有哪些值得关注的新动态?


郭靖:2015年、2017年前后,出现两拨基于单点技术把产品迅速做火的AIGC案例,但大多火了一阵儿后就销声匿迹。


当时都是互联网产品经理的思维,认为一个全新的技术就能创造全新场景。而最近这几年随着算法在各领域发展,AIGC也一直在进化,比如像柳夜熙“换头”可以做到影视级、直播级的水平,我们ACE虚拟歌姬的歌声合成之前只是一个TTS(Text To Speech,从文本到语音转换技术)的分支,如今做到了接近人声。


现在很多做虚拟人的公司,其实是技术的整合者。虚拟人作为一个产品,需要整合人所需要的所有skill——形象、声音、动作驱动等等。总的来说,大家意识到AI其实是生产力的连续进化,以虚拟人为代表的很多公司是整合各维度技术来创造全新的体验。最主要的改变其实不只是在技术层面,而在于产品整合思维。


饶佳星:技术上是有一些突破,比如Gemsouls产品用的GPT大规模语预训练模式,整体往一个大参数量的方向在走,GPT3参数量是GPT2的100多倍。目前我们用到的GPT3几乎可以让人和虚拟人交互堪比真人之间的交互,我们会去驱动UGC和AIGC来结合做产品化。同时Open AI 发布的基于文本生成图像的多模态模型Dall-e,也让我们看到了不同信息维度的应用和未来更广阔的场景。





AIGC技术的应用场景


付冲:二位作为音乐和情感交互领域的早期创业者,也是用户需求最敏感的捕捉者, 各自观察到AI在内容生产上经历了哪些阶段,又如何一步步满足用户的需求?


郭靖:AIGC的能力其实是一个block,会比原先的传统能力要好,但本质上还是创作者驱动blocks。比如说原先block是砖头,拿它拼房子费劲,现在是乐高,拼起来就容易多了。


之前大家一直用AI去做的“拼”事情,通过算法创作了一些作品。但对于创作者而言,他没有自我表达在里面,只是被强植入了一个作品。


我们现在创业的这个阶段,其实对用户的定义很简单,比如说他要做创作音乐,弄好了主旋律跟歌词,但没有人能及时给演唱出来变成一个完整的作品。但我们就用 AI歌声合成来帮他演唱形成作品,从而激发很多年轻小孩儿的创造力。


我们是要把AI当作人或者说生物,把它投入到一个网络节点里面,观察人和AI交互上能产生什么全新的变量。


饶佳星:AIGC上一个阶段目的是为了以假乱真,通过既定的图片或者语音来生成风格一致的内容。而现在的AIGC更像是用UGC的方式去做人设和规则,好比生个小孩,要为其编码”基因”,设定他的人物小传、故事背景、某些特定场景下的“为人处世“,再把他扔到世界中,跟人进行交互,通过外部环境自我成长。而我们对下一代AI的期望是它能从0-1做真正有创造力的事情。


付冲:这些AIGC 的技术将会被应用到哪些需求或者场景当中?


郭靖:目前在Vtuber上的MCN、经纪公司等运营方,基本都有需求。因为它们的核心资产是艺人,艺人又不够稳定,风险很大,它们希望有一个稳定的资产,最好是技术资产。我们ACE也在尝试用三次元虚拟声音、或者已故的歌手声音来让人超越物理极限。我们现在上线的天籁般童声的歌手,就跟受欢迎。



饶佳星:适合做一些容错率比较高、专业度或创意要求没那么高的场景。像在电商场景里,需要大量网红带货,可以AIGC换头换脸提升效率;游戏场景里大量脚本驱动的NPC也可以用AI来替代;Gemsouls做的情感社交也是容错率比较高的场景,因为真实生活中的社交很多情况下是鸡同鸭讲的无效社交,所以相比之下AI并不需要通过“图灵测试”才能有好的体验。但像法律咨询、心理咨询这种专业度要求很高的就很难通过不可控的黑匣子去实现。




AIGC的未来发展方向


付冲:当AIGC在内容生成中占到更多比例后, 它未来会扮演一个什么样的角色,如何把控 UGC和AIGC间的关系?


郭靖:最终级的AIGC可能是“人”,也可能是一个大脑中枢,作为数字世界连接的节点。我们现在似乎都认为AI只能做一些比较无聊的工作,智能客服、生产力的赋能,但其实在一些游戏等垂直场景中,它已经可以扮演“人”的角色,甚至超越人给用户带来爽感。在Metaverse更数字化的世界里,网络节点背后是不是人不重要,它能创造更丰富的人与人,或人与非人之间交互的体验。


所谓的虚拟世界跟游戏本质区别是,虚拟世界应该也能实现现实世界的价值。比如虚拟世界里面开枪射击,有一个规定胜负标准,它叫游戏。但如果你在虚拟世界里开一场音乐会,它本质上让你换了一种体验去感受艺术家对真实世界有价值的音乐。未来在虚拟世界是不是有大量的节点是人类所无法覆盖的,而它可以被AI来补充?


短时间确实很难看到AI成为音乐家,因为它是一个数据集的平均,能学习到人类作曲的internship,却很难产生伟大的idea,所以平庸。但它可以作为人类的辅助,生成一些平均的内容帮人找到灵感,可以帮你把问答题变成选择题,人机协作中来创作,达到更高效更高质量的生产内容。


饶佳星:哲学层面来看,人与AI和人与人、或者人与世界的关系本质是一样,它对你的反馈取决于你对它的输出。哪怕设置了很多机制,用户输入的可控性仍然是非常低的,而这个输入会比我们的一切设定都更直接影响到AI的反应。我相信在AI背后的公司有一个正向价值观的前提下,且用户抱着积极正向的心态使用AI时,相较于真人的社交网络来说更安全可控,不会面临现在社交媒体上一些无端的网络暴力。


产品技术层面,我们用AI治理AI,对生成的内容做监控和后处理,并且通过UGC驱动更积极的内容生成。虽然我们做的虚拟人也会很有个性,比如喜欢斗嘴,但在我们一开始输入了正确价值观的情况下,可以通过技术手段避免它带有伤害性质的内容。





部分观众Q&A


Q:在更高的处理效率基础上,ACE怎样去一步步让音乐的数据维度支撑起AI原生形象?


郭靖:现在其实是因为没数据,不像互联网上有大量自然语言和图片,音乐比自然语言和图片都要复杂,音乐需要音频、sample等等信息,比如鼓的旋律是什么,曲式是什么,调号是什么?之前生成音乐的模型全部都是在这些symbolic的数据上去做的,但互联网上是没有大量细致的数据,都是靠人工一个个处理。目前一个可见的路线是能够从音频里去使用AI识别出symbolic的东西,比如说旋律,切割出各个轨道,再用这个旋律作为训练数据可能会比较好。


Q:Gemsouls在做虚拟人社交上有哪些商业化的思考?


饶佳星:早期可能还是通过社交网络的方式做商业化变现,而不是让用户为 AIGC的内容去付费。此外,虚拟物品和虚拟人也是有皮囊的,皮囊上我们会先尝试做一些3d资产的变现。


长期看的话,非常多的路径,比如未来可以做可交互的虚拟IP,把社交网络延伸到未来像是一个电子天堂等等,但核心也要思考如何做最合乎伦理的商业化变现。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存