人人都在聊AIGC(AIGeneratedContent,人工智能生成内容)。
先是今年9月份一幅由AI绘图工具Midjourney创作的作品《太空歌剧院》获得了艺术比赛的首奖引起争议,而与此同时,StableDiffusion、Copy.ai、Jasper.ai等多个AIGC平台宣布了融资消息,一时间涌现出了多个独角兽公司。
另一方面,AIGC正面临着不少商业和技术的争议,内容本身的版权、良品率和工业标准问题,技术伦理的挑战,以及算力可能会集中在头部大公司的问题,未来的新机会究竟在哪里尚未可知。
很多报道 AIGC内容如何更好地进行内容版权保护?到底AIGC会让人工智能取代人类,还是辅助人类更高效地进行生产创作?关于这些问题,在这场圆桌讨论中也都有深入的讨论。
这是FounderPark的圆桌栏目「Tech、CoffeeorTea」的第一期,和「Founder」栏目聚焦创业者有所不同,这个栏目会 参与本次圆桌的创业者们分别是:
澜舟科技合伙人首席产品官李京梅
西湖心辰合伙人COO俞佳
数字力场科技创始人CEO张涛
ZMO.AI创始人CEO张诗莹
AIGC
的现状和争议
FounderPark:很多人说AIGC的大进步得益于底层大模型的进步,到底是哪些技术发生了革命性的变化?
李京梅:大模型到底是什么?严格说来应该叫预训练模型,可以追溯到年谷歌提出的Transformer技术*,在之后有真正的预训练模型开始涌现,谷歌的BERT、T5以及OpenAI、GPT-3模型等,还有阿里、百度、华为等推出的预训练模型。
Transformer模型:最早是由Google于年在「Attentionisallyouneed」一文中提出,在论文中该模型主要是被用于克服机器翻译任务中传统网络训练时间过长,难以较好实现并行计算的问题。后来,由于该方法在语序特征的提取效果由于传统的RNN、LSTM而被逐渐应用至各个领域。
预训练模型在技术上实现了哪些突破呢?首先是认知智能,NLP也就是自然语言处理,我们可以用人工智能技术去理解人类的自然语言。年机器AI的阅读理解的水平已经超过人类的水准了。
其次是感知智能,就是视觉上能看得懂、语音上能听得懂。为什么说NLP会被视为人工智能皇冠上的明珠,是因为当AI能够像人类一样做到能听会看,下一步的突破就是理解、思考以及决策了。
预训练模型跟以往传统的学习模型最大的不同,是预训练模型基于互联网公开的海量数据,可以做到无监督或者次监督学习,不需要人工打标,比如识别一只猫、一只狗,或者说这是一个名词还是动词等,都是通过机器自己的无监督学习,让模型AI有了基本的阅读理解、分类和分词的能力。
但是天下并没有一个可以解决所有问题的预训练模型,可以一套预训练技术解决不同语言、不同的任务,可以快速针对具体的某个领域、场景做针对性微调。而在此之前的学习模型都必须从零开始训练。也就是说,NLP大模型进入到了一个工业化实施的阶段,可以作为生意去商业化了。
还有就是,近来StableDiffusion模型开源,并且这个模型的规模相比于GPT-3小很多,能够在消费级显卡甚至手机上运行,瞬间让AIGC这件事的门槛降低了,普通消费者或者一般的公司都可以来尝试,公众可以来尝试各种发挥想象力的应用。澜舟科技也是自研开发了预训练大模型——孟子,并且通过轻量化技术,做到了十亿级参数量的预训练模型可以比肩超大规模的预训练模型。
俞佳:在京梅老师的回答上,我稍微补充下当下存在的问题。
实际上当我们真正面对用户的时候,会发现大模型还是存在着一小步的距离。不管是GPT-3还是T5,获取到行业信息生成通用文章的效果都还不错,但是文章的知识性或者言之有物的一面距离工业级应用还会有一些差距。这是目前商业化中会遇到的一些问题。
还有就是,除了生成质量之外,人对大模型的控制能力,或者说大模型如何能更好理解人的指令也是很重要的。
张诗莹:图像这边的变化主要源于Diffusionmodels(扩散模型),是学术圈和商业圈重新把之前的东西捡了起来。大家之前都是在研究GANs(对抗生成网络),OpenAI的研究人员发表了一篇论文说扩散模型在图像合成上优于目前最先进的生成模型的图像质量,然后大家就都去做Diffusionmodels了,事实也证明这确实是一条更好的路,后来出现的很多开源框架都基于Diffusionmodels。
其次,我也比较同意京梅老师的看法,大模型虽然很广,但是也没法解决所有行业的问题,也许未来算法突破后,算法集变大以及GPU变得更便宜后可以。当下还是要基于不同行业的需求,对模型进行修改和优化。
FounderPark:AIGC现在在不同领域生成内容的成熟度是什么样的?
李京梅:文本生成是其中相对比较成熟的,澜舟科技在去年成立之后就在营销文案领域进行了布局。
文本生成在技术上 在营销文案领域,我们和数说故事旗下的横琴容徽合作推出了contentnote智能文案,已经在去年年底就上线了。另外就是在文学写作辅助领域的应用也已经落地,和网文平台中文在线进行合作,主要给网文作者提供一些灵感和辅助,目前已经集成在他们的写作平台中。
图像生成比文本生成的进度稍微慢一些,还有一些细节问题待解决,比如人脸和手部的细节真实度等,脸部有扭曲或者六指这样的问题还有待去解决。
相比较文本生成和图片生成这种背靠开源红利,视频生成目前还存在不少门槛,至少有两个问题需要解决,首先是AI需要能够识别图片中的内容,然后基于此做一些插帧,这才能让生成的视频是一个比较真实连贯的视频。
不过不管是视频,还是文本生成,对于输入长度都会有限制,几百字的文本还行,再长可控性难度就比较高了。
张涛:3D内容生成这块确实存在很多问题待解决。
StableDiffusion推出之后,我们就快速将其引入到了3D内容生产的环境中。优点显而易见,在大量的内容贴图生成环节中可以帮我们降低成本。缺点的话,跟以前GANs类似,大家目前只能做一些很简单的风格控制,比如马变斑马、长发变短发等,离偏精细化的控制还有一段距离。
不像文本有海量的数据可以训练,网络上目前没有大量开源的3D资产数据可以直接用来训练大模型。我们现在走的路是一条比较艰辛的路,就是把3D的资产拆解后,用不同的方式去做,有些用传统的图形渲染的方式求解,另外一些通过StableDiffusion或者类似模型生成后再去做组合。
张诗莹:特别认同张涛老师的说法。
3D内容生成是很重要的,这是现在的游戏、动画以及未来的AR/VR场景下的痛点。如果3D内容生成可用,将极大颠覆游戏、动画乃至未来世界的叙事方式。
现在图片生成还是2D的形式,我们希望未来可以直接输入文本生成3D内容,用一种humanfriendly的方式去生成,也不需要很多工程师。现在2D生成3D,是一个自由度更高的挑战,不仅要改变形状和呈现形式,还要考虑移动方式等,而到了视频时代,还要考虑不同的角度,以及光影等,难度更大,但也会更加震撼。
俞佳:从技术成熟度来看,文本生成确实比图片生成更成熟,但是这个成熟度如果和人类的本身能力去比较的话,其结果可能是反过来的。
大部分用户都有一些基础的写作能力,可以写出75-80分的文章,现在的文本生成模型可能在70分左右;而对于图片生成来说,大部分用户不经过几年专业画图训练的话,可能是无法超过现在的图片生成模型的。图片生成模型的成熟度在这几个月内得到了极大的突破,可能在未来几个月也会有更快的调整。
FounderPark:如何看待AIGC内容的版权问题?
俞佳:盗梦师现在遵循的是CC协议,版权属于创作者本人。不过现在确实有一些艺术创作者担心自己的作品被喂给大模型训练后,可能会丧失对自己的图片的版权保护,我有一些更开放性的想法。
版权的本质是对创作者的知识产权和收益权的保护,版权的概念早在互联网出现之前就有了,本身的内涵也在随着技术的发展而变化,也许将来对创作者的收益分成机制也叫版权,比如说使用区块链技术或者其他大家认可的一种分配方式。如果是你的图被模型训练了,那么将来使用这个模型创造出来的所有的作品的商业收益你都获得分成;或者是使用你的图训练了一个私有模型,那么别人可以直接进行付费购买这个私有模型进行内容创作。
所以我觉得,版权问题,或者说创作者的收益保护问题一定会随着行业的发展得到更好的解决方案。
张诗莹:如果把AI看做一位小朋友的话,一定会经历从模仿到创新的过程,一开始是从临摹开始,后来才会有创造和超越。AIGC中最强调的就是AI的创造能力,不是只去模仿,是可以在学习的基础上创造新的东西。所以我们也鼓励所有的创作者,来和AI一起创造一些更美更有趣的内容,也更鼓励我们的用户去用更创新的方式去创作新的内容,而不是只模仿某一位艺术家的风格。
02
AIGC产品
在国内的商业落地
FounderPark:ZMO.AI的产品主要布局在哪些方向?
张诗莹:我们很早就意识到AIGC是AI的下一波浪潮,上一波浪潮是感知智能,下一波应该就是怎么感知。目前我们在海外商业化落地的时候,主要围绕三个方向。
首先是电商营销,电商营销分为博客营销和社交媒体营销。博客创作需要配图,传统都是在图片素材库购买,成本比较高,现在可以直接用AIGC生成。社交媒体的营销对于图片的photorealism(照片写实主义)要求比较高,尤其是细节和光影等,我们目前也优先从这个点切入。
第二个方向是3D素材的生成,目前还没有到可以直接驱动生成3D人物形象的阶段,但是可以帮助游戏和动画原画师,去更好地获得灵感。因为之前设计师都是靠画很多张草稿,然后从中选出一张满意的,不一定需要很精细的素材。
最后是设计领域的参考素材库,微软前一阵也发布了Designer软件,为用户免费提供设计模版。AIGC在其中既是生成器又是编辑器,可以生成设计师需要的素材,也可以进一步编辑成为更加完整的设计。
FounderPark:ZMO.AI的产品基于开源的StableDiffusion做了哪些创新改进?
张诗莹:最大的不同是我们一开始就聚焦在真实照片的生成。这也导致我们选取的模型不同,StableDiffusion是在隐空间直接生成图片的方式,而我们需要一些更真实的照片,光影包括细节需要更细腻,所以更多是在像素等级,基于多层级的方式去做模型的结构优化。
还有就是,我们是围绕商用的场景,对图片分辨率比较看重,一般会输出1k以上分辨率的图片,整个的算法、模型结构和优化策略也会有所不同。
语言处理上,中文的语法和英文很不一样,开源数据集也是以英文为主,对英文的处理会更好。因为产品面向海外市场,所以中文、英文的数据都进行了训练。后期可能会针对不同国家,在数据上做更多的优化,比如针对国内市场的应用,使用更多的中文数据集。
FounderPark:介绍下盗梦师这款产品,你们的底层技术是如何实现的?做了哪些创新?
俞佳:我们现在有三款产品:图片生成的盗梦师、文本生成的FridayAI和心理聊天机器人。盗梦师目前有接近50万用户,用户粘性还是很强的,次日留存接近40%。
盗梦师的用户分为两类,第一类是兴趣型用户,对AIGC的技术感兴趣,头脑中有很多故事和画面但是自己没法画出来,于是用盗梦师实现了自己的梦想,很多用户都在访谈中表示使用盗梦师创作小故事,这也是我们一直说的要赋予用户画出言之有物的图像的能力。
还有一部分用户是专业画师或者设计师,他们更多把盗梦师当做素材和概念来源,对他们来说,可以很清楚地进行需求描述,很快得到概念稿。对于这样的专业用户,我们做了一定程度的优化,而对于普通用户是免费的。
我们也是基于diffusion技术进行开发。在我看来,当下的AIGC会有两个比较关键的问题还没有被很好地解决。一个是模型本身的理解能力,给模型一段文字或者一张图,它能理解多少,这其中有很多的gap,比如说语言的隔阂,模型训练时使用的都是英文,自然对中文的理解会存在问题。基于此我们做了模型的前置理解部分,让模型去更好理解文本的内容。
除此之外,如果想在工业级别或者企业级别上使用内容生成,当下的图片生成更多是做到了好看,但是没有细节,缺少言之有物的东西。重要的是模型要能够有常识和逻辑,理解语义的能力,我们在这个方面做了比较多的创新和优化,这是现在的开源模型或者其他竞品所不具备的。
还有就是,我们会根据用户的输入,通过强化学习的方法来增强模型的能力,因为有不少专业用户输出了专业的描述词汇来生成很好的内容。
FounderPark:澜舟科技的文本生成产品现在发展得怎么样?
李京梅:澜舟科技是做自然语言入手的,我们去年做先做的就是文本生成,目前的产品就是contentnote智能文案,主要针对营销文案的智能化写作。
AI辅助创作营销文案主要是三步,首先是选择写作模版,产品营销、好物推荐还是科普等,然后确定文案的标题,输入品牌和具体的商品,这样其实就有了初步文案的生成,用户可以在最后进行关键词选择,比如雅诗兰黛的护肤产品,就会有类似清爽、淡斑之类的关键词可选。营销人员基于生成的内容进行二次编辑,很多时候可以做到80分的水准,可以满足批量或者紧急情况下的内容生成,提高了效率。
我们还有一个文学创作辅助的应用,现在已经开放了api接口,大家可以去澜舟科技的 而具备了文本生成和图像生成的能力,我们就可以给用户提供更多的可能性,比如图文并茂内容的一键生成等。
另外我们也上线了一款小程序——熊猫小说家,提供小说接龙的功能,你可以邀请你的朋友,大家一起来集体创作一个故事,AI会根据你选择的关键词生成故事走向,分享给你的朋友后他可以进行续写。
我们目前还是在垂直场景进行发力,在孟子这个预训练模型的基础上,整体走轻量化的策略,持续进行自研,去做多模态跨模态的融合,面向不同的场景做融合。
FounderPark:数字力场在AIGC上的探索方向是怎么样的?
张涛:我们主要聚焦在数字人和数字人服装的低门槛生成。现阶段流程已经打通,不过还需要进一步提升品质。
对服装来说,3D服装面对的挑战也有很多,光线、人物动作、周围环境等的影响,还要配合不同的avatar,衣服的材质建模以及物理仿真等,这些环节都有一系列的挑战,我们目前算是磕磕碰碰跑完了整个流程,不过还处于调优级别。
为什么切入这个方向,我们认为当AIGC的可以大量生产内容之后,数字人也许也可以通过这样的方式生产,包括数字人的服装、配饰等,毕竟行业内总是需要低门槛的生成方式,而不是全靠建模师、美术师一件一件去生产,这是我们目前比较看好的点。
03
AIGC创业最终面对
的是内容创作者
FounderPark:ZMO.AI的产品功能上,还有哪些创新的点?
张诗莹:我们一直觉得从内容生成到内容编辑是非常完善的内部链条,生成图片只是第一步,后续用户还可以对图片进行编辑,加入文字等。我们去做Editor这款产品也是希望能带给用户完整的体验。尤其是对于很多设计师来说,很多时候都是从生成元素开始,然后在元素的基础上设计海报或者包装,这些都是链条上不可或缺的一环。
我们的Editor产品尝试将编辑的门槛降得更低,用户不需要去学习复杂的PS技术等。未来在包装、建筑和服装设计领域等,AIGC能够帮助到大家很多,不管是提供灵感还是帮助他们直接生成内容,而在3D生成成熟后甚至可以直接对接到制造业。
FounderPark:ZMO.AI的产品是ToC还是ToB的?会聚焦在哪些领域?
张诗莹:我们的IMAGECREATOR最早在国外上线,最近在国内也推出了YUAN初小程序,为什么叫这个名字是因为觉得YUAN很有想象力,可以叫它源远的「源」,也可以叫它为远大的「远」或者愿景的「愿」都可以。
产品的定位是tocreator,所有的创作者,没有严格说一定是ToB或者ToC。我们认为在未来,当AIGC变成所有人都可以使用的时候,B和C的界限会很模糊。很多人一开始可能是个人消费者C,他通过自己的设计和作画,有了自己的作品开始挣钱了,慢慢就变成一个小型的B了。大家都是创作者,人人都可以创造。
目前会聚焦在电商方向,但是会在此基础上进行拓展。因为模型的生成能力是底层的能力,最后的落地可以有很多场景,电商只是其中的一部分。具体来说我们会聚焦在三个领域。
第一个是真实图片的生成能力,第二个是3D内容的能力,第三个是专业的插图能力,这种插图包括后现代、儿童等各种插画风格。本质上是一个内容生成和创造的平台,能够在上面创造各种内容,帮助到用户更好创造价值。
FounderPark:对于图片生成,ToC会是更值得期待的方向吗?
俞佳:在我看来,AIGC的ToC领域一定会出现非常大的平台,因为人类的创作成本史无前例地降低了,创作形式的变化会带来内容消费形式的变化。因为有了智能手机,人们可以更方便地拍摄视频,才出现了抖音,当大家可以更快速地去创作图片或者视频内容的时候,一定会出现另一种内容消费平台。也许将来会出现很多的网络漫画,因为只要有故事和想象力,你就可以自己创作自己的漫画。这种创作生产力的突变会带来一些新的机会,当然竞争也会很激烈。
FounderPark:文本生成类产品,海内外的产品有什么区别?
俞佳:海外的文本生成应用也有现象级的公司比如Jasper、copy.ai等,海外公司的优势在于起步较早,国外用户对于SaaS类产品付费接受度比较高,对于能够节省时间的产品,他们的付费意愿是很高的。
国内用户对于工具类产品付费意愿没那么高,但是对于那些工具确实能够帮他们挣钱的用户,比如跨境电商、新媒体创作的用户,付费意愿就比较高,所以我们除了这一类用户外,也会发展一些ToB的合作。
04
AIGC
的未来可能性
FounderPark:从商业化角度考虑,如何提高AIGC的良品率?
张涛:两个层面吧,首先是从模型的底层控制入手,朝着更精准的方向优化。底层改造需要投入大量的资源和数据资源。
其次是生产层面,对于大模型来说,想进行精准的调整是有难度的,我觉得可以在运营层面投入更多的资源进行调整,比如输入更准确的描述,内容把控上更严格等。
李京梅:当下其实还没有放之四海而皆准的解决方案。从技术层面来看,我们更 还有一个最根本的理念,不管是NLP还是AIGC,大多数场景下应该都是人机互动的方式生成最后的成品,也就是说最终能否产出良品,还是把握在操作者的手中。这是目前以人机交互的形式产出内容的客观局限性。
俞佳:现阶段讨论建立工业标准可能有点言之过早,可能文章的完整性、并发数、QPS等这些传统指标是可以作为监测标准的。
我觉得在很长的一段时间内,人一定是和AI共同完成创作。早期阶段人需要做的是不让AI跑偏,随着AI能力的上升,人需要去提供创意,或者按照自己的审美从结果中选择好的内容。不管是短期还是长期,这种交互关系是值得深入去研究的。
张涛:我们现在更多是聚焦,在垂类上更加聚焦,逐步提高产出的细节、光照等质量。
其次是重视用户反馈,当生成的图越来越多,用户的反馈就很重要,可以帮助大模型进一步优化,达到更好的状态。
FounderPark:3DAI模型训练进展比较缓慢,你们如何解决3D模型训练素材少的问题?
张诗莹:我们会使用渲染引擎专门生成一些数据来做训练,这些能够覆盖到我们聚焦的场景,但是没办法泛化到所有场景,而且相对来说获取成本有些高。未来还是期待会有大厂无私放出一些数据帮助大家。
张涛:我觉得进展慢是正常的发展规律。14、15年多模态发展起来的时候,很多人去做文本生成和图片生成,也是积累了很长时间,即便是到了今天的DALL·E2,也是经历了一段时间才爆发。现在数据比较难,将来一定是要依靠某些开源数据的大力推进,这一点我是认同诗莹老师的。
但是即便是这样,我仍然觉得目前3D的进展不慢。回到元宇宙概念爆发之前,行业内的3D资产很多是在游戏行业,这个赛道是相对更封闭,有固定的盈利模式,人才培养和生态也是有自己的闭环,人才很少流入到其他行业。随着元宇宙赛道的火热,以及游戏行业这两年受到的牌照、疫情的冲击等,整个行业的人才流失到了其他行业。当这些不同行业的人才碰撞在一起,开始探讨AIGC的内容突破的时候,我觉得这个赛道才刚刚开始。
现阶段大模型很难取得让人惊讶的成绩,因为大家现在习惯影视和游戏高成本制作的3D模型,但是一年之后,3D模型生成的状态一定不是今天这种粗糙的状态。要知道,三年以前文本和图像大模型的状态也是不可控的。
FounderPark:很多AIGC公司都是在开源模型的基础上进行优化和产品开发,应该如何搭建自己的技术壁垒?
李京梅:澜舟科技是一直坚定走开源路线,孟子的面向不同场景的17个开源模型都可以在开源站上体验到。对我们来说,首先让社区内尽可能多的伙伴把东西用起来,收集更多的反馈,然后再找到不同场景里存在的不足,再去优化我们的大模型。
作为创业公司,上游的数据采集和硬件显然不是我们要走的方向,我们走的是更落地的路线,所以要去不断打磨我们的大模型,以客户的应用场景为导向,提供轻量化的可快速落地的方案。
人工智能的三要素:算力、算法和数据。当大家共创生态圈的时候,自然是有算力的出算力、有数据的出数据,我们做模型也是希望能改进算法。大家一起把蛋糕做大,让更多应用开发者和厂商能够有更多想象空间,一起促进产业生态发展。
俞佳:AI的三要素,算法模型目前有比较好的基础,而且模型的创新可能要面临整个开源社区和学术界的挑战;算力面临着大公司的挑战,在数据层面我觉得是可能有自己的护城河的,这也是我们选择去做ToC产品的出发点。我们能够直面用户,切到具体的行业,获得非常好的一手数据,这是我们的一个优势。
FounderPark:长远来看,AIGC还有哪些方向的创新值得 俞佳:在动漫化、元宇宙等强内容消费行业,AIGC会有非常大的发展。
张诗莹:首先是在设计领域会有一个爆发,比如已经出现的Figma插件等。然后营销领域的发展应该也是比较快的。
而在日常生活中,大部分人都会接触到设计的需求,比如短视频、广告语、产品包装设计等,这些工作在未来会跟AIGC有越来越多的结合,能够帮助到更多人在线下、线上更好地进行内容创造。
张涛:第一,因为AIGC能够更高效地生产内容,目前主流的短视频平台肯定会大量通过AIGC生产内容,这是目前比较旺盛的需求。
第二,通过AIGC协助设计师,降低成本、提高生产效率。
第三,游戏领域,更高效地产出NPC和提高生产力。
第四,目前的元宇宙和3D内容生产领域,生产力还是很低下的,大量内容生产需要人工去填补,AIGC在这个领域还是比较有前途的。
李京梅:还是回归到人类和人工智能的关系上,我觉得人类不要放弃去做有创造力的工作,机器还是要跟人学习的。在未来几年,人工智能会用在那些帮助人类提升效率的地方,虚一点说,把创造力、创意相关的工作留给人类,人工智能去提升效率。人类和机器能够更加和谐相处,找到自己的位置,最终还是机器为人类创造价值。
技术最终的价值其实并不是取代人,而是真的去帮助人更好创造价值。
*以上嘉宾观点不代表FounderPark立场,也不构成任何投资建议。
文中提到的一些应用和网站如下:
YUAN初: IMAGECREATOR: 澜舟科技: contentnote容徽: FridayAI: 盗梦师: 小程序:盗梦师、聊会小天、熊猫小说家、YUAN初
来源:极客公园