【德邦马笑传媒互联海外】AIGC专题:探析AIGC的技术发展和应用
(以下内容从诚通证券《【德邦马笑传媒互联海外】AIGC专题:探析AIGC的技术发展和应用》研报附件原文摘录)
投资要点 AIGC成为新的内容生产方式,跨模态生成值得重点关注。区别于PGC与UGC,AIGC是利用人工智能技术自动生成内容的新型生产方式。按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,其中,跨模态生成需要重点关注。 自然语言处理(NLP)赋予了AI理解和生成能力,大规模预训练模型是NLP的发展趋势。NLP的两个核心任务分别是自然语言理解(NLU)和自然语言生成(NLG)。以ELMo、BERT、GPT为代表的预训练模型,降低了NLP的技术门槛。ELMo解决了“一词多义”的问题;BERT通过MLM(类似于完形填空)和NLP(判断句子是否相连)进行预训练,增强了上下文的理解能力。GPT通过预测下一个词,获得了生成能力;GPT-3在此基础上使用了更大的数据和更大模型,无需针对下游任务进行传统的微调,并且采用了小样本学习提升生成效果。 ChatGPT是NLP发展中具有里程碑式意义的模型之一。ChatGPT是OpenAI从GPT-3.5系列中的模型进行微调产生的聊天机器人模型。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。 生成模型赋予了AI创造力,扩散模型是最前沿的技术之一。AIGC的快速发展归功于生成算法领域的技术积累。GAN的核心思想是“生成”与“对抗”,相比传统的深度神经网络,GAN能产生更好的生成样本,但是仍需解决应用中的问题。扩散模型较GAN更接近人的思维模式,是基于马尔科夫链,通过学习噪声来生成数据。扩散模型实现了跨模态应用,包括OpenAI的GLIDE和DALL·E 2、谷歌的Imagen、Stability AI的Stable Diffusion等。 人工智能由单模态智能,向多种模态融合方向发展。建立统一的、跨场景、多任务的多模态基础模型或将成为人工智能发展的主流趋势之一。CLIP模型将语言信息和图像信息联合训练,能够链接文本和图片,成为跨模态生成应用的一个重要节点,“CLIP+其他模型”在跨模态生成领域成为一种较为通用的做法。2022年,微软提出的BEiT-3多模态基础模型,在视觉-语言任务处理上具备出色表现,包括视觉问答、图片描述生成和跨模态检索等。多模态提高了基础模型的灵活性,使其在其他模态的应用中发挥新的潜质。 未来,值得关注的技术要素包括:长文本生成、开放式文本生成、NeRF模型、扩散模型、跨模态大型预训练模型(支持的模态数据类型、模态对齐架构设计、支持的下游应用)、小样本学习及自监督算法、强化学习及环境学习等。 投资建议:把握AIGC技术催化和商业落地的投资机会。技术发展有望促进生产效率提升,并进一步创造新的消费和需求,有利于文娱内容和互联网行业。在AIGC和ChatGPT方面,我们建议持续关注技术发展和应用情况,把握技术催化和商业化落地带来的投资机会:1)具备AIGC和ChatGPT的技术探索和应用的公司:百度集团-SW、商汤-W、万兴科技、拓尔思等;2)具有海量内容素材且具有AIGC探索布局的,图片/文字/音乐/视频内容及平台公司腾讯控股,阅文集团、美图公司、视觉中国、中文在线、汉仪股份、昆仑万维、天娱数科、风语筑等。 风险提示:技术发展不及预期、监管政策变化、知识产权相关问题等。 目录 1. AIGC的跨模态生成值得重点关注 2. 基于大模型预训练的NLP赋予了AI理解和生成能力 2.1.ELMo将输出的词向量作为特征,解决了“一词多义” 2.2.BERT通过上下文预训练,提高了理解能力 2.3.GPT-3利用超大数据和超大模型省去了微调过程 2.3.1.ChatGPT趋近人类价值观和意图,有望进一步商业化 3.基于大模型的主流生成模型赋予了AI创造力 3.1.GAN是基于“生成”与“对抗”提出的生成模型 3.2.扩散模型更接近人的思维模式,实现了跨模态应用 3.2.1扩散模型实现了从文本到图像的跨模态应用 4.人工智能由单模态智能,像多种模态融合方向发展 5.AIGC技术不断发展,有望带来更多商业化价值 6. 投资建议:把握AIGC技术催化和商业落地的投资机会 7. 风险提示 正文 1. AIGC的跨模态生成值得重点关注 根据中国信息通信研究院发布的《人工智能生成内容(AIGC)白皮书》,目前,对AIGC这一概念的界定,尚无统一规范的定义。国内产学研各界对于AIGC的理解是“继专业生成内容(Professional Generated Content, PGC)和用户生成内容(User Generated Content, UGC)之后,利用人工智能技术自动生成内容的新型生产方式”。传统AI关注对于现有数据的分析能力,而AIGC注重生成创造新事物的能力。按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,其中,跨模态生成需要重点关注。 自然语言处理(NLP)与生成模型是AIGC发展的重要技术支柱。自然语言处理增强AIGC的认知能力,使得人类语言与计算机语言之间实现互通;生成模型升级AIGC内容创作能力,使生成的作品更接近人类思维与偏好。 AIGC近年来的快速发展依赖于生成模型、预训练模型和多模态等技术的融合。生成模型从GAN发展到后续的扩散模型,不断趋近人的思维模式。预训练模型提高了AIGC技术的灵活性和效果质量。基于大量数据训练的巨量参数模型可以轻松应用到下游任务中,降低了使用门槛和技术成本,推动了自然语言处理、计算机视觉等技术的发展。多模态技术提高了AIGC的通用性,使得图像、声音、语言等互相融合。 2. 基于大模型预训练的NLP赋予了AI理解和生成能力 自然语言处理(NLP)主要研究用计算机来理解和生成自然语言的各种理论和方法,属于人工智能领域的一个重要甚至核心的分支。自然语言处理(NLP)的两个核心任务分别是自然语言理解(NLU)和自然语言生成(NLG);四大任务是序列标注(分词、语义标注等)、分类任务(文本分类、情感计算等)、句子关系判断、生成式任务(机器翻译、文本摘要等)。人工智能应用领域的快速拓展对自然语言处理提出了巨大的应用需求。 2018年,NLP正式进入“预训练”时代,简化了下游任务模型的接入,降低了NLP的技术门槛。预训练是指,首先在一个源任务上训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调,从而达到提高下游任务准确率的目的。预训练的优势在于,一是对庞大的文本语料库进行预处理,可以学习通用的语言表征,帮助完成下游任务;二是预训练提供了更好的模型初始化,带来更好的普适性并加速与目标任务的衔接;三是,预训练可以看作是一种正则化方法(regularization),以避免对小数据的过度拟合。 2018年3月,AllenNLP提出了ELMo模型,属于Feature-Based模型,使用预训练模型产出的词向量作为输入,接入下游的独立的模型进行预测。 2018年6月,OpenAI提出了第1代GPT模型,开启了大规模预训练语言模型时代。GPT属于Finetune-Based模型,在目标任务上精调整个模型,而不是只将模型的输出结果作为固定的词向量特征。由于预训练模型自身非常复杂,因此接入的下游任务模型可以非常简单,很大程度上降低了NLP的技术门槛。 大规模预训练语言模型的发展趋势之一,是使用更大规模的数据训练更大的模型。ELMo的参数量约为94M,GPT-1的参数量约为110M,BERT的参数量为340M,GPT-2的参数量约为1.5B,GPT-3的参数量约为175B。随着技术的不断成熟,大模型在开发成本、易用性、开发周期、性能上会更具优势,给产品化和商业化带来更多可能性。 2.1.ELMo将输出的词向量作为特征,解决了“一词多义” ELMo(Embeddings from Language Models)是由Allen AI于2018年3月发表的基于RNN的语言模型。ELMo的主要突破在于引入词向量(Word Embedding)作为输出,解决了“一词多义”的问题。 ELMo在RNN的基础上,整合上下文信息,获得对应的词向量。RNN所实现的是,输入一个词汇,就可以输出它之后所对应的词(Token)。例如,输入表示开始,RNN就输出“潮水”;输入“潮水”,就输出“退了”,以此类推。双向的RNN会将正向和逆向的词嵌入接起来,作为最终的词向量,因此前后文的信息都可以使用到。RNN可以有多层,因此会产生很多个上下文词向量,ELMo会将所有的上下文嵌入作加权和,权重是根据不同的下游任务学习出的。 由于ELMo形成词向量是根据不同的下游任务学习出的,因此每一个词并非对应唯一的词向量。同时,对于ELMo而言,上下文中意思相近的词拥有相近的词向量。例如,在句子“我喜欢吃土豆”中,“土豆”的表示应该和“马铃薯”相似;而在句子“我在土豆上看电影”中,“土豆”的表示则应该和“爱奇艺”相似。 2.2.BERT通过上下文预训练,提高了理解能力 BERT(Bidirectional Encoder Representation from Transformer)是由Google于2019年6月发布的语言模型。BERT的双向性(Bidirectionality)使其可以充分利用文本上下文,并通过MLM(类似完形填空)和NLP(判断句子是否相连)任务进行预训练,在NLP任务(除生成任务外)中取得了更好的效果,例如阅读理解等。 BERT采用了预训练和微调的两阶段模型,属于半监督学习模型(Semi-supervised Learning)。BERT的预训练过程采用大量的无标签数据,是自监督学习(Self-supervised Learning);微调过程采用少量的有标签数据,因此是有监督训练(Supervised Learning)。 BERT的预训练有Masked LM(MLM)和Next Sentence Prediction(NSP)两种方式。MLM类似于完形填空,是将输入的句子中15%的词随机遮盖,BERT需要猜测遮盖住的部分是什么字,训练目标是最小化预测词的误差。NSP是从训练集中拿出两个句子,BERT需要判断两个句子是否相连。如果两个句子是连在一起的,那么就输出Yes,如果不是,那就输出No。 BERT的双向性使其可以更好地理解人类语言,但在一定程度上限制了它的生成能力。相较于单向模型仅通过上文即可进行后文续写生成,双向模型在缺乏下文语境时生成能力受限。 2.3.GPT-3利用超大数据和超大模型,省去了微调的过程 GPT(Generative Pre-Training)是由OpenAI于2018年6月提出的。GPT与BERT同样是基于Transformer,但是单向模型,因此它具有更好的生成能力。GPT需要做的是预测下一个词是什么。例如,输入 进入GPT,输出“潮水;输入“ 潮水”,输出“退了”;输入“ 潮水退了”,输出“就”,以此类推。 GPT-1与BERT类似,分为预训练和微调的两阶段模型,属于半监督学习模型。 GPT-2在GPT的基础上进行改进,通过模型扩容并学习更多数据,实现了零样本学习(Zero-shot Learning)。GPT-2将Transformer模型参数扩容,堆叠的层数增加到48层,从而可以保存更多的语言学知识;可学习参数量达到了1.5B。同时,GTP-2使用了超过800万个互联网网页,合计40GB的文本数据进行预训练。这些数据覆盖主题广,并对数据的质量也进行了筛选,因此训练出的模型具有更好的通用性。基于对大量优质样本学习,GPT-2可直接通过无监督的方式去完成下游任务,不需要下游任务的任何标注信息,因此基本实现了训练一个模型可在多个任务中使用。 GPT-3结构在GPT-2之上继续进行改进。一是使用了更大的数据量并扩大了模型。GPT-3数据量达到45TB,约为GPT-2的1000倍;可学习参数达到175B,约为GPT-2的100倍。二是,GPT-3不再追求零样本学习,而是通过小样本学习(Few-shot Learning),获得更好的训练效果;后续对下游任务开放微调以获得更出色的表现。不同于传统基于下游任务的微调模式,GPT-3将例子直接作为模型输入。给GPT读过这些例句,它自动知道怎么解接下来的问题。2021年12月14日,GPT-3对下游用户开放了微调,微调后的GPT-3准确性大幅提高。例如,在解小学数学问题时,准确性提高2到4倍。 2.3.1.ChatGPT趋近人类价值观及意图,有望进一步商业化 ChatGPT是OpenAI使用RLHF(Reinforcement Learning from Human Feedback)训练出的模型,是从GPT-3.5系列中的模型进行微调的。RLHF基于人类的反馈调整模型,一定程度上解决了AI Alignment(人工智能对齐)的问题,即要求AI系统的目标和人类的价值观与意图保持一致。 参考李宏毅教授给出的解读,Chat GPT的模型学习方法与Instruct GPT类似,分为四个阶段。 第一阶段,学习文字接龙。例如,输入“你好”,通过GPT后输出“美”。GPT每一次的输出可能都是不同的,因为在网络上的语句中,“你好”后面有多种接法,例如“你好高”、“你好吗”,而输出结果是遵循概率分布的,高频组合出现的概率较高。 第二阶段,由人类老师引导文字接龙的方向,即找人来思考想问GPT的问题,并人工提供正确答案。不需要穷尽所有问题,只需要告诉GPT人类的偏好。 第三阶段,生成奖励模型(Reward Model)来模仿人类老师的喜好。例如,输入“台湾最高的山是哪座?”进入GPT,输出可能有两个结果,输出一是“玉山”,输出二是“谁来告诉我呀”。两个回答都可以与问题衔接,但是人类的偏好是输出一,因此Reward Model给两个输出排序时,输出一是高于输出二。 第四阶段,使用奖励模型作为奖励函数,近端策略优化(PPO)算法微调策略,通过调整参数获得最大的奖励。 ChatGPT的应用包括但不限于,问题解答(包括解释代码块的作用)、求解数学方程式、写作文本、调试和修复(包括更正代码错误)、语际翻译、总结文本并检测文本中的关键词、分类、提出建议等。 ChatGPT月度用户已破亿,正在逐步探索商业化途径。根据UBS统计数据显示,ChatGPT上线2个月后月度用户数量破1亿。根据SimilarWeb数据,截至1月30日,过去28天内日独立访客数已接近1300万。2023年2月1日,OpenAI推出付费订阅项目ChatGPT Plus,价格为$20/月,目前面向美国用户。付费服务包括,在高峰时段也可常规访问ChatGPT、更快的响应、以及优先访问新功能和改进。与此同时,ChatGPT将继续提供免费访问。此外,OpenAI还将很快推出ChatGPT API,积极探索低成本计划、商业计划和数据包的选项,以提高产品的可用性。 3. 基于大模型的主流生成模型赋予了AI创造力 AIGC的快速发展归功于生成算法领域的技术积累,其中包含了:生成对抗网络(GAN)、变微分自动编码器(VAE)、标准化流模型(NFs)、自回归模型(AR)、能量模型和扩散模型(Diffusion Model)等。 3.1.GAN是基于“生成”与“对抗”提出的生成模型 2014年,Ian J.Goodfellow提出了GAN,是一种深度神经网络架构,其核心思想是“生成”与“对抗”。GAN网络结构包含两个模型,一个是生成模型(Generator,G),另一个是判别模型(Discriminator,D)。生成模型通过输入的数据生成图像;判别模型工作主要是负责判断生成模型所生成的图像是人工绘制还是AI生成。 以画人像为例,第一代G1不知道如何画,因此生成的图像模糊;第一代D1学习到,判断的方法是图片是否有眼睛;第二代G2会生成眼睛以“骗”过D1;第二代D2又学习到可以用是否有嘴巴来判别;由此第三代G3会生成嘴巴,以此类推。直到最后,当判别模型分辨不出生成结果是否真实的时候(判别概率为0.5),模型达到纳什平衡点,即为最理想的状态。 GAN是生成模型的一大突破,相比传统的深度神经网络,能产生更好的生成样本,但是仍需解决应用中的问题。一是,解决训练不稳定问题。GAN模型的相互博弈过程容易造成训练不稳定,使得训练难以收敛。二是,缓解GAN的模式坍塌(model collapse),即生成样本大量重复相似。它会造成训练结果冗余、生成图像质量差、样本单一等问题。 3.2.扩散模型更接近人的思维模式,实现了跨模态应用 扩散模型(Diffusion Model)最早是2015年由Jascha Sohl-Dickstein等人提出的。2020年Jonathan Ho等人发表了《Denoising Diffusion Probabilistic Models》之后引发众多关注。与GAN等模型最大区别在于,扩散模型是基于马尔科夫链,通过学习噪声来生成数据。 扩散模型通过正向扩散过程进行学习,并通过逆扩散过程实现生成。扩散过程中,正向扩散过程,是从真实图像X0不断学习噪声,变换成纯高斯噪声的图片XT,即一个马尔科夫链。模型需要通过逆扩散过程进行生成,XT通过沿着马尔科夫链向后遍历,可以重新生成新的数据X0。 扩散模型的生成逻辑相比其他的模型更接近人的思维模式。本质上,扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程来学习恢复数据。训练后,可以通过简单地将随机采样的噪声传递给学习的去噪过程来生成数据。相比于其他模型,扩散模型的优势在于生成的图像质量更高,且无需通过对抗性训练,这使得其训练的效率有所提升。同时,扩散模型还具有可扩展性和并行性。 3.2.1.扩散模型实现了从文本到图像的跨模态应用 基于扩散模型的示例架构包括OpenAI的GLIDE和DALL·E 2、谷歌的Imagen、Stability AI的Stable Diffusion等。 GLIDE (Guided Language to Image Diffusion for Generation and Editing),是OpenAI推出的文本引导图像生成模型。GLIDE的训练步骤为,首先使用文本条件扩散模型作为基本模型进行预训练,利用到了Transformer对文本进行编码,使得文本可以对图像进行引导。然后再对模型进行微调,实现无分类器引导,保留文本引导图像生成的同时也可执行无条件图像生成。GLIDE还支持通过文本作为提示(prompt)对图像进行修复,例如,将人像中的头发抹去,提示中输入“红发男子”,GLIDE会对人像的头发进行修复。 DALL·E 2是OpenAI于2022年4月发布的系统。DALL·E 2系统背后的模型称为unCLIP,使用CLIP作为图文预训练模型,获得文本描述和图像的嵌入,再通过扩散模型的思路构建生成过程。CLIP是OpenAI发布的一个多模态模型,基于大量图像和文本对上训练,可用于查找最能代表图像的文本片段,或查找给定文本查询的最合适图像。DALL·E 2生成的图像分辨率较DALL·E和GLIDE提高了4倍。 谷歌于2022年6月发布的Imagen,利用了大型Transformer语言模型在理解文本方面的能力,以及扩散模型在高保真图像生成方面的能力。Imagen的工作模式为,在用户输入文本要求后,条件扩散模型将文本嵌入映射64×64的图像中;Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256,再从256×256升到1024×1024。 Stable Diffusion是Stability AI发布的文本到图像模型,目前已更新到2.0版本。Stable Diffusion的生成速度较快,在几秒钟内便可创造出艺术作品。2.0版本更新了文本转图片扩散模型(Text-to-Image Diffusion Models)并加入了超分辨率扩散模型(Super-resolution Upscaler Diffusion Models),可以生成分辨率为2048x2048甚至更高的图像。同时,引入了图像深度扩散模型(Depth-to-Image Diffusion Model),扩展了图像到图像功能。 4. 人工智能由单模态智能,向多种模态融合方向发展 对人工智能而言,要更为精准和综合的观察并认知现实世界,就需要尽可能向人类的多模态能力靠拢,将这种能力被称为多模态学习(Multi-modal Learning,MML)。建立统一的、跨场景、多任务的多模态基础模型或将成为人工智能发展的主流趋势之一。 Transformer架构的跨界应用成为跨模态学习的重要开端之一。Transformer架构的核心是Self-Attention机制,使其能够有效提取长序列特征,将视觉的区域特征和文本特征序列相匹配。 CLIP模型的出现,成为跨模态生成应用的一个重要节点。图像编码器和文本编码器以对比方式进行联合训练,能够链接文本和图片。自CLIP出现后,“CLIP+其他模型”在跨模态生成领域成为一种较为通用的做法。 2022年,微软提出的BEiT-3多模态基础模型,在视觉-语言任务处理上具备出色表现,包括视觉问答、图片描述生成和跨模态检索等;同时能够更加轻松地完成多模态编码和处理不同的下游任务。 语音、视觉和多模态预训练模型将加速人工智能向通用基础模型方向演进。在这个演进过程中,深度学习与强化学习相互促进发展,融合大量行业知识,模型将具备在不断变化的环境中快速适应的灵活性。基础模型不再局限于其传统用法,有望在其他模态的应用中发挥出新的潜质。例如,通常用于游戏的强化学习PPO(Proximal Policy Optimization),也被应用到了NLP领域的ChatGPT中。 5. AIGC技术不断发展,有望带来更多商业化价值 1月17日,微软CEO纳德拉在世界经济论坛上表示,微软正在迅速推进OpenAI的工具商业化,计划将包括ChatGPT、DALL-E等人工智能工具整合进微软旗下的所有产品中,并将其作为平台供其他企业使用,包括且不限于Bing搜索引擎、Microsoft Office、Azure云服务、Teams聊天程序等。(来自:IT之家) 1月23日,微软公司在官方博客宣布,已与OpenAI扩大合作伙伴关系。作为两家公司合作伙伴关系的第三阶段,微软将向OpenAI进行一项为期多年、价值数十亿美元的投资,以加速其在人工智能(AI)领域的技术突破。 未来,值得关注的技术要素包括:长文本生成、开放式文本生成、NeRF模型、扩散模型、跨模态大型预训练模型(支持的模态数据类型、模态对齐架构设计、支持的下游应用)、小样本学习及自监督算法、强化学习及环境学习等。 根据量子位,短期内有望较明显爆发的技术场景包括:闲聊式文本生成、个性化营销文本、富情感及细节TTS(Text To Speech)、拼凑式视频生成、基于文本的AI绘画、语音复刻等。 6. 投资建议:把握AIGC技术催化和商业落地的投资机会 技术发展有望促进生产效率提升,并进一步创造新的消费和需求,有利于文娱内容和互联网行业。在AIGC和ChatGPT方面,我们建议持续关注技术发展和应用情况,把握技术催化和商业化落地带来的投资机会:1)具备AIGC和ChatGPT的技术探索和应用的公司:百度集团-SW、商汤-W、万兴科技、拓尔思等;2)具有海量内容素材且具有AIGC探索布局的,图片/文字/音乐/视频内容及平台公司腾讯控股,阅文集团、美图公司、视觉中国、中文在线、汉仪股份、昆仑万维、天娱数科、风语筑等。 7. 风险提示 技术发展不及预期、监管政策变化、知识产权相关问题等。 报告信息 证券研究报告:《AIGC专题一:探析AIGC的技术发展和应用》 对外发布时间:2023年2月10日 证券分析师:马笑 资格编号:S0120522100002 邮箱:maxiao@tebon.com.cn 手机:13651704232 报告发布机构:德邦证券股份有限公司 (已获中国证监会许可的证券投资咨询业务资格) 相关阅读 公司研究: 【德邦马笑传媒互联海外】分众传媒(002027.SZ)首次覆盖报告:当风轻借力,一举入高空 腾讯控股(0700.HK)22Q4业绩前瞻及观点更新:宏观经济波动致收入端承压,降本增效成果释放带来利润端高增速 百度集团-SW(9888.HK)22Q4及2022年全年业绩前瞻:疫情扰动或致经营短期承压,展望后续收入业绩双端修复 【德邦马笑传媒互联海外】恺英网络(002517.SZ)2022年度业绩预告点评:业绩符合预期,后续储备丰富且兑现确定性提升 云音乐(9899.HK)2022年四季度及全年业绩前瞻:重点版权回归,亏损大幅度改善 网龙(0777.HK)首次覆盖报告:游戏业务稳健,教育业务利润释放可期 哔哩哔哩-W(9626.HK)22Q3财报点评:游戏研发聚焦与用户增长目标切换或驱动亏损率收窄 【德邦马笑传媒互联海外】美团-W(3690.HK)22Q3点评:利润端超预期,疫情反复或造成短期经营承压 【德邦马笑传媒互联海外】快手-W(1024.HK)22Q3财报点评:高质量用户增长,亏损率同比大幅收窄 【德邦马笑传媒互联海外】百度集团(9888.HK)22Q3业绩点评:降本增效成果释放,百度核心经调整营业利润增速转正 【德邦马笑传媒互联海外】网易-S(9999.HK)22Q3财报点评:整体表现稳健,利润端逊于预期 【德邦马笑传媒互联海外】腾讯控股(0700.HK)22Q3财报点评:降本增效成果释放,持续跟踪基本面修复 腾讯控股(0700.HK)深度跟踪报告:各业务当前的逻辑与变化 【德邦马笑传媒互联海外】分众传媒(002027.SZ)首次覆盖报告:当风轻借力,一举入高空 腾讯控股(0700.HK)22Q4业绩前瞻及观点更新:宏观经济波动致收入端承压,降本增效成果释放带来利润端高增速 百度集团-SW(9888.HK)22Q4及2022年全年业绩前瞻:疫情扰动或致经营短期承压,展望后续收入业绩双端修复 行业研究专题: 春节档电影点评:春节档期票房超65亿,行业持续复苏估值业绩双升可期 《阿凡达2》上映带动电影产业链复苏,关注恢复常态后的投资机会 【德邦马笑传媒互联海外】2023年度策略:整体复苏与结构成长,看好虚拟现实与互联网 【德邦马笑传媒互联海外】互联网行业点评:数字经济政策利好叠加基本面持续复苏,估值有望修复 【德邦马笑传媒互联海外】虚拟现实行业点评:行业发展规划打开成长空间,关注内容需求与应用中的投资机会 【德邦马笑传媒互联海外】VR/AR行业系列深度I:产品迭代、生态渐丰,关注C端产品放量下的内容端投资机会 春节档电影点评:春节档期票房超65亿,行业持续复苏估值业绩双升可期 周报: 【德邦马笑传媒互联海外】0205周观点: ChatGPT加速商业化,AIGC 或将带来泛娱乐和互联网的革新 【德邦马笑传媒互联海外】0120周观点: 重点版号获批,增长能见度提升;滴滴重启新用户注册,平台经济稳中向好 【德邦马笑传媒互联海外】0115周观点:平台企业金融业务整改已基本完成,2023年视频号将成腾讯重要增量 【德邦马笑传媒互联海外】0108周报:蚂蚁集团优化完善公司治理,多部大片定档春节档,行业估值业绩双升可期 【德邦马笑传媒互联海外】2022年12月报:关注疫后复苏、政策优化调整两条主线下,互联网、游戏、电影行业的投资机会 【德邦马笑传媒互联海外】0102周报:12月游戏版号发布,积极变化的延续,继续看好游戏产业投资机会 【德邦马笑传媒互联海外】1225周报:长视频平台 2023 储备丰富修复可期,关注线下文娱电影和主题乐园等消费复苏 【德邦马笑传媒互联海外】1218周报:扩大内需关注文体娱乐互联网新消费,平台经济强调引领发展创造就业和国际竞争 【德邦马笑传媒互联海外】1211周报:继续看好互联网和恒生科技修复,《阿凡达2》点映带动电影市场复苏 【德邦马笑传媒互联海外】1204周报:11月国内iOS渠道流水同比回正,出海流水环比大增,重视游戏投资机会 【德邦马笑传媒互联海外】10月国内游戏市场恢复环比增长,《阿凡达2》内地定档 【德邦马笑传媒互联海外】1120周报:关注游戏行业与AIGC赛道的投资机会 【德邦马笑传媒互联海外】1113周报:关注世界杯体育赛道,把握港股互联网三季报投资机会 【德邦马笑传媒互联海外】1106周报:虚拟现实行业迎政策利好,关注VR和互联网大会 【德邦马笑传媒互联海外】0205周观点: ChatGPT加速商业化,AIGC 或将带来泛娱乐和互联网的革新 团队介绍 马笑,华中科技大学硕士,2022年加入德邦证券,传媒互联网&海外首席分析师,行业全覆盖。曾任新时代证券TMT组长,传媒/计算机首席分析师,此前担任过管理咨询顾问/战略研究员/投资经理等岗位。2018年东方财富百佳分析师传媒团队第一名;2020年wind金牌分析师。 刘文轩,2021年加入德邦证券研究所传媒互联网组。 王梅卿,2022年加入德邦证券研究所传媒互联网组。 + + + + + 点击下方,关注笑谈科技互联 重要说明 适当性说明:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号/本账号发布的观点和信息仅供德邦证券的专业投资者参考,完整的投资观点应以德邦证券研究所发布的完整报告为准。若您并非德邦证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号/本账号中的任何信息。本订阅号/本账号难以设置访问权限,若给您造成不便,敬请谅解。市场有风险,投资需谨慎。 分析师承诺:本人具有中国证券业协会授予的证券投资咨询执业资格,以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,本报告所采用的数据和信息均来自市场公开信息,本人对这些信息的准确性或完整性不做任何保证,也不保证所包含的信息和建议不会发生任何变更。报告中的信息和意见仅供参考。本人过去不曾与、现在不与、未来也将不会因本报告中的具体推荐意见或观点而直接或间接收任何形式的补偿,分析结论不受任何第三方的授意或影响,特此证明。 免责声明 德邦证券股份有限公司经中国证券监督管理委员会批准,已具备证券投资咨询业务资格。本报告中的信息均来源于合规渠道,德邦证券研究所力求准确、可靠,但对这些信息的准确性及完整性均不做任何保证,据此投资,责任自负。本报告不构成个人投资建议,也没有考虑到个别客户特殊的投资目标、财务状况或需要。客户应考虑本报告中的任何意见或建议是否符合其特定状况。德邦证券及其所属关联机构可能会持有报告中提到的公司所发行的证券并进行交易,还可能为这些公司提供投资银行服务或其他服务。 本报告仅向特定客户传送,未经德邦证券研究所书面授权,本研究报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。如欲引用或转载本文内容,务必联络德邦证券研究所并获得许可,并需注明出处为德邦证券研究所,且不得对本文进行有悖原意的引用和删改。如未经本公司授权,私自转载或者转发本报告,所引起的一切后果及法律责任由私自转载或转发者承担。本公司并保留追究其法律责任的权利。 本订阅号不是德邦证券研究报告的发布平台,所载内容均来自于德邦证券已正式发布的研究报告,或对研究报告进行的整理与解读,因此在任何情况下,本订阅号中的信息或所表述的意见并不构成对任何人的投资建议。
投资要点 AIGC成为新的内容生产方式,跨模态生成值得重点关注。区别于PGC与UGC,AIGC是利用人工智能技术自动生成内容的新型生产方式。按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,其中,跨模态生成需要重点关注。 自然语言处理(NLP)赋予了AI理解和生成能力,大规模预训练模型是NLP的发展趋势。NLP的两个核心任务分别是自然语言理解(NLU)和自然语言生成(NLG)。以ELMo、BERT、GPT为代表的预训练模型,降低了NLP的技术门槛。ELMo解决了“一词多义”的问题;BERT通过MLM(类似于完形填空)和NLP(判断句子是否相连)进行预训练,增强了上下文的理解能力。GPT通过预测下一个词,获得了生成能力;GPT-3在此基础上使用了更大的数据和更大模型,无需针对下游任务进行传统的微调,并且采用了小样本学习提升生成效果。 ChatGPT是NLP发展中具有里程碑式意义的模型之一。ChatGPT是OpenAI从GPT-3.5系列中的模型进行微调产生的聊天机器人模型。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。 生成模型赋予了AI创造力,扩散模型是最前沿的技术之一。AIGC的快速发展归功于生成算法领域的技术积累。GAN的核心思想是“生成”与“对抗”,相比传统的深度神经网络,GAN能产生更好的生成样本,但是仍需解决应用中的问题。扩散模型较GAN更接近人的思维模式,是基于马尔科夫链,通过学习噪声来生成数据。扩散模型实现了跨模态应用,包括OpenAI的GLIDE和DALL·E 2、谷歌的Imagen、Stability AI的Stable Diffusion等。 人工智能由单模态智能,向多种模态融合方向发展。建立统一的、跨场景、多任务的多模态基础模型或将成为人工智能发展的主流趋势之一。CLIP模型将语言信息和图像信息联合训练,能够链接文本和图片,成为跨模态生成应用的一个重要节点,“CLIP+其他模型”在跨模态生成领域成为一种较为通用的做法。2022年,微软提出的BEiT-3多模态基础模型,在视觉-语言任务处理上具备出色表现,包括视觉问答、图片描述生成和跨模态检索等。多模态提高了基础模型的灵活性,使其在其他模态的应用中发挥新的潜质。 未来,值得关注的技术要素包括:长文本生成、开放式文本生成、NeRF模型、扩散模型、跨模态大型预训练模型(支持的模态数据类型、模态对齐架构设计、支持的下游应用)、小样本学习及自监督算法、强化学习及环境学习等。 投资建议:把握AIGC技术催化和商业落地的投资机会。技术发展有望促进生产效率提升,并进一步创造新的消费和需求,有利于文娱内容和互联网行业。在AIGC和ChatGPT方面,我们建议持续关注技术发展和应用情况,把握技术催化和商业化落地带来的投资机会:1)具备AIGC和ChatGPT的技术探索和应用的公司:百度集团-SW、商汤-W、万兴科技、拓尔思等;2)具有海量内容素材且具有AIGC探索布局的,图片/文字/音乐/视频内容及平台公司腾讯控股,阅文集团、美图公司、视觉中国、中文在线、汉仪股份、昆仑万维、天娱数科、风语筑等。 风险提示:技术发展不及预期、监管政策变化、知识产权相关问题等。 目录 1. AIGC的跨模态生成值得重点关注 2. 基于大模型预训练的NLP赋予了AI理解和生成能力 2.1.ELMo将输出的词向量作为特征,解决了“一词多义” 2.2.BERT通过上下文预训练,提高了理解能力 2.3.GPT-3利用超大数据和超大模型省去了微调过程 2.3.1.ChatGPT趋近人类价值观和意图,有望进一步商业化 3.基于大模型的主流生成模型赋予了AI创造力 3.1.GAN是基于“生成”与“对抗”提出的生成模型 3.2.扩散模型更接近人的思维模式,实现了跨模态应用 3.2.1扩散模型实现了从文本到图像的跨模态应用 4.人工智能由单模态智能,像多种模态融合方向发展 5.AIGC技术不断发展,有望带来更多商业化价值 6. 投资建议:把握AIGC技术催化和商业落地的投资机会 7. 风险提示 正文 1. AIGC的跨模态生成值得重点关注 根据中国信息通信研究院发布的《人工智能生成内容(AIGC)白皮书》,目前,对AIGC这一概念的界定,尚无统一规范的定义。国内产学研各界对于AIGC的理解是“继专业生成内容(Professional Generated Content, PGC)和用户生成内容(User Generated Content, UGC)之后,利用人工智能技术自动生成内容的新型生产方式”。传统AI关注对于现有数据的分析能力,而AIGC注重生成创造新事物的能力。按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,其中,跨模态生成需要重点关注。 自然语言处理(NLP)与生成模型是AIGC发展的重要技术支柱。自然语言处理增强AIGC的认知能力,使得人类语言与计算机语言之间实现互通;生成模型升级AIGC内容创作能力,使生成的作品更接近人类思维与偏好。 AIGC近年来的快速发展依赖于生成模型、预训练模型和多模态等技术的融合。生成模型从GAN发展到后续的扩散模型,不断趋近人的思维模式。预训练模型提高了AIGC技术的灵活性和效果质量。基于大量数据训练的巨量参数模型可以轻松应用到下游任务中,降低了使用门槛和技术成本,推动了自然语言处理、计算机视觉等技术的发展。多模态技术提高了AIGC的通用性,使得图像、声音、语言等互相融合。 2. 基于大模型预训练的NLP赋予了AI理解和生成能力 自然语言处理(NLP)主要研究用计算机来理解和生成自然语言的各种理论和方法,属于人工智能领域的一个重要甚至核心的分支。自然语言处理(NLP)的两个核心任务分别是自然语言理解(NLU)和自然语言生成(NLG);四大任务是序列标注(分词、语义标注等)、分类任务(文本分类、情感计算等)、句子关系判断、生成式任务(机器翻译、文本摘要等)。人工智能应用领域的快速拓展对自然语言处理提出了巨大的应用需求。 2018年,NLP正式进入“预训练”时代,简化了下游任务模型的接入,降低了NLP的技术门槛。预训练是指,首先在一个源任务上训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调,从而达到提高下游任务准确率的目的。预训练的优势在于,一是对庞大的文本语料库进行预处理,可以学习通用的语言表征,帮助完成下游任务;二是预训练提供了更好的模型初始化,带来更好的普适性并加速与目标任务的衔接;三是,预训练可以看作是一种正则化方法(regularization),以避免对小数据的过度拟合。 2018年3月,AllenNLP提出了ELMo模型,属于Feature-Based模型,使用预训练模型产出的词向量作为输入,接入下游的独立的模型进行预测。 2018年6月,OpenAI提出了第1代GPT模型,开启了大规模预训练语言模型时代。GPT属于Finetune-Based模型,在目标任务上精调整个模型,而不是只将模型的输出结果作为固定的词向量特征。由于预训练模型自身非常复杂,因此接入的下游任务模型可以非常简单,很大程度上降低了NLP的技术门槛。 大规模预训练语言模型的发展趋势之一,是使用更大规模的数据训练更大的模型。ELMo的参数量约为94M,GPT-1的参数量约为110M,BERT的参数量为340M,GPT-2的参数量约为1.5B,GPT-3的参数量约为175B。随着技术的不断成熟,大模型在开发成本、易用性、开发周期、性能上会更具优势,给产品化和商业化带来更多可能性。 2.1.ELMo将输出的词向量作为特征,解决了“一词多义” ELMo(Embeddings from Language Models)是由Allen AI于2018年3月发表的基于RNN的语言模型。ELMo的主要突破在于引入词向量(Word Embedding)作为输出,解决了“一词多义”的问题。 ELMo在RNN的基础上,整合上下文信息,获得对应的词向量。RNN所实现的是,输入一个词汇,就可以输出它之后所对应的词(Token)。例如,输入
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。