【国信传媒】AIGC周度动态更新第二十一期(20240108 - 20240114)
(以下内容从国信证券《【国信传媒】AIGC周度动态更新第二十一期(20240108 - 20240114)》研报附件原文摘录)
本周大模型及算法进展 海外方面,1)视频模型上,Meta 推 AI 视频模型 Fairy,可轻松替换视频人物、改变风格;2)语音模型方面,英伟达推出 AI 语音识别模型 Parakeet,号称优于 Whisper;Meta推出audio2photoreal AI框架,能够生成一系列逼真的NPC任务模型,输入配音文件即可创建人物对话场景。 国内方面,1)多模态模型方面,字节跳动与浙大联合推多模态大语言模型 Vista-LLaMA,可解读视频内容输出高质量视频描述;2)视频生成模型方面,快手主导发布轻量级适配器模块I2V-Adapter,能在不改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频;3)语音模型方面,上海 AI 实验室等开源音频和语音生成工具包 Amphion,可帮助开发人员研究文本生成音频、音乐等与音频相关的领域;4)轻量化模型方面,深度求索推出首个国产开源MoE大模型,性能媲美Llama 2-7B,计算量却仅有40%;5)垂直应用模型方面,百川智能发布角色大模型 Baichuan-NPC,只需简单文字描述就能构建游戏角色。 B端工具及垂类应用方面,1)OpenAI向 ChatGPT Plus、开发团队和企业用户推出 GPT Store,并为团队规模较小的企业用户推出了新的付费套餐“ChatGPT Team”;同时OpenAI正与美国有线电视新闻网(CNN)、福克斯公司(Fox Corp.)和《时代》杂志(Time)进行谈判,以获得他们的新闻内容许可;数据上,在推出ChatGPT企业版四个月后,企业版 ChatGPT 已签约 260 家客户,共有超过 15 万名员工注册使用该产品。2)营销方面,微软与企业级AI内容创作工具Typeface合作推出AI营销活动功能,营销人员只需描述他们的目标或为Microsoft的人工智能助手Copilot上传创意简介,即可生成集中的项目板;图库巨头Getty Images宣布推出面向小型企业、设计师和营销人员的新工具 Generative AI by iStock,由 NVIDIA Picasso 提供技术支持;腾讯发布以腾讯混元大模型为基底的一站式 AI 广告创意平台“腾讯广告妙思”,助力各行业的广告主及优化师在创意制作、投放流程及广告审核等环节,提升广告生产及投放效率。3)电商方面,淘宝宣布基于 AI 大模型升级店小蜜产品,预计在 2024 年 6 月上线,能够服务于售前导购、售后服务、数据洞察、接待质检等环节。4)数字人方面,科大讯飞发布了基于星火认知大模型的管理数字员工产品、营销数字员工产品和办公数字员工产品。 C端应用及服务方面,1)视频生成上,Pika 已上线 Pika 1.0 付费计划。2)教育方面,小度推出小度学习机 K16,搭载 AI 互动大语文体系等 20 项 AI 功能;夸克 App 上线“AI 学习助手”。3)文本生成方面,微软已邀请少数用户测试新版记事本 CoWriter AI 写作功能。 重要上市公司变化方面,1)掌趣科技、悠米互娱与英伟达在 AI 技术与应用方面开展合作,英伟达将向“AI 游戏创作平台”提供 DLSS、Audio2 Face 等 AI 技术支持;2)英伟达将与米哈游、腾讯、网易等游戏公司合作 AI 数字人业务。 01 大模型&算法 【Meta 推 AI 视频模型 Fairy,可轻松替换视频人物、改变风格(站长之家)】 1 月 8 日报道,Meta 的 GenAI 团队推出了视频到视频综合模型“Fairy”,该模型比现有模型更快,时间上更一致。研究团队展示了 Fairy 在几个应用中的表现,包括角色/物体替换,风格化和长形式视频生成。Fairy 使用交叉帧关注机制,确保时间上的一致性和高保真度合成。该模型可以在仅 14 秒内生成大小为 512 x384 像素、120 帧(30 fps 下的 4 秒)的视频,比以前的模型至少快 44 倍。但该模型目前在处理如雨、火灾或闪电等动态环境效果方面存在问题,这些效果要么无法很好地融入整个场景,要么会产生视觉错误。 【Meta推出audio2photoreal AI框架,输入配音文件即可创建人物对话场景(IT之家)】 Meta日前公布了一项名为audio2photoreal的AI框架,该框架能够生成一系列逼真的NPC任务模型,并借助现有配音文件自动为任务模型“对口型”“摆动作”。 【英伟达推出 AI 语音识别模型 Parakeet,号称优于 Whisper(站长之家)】 1 月 8 日报道,开源对话 AI 工具包 NVIDIA NeMo 宣布推出 Parakeet ASR 模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。 英伟达宣布推出了四个 Parakeet 模型,这些模型基于 RNN Transducer/Connectionist Temporal Classification 解码器,并且具有 0.6-1.1 亿参数。它们能够应对各种音频环境,并且在仅使用了 64000 小时的数据集进行训练后,在基准数据集上实现了出色的词错误率(WER)表现,优于以往的模型。 根据开发人员的说法,这些模型对音乐和静音等非语音片段具有鲁棒性,并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。 【字节跳动与浙大联合推多模态大语言模型 Vista-LLaMA,可解读视频内容(站长之家)】 1 月 8 日报道,字节跳动与浙江大学合作推出了多模态大语言模型 Vista-LLaMA,该模型专为视频内容理解而设计,能够输出高质量视频描述。通过创新的视觉与语言 token 处理方式,Vista-LLaMA 解决了在视频内容中出现“幻觉”现象的问题。 【百川智能发布大模型 Baichuan-NPC,只需简单文字描述就能构建游戏角色(AI新智界)】 1 月 9 日,百川智能发布角色大模型 Baichuan-NPC,并推出“角色创建平台 + 搜索增强知识库”的定制化方案。通过这一方案,游戏厂商不用编写任何代码,只需通过简单的文字描述,便可以快速构建角色,实现角色定制。 【上海 AI 实验室等开源音频和语音生成工具包 Amphion(AIGC开放社区)】 上海 AI 实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为 Amphion 的音频、音乐和语音生成工具包。 Amphion 可帮助开发人员研究文本生成音频、音乐等与音频相关的领域,可以在一个框架内完成,以解决生成模型黑箱、代码库分散、缺少评估指标等难题。据悉,Amphion 包含了数据处理、通用模块、优化算法等基础设施。同时针对文本到语音、歌声转换、文本到音频生成等任务,提供了特定的框架、模型和开发说明,还内置了各类神经语音编解码器和评价指标。 【深度求索推出首个国产开源MoE大模型,性能媲美Llama 2-7B(量子位)】 深度求索团队最新开源160亿参数专家模型DeepSeek MoE,表现完全不输给密集的Llama 2-7B模型,计算量却仅有40%。这个模型堪称19边形战士,特别是在数学和代码能力上对Llama形成了碾压。除了性能上表现优异,DeepSeek MoE主打的就是节约计算量。 【即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了(机器之心)】 1 月 14 日报道,近期,由快手主导的一项新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》发布,该研究引入了一个创新的图像到视频转换方法,提出了一种轻量级适配器模块,即 I2V-Adapter,它能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。 相比于现有方法,I2V-Adapter 大幅减少了可训练参数(最低可达22M,为主流方案例如 Stable Video Diffusion [1] 的1%),同时具备与 Stable Diffusion [2] 社区开发的定制化 T2I 模型(DreamBooth [3]、Lora [4])与控制工具(ControlNet [5])的兼容性。通过实验,研究者证明了 I2V-Adapter 在生成高质量视频内容方面的有效性,为 I2V 领域的创意应用开辟了新的可能性。 【虎博科技大模型 TigerBot 正式获得上线备案,已在国内外商业化落地(36 氪)】 1 月 14 日报道,虎博科技自研大模型 TigerBot 宣布正式完成生成式人工智能上线备案,面向大众提供服务。虎博已推出从 70 亿到 1800 亿参数的 TigerBot 大模型系列,在上海浦江实验室等的大模型评测中位居前列。自去年以来,TigerBot 已经在国内外实现快速商业化落地,聚焦在游戏、医疗和泛娱乐赛道。 02 工具&垂类应用(2B) 【OpenAI 推出在线商店 GPT Store 和新付费产品 ChatGPT Team(AI新智界)】 1 月 11 日凌晨,OpenAI 宣布正式向 ChatGPT Plus、开发团队和企业用户推出 GPT Store,自发布 GPTs 两个月以来,用户已经创建了超过 300 万个 ChatGPT 自定义版本。GPT Store 汇集了用户为各种任务创建的 ChatGPT 的自定义版本,例如可以教孩子数学的聊天机器人,以及编程导师、读书指南等。 OpenAI 还为团队规模较小的企业用户推出了新的付费套餐“ChatGPT Team”:套餐内每位用户按年计费时,为每月 25 美元;按月计费则为每月 30 美元。与 Enterprise 用户一样,Team 的套餐也配备数据隐私保护功能。据悉,OpenAI 已经为 ChatGPT 提供了两个付费计划,一个是面向个人用户的 ChatGPT Plus,另一个是面向大型企业的 ChatGPT Enterprise。 【OpenAI 首席运营官:企业版 ChatGPT 已签约 260 家客户(彭博)】 1 月 12 日报道,在推出 ChatGPT 企业版仅四个月后,OpenAI 现已有数百家公司为该产品付费。OpenAI 首席运营官 Brad Lightcap 在接受采访时说,到目前为止,ChatGPT 已经签约了 260 家企业客户。Lightcap 说,这些公司共有超过 15 万名员工注册使用该产品。 【OpenAI与CNN、福克斯和时代杂志洽谈内容授权事宜(彭博)】 1月12日电,据知情人士透露,OpenAI正与美国有线电视新闻网(CNN)、福克斯公司(Fox Corp.)和《时代》杂志(Time)进行谈判,以获得他们的新闻内容许可。在面临剽窃受版权保护材料的指控之际,OpenAI正越来越努力地获取新闻内容,以构建自己的人工智能产品。 【微软与企业级AI内容创作工具Typeface合作推出AI营销活动功能(Maginative)】 在CES展会上,微软宣布Dynamics 365的更新,其中Dynamics 365 Customer Insights和Typeface的生成式AI平台之间的新集成,有望改变繁琐的营销活动开发工作流程。该AI功能可使用自然语言提示和智能建议简化营销活动创建。营销人员只需描述他们的目标或为Microsoft的人工智能助手Copilot上传创意简介,即可生成集中的项目板。 【图库巨头 Getty Images 推出生成式 AI 工具 Generative AI by iStock(AI新智界)】 1 月 9 日,图库巨头 Getty Images 在消费电子展(CES)上宣布推出面向小型企业、设计师和营销人员的新工具 Generative AI by iStock,由 NVIDIA Picasso 提供技术支持。据悉,客户生成的任何授权视觉内容均可享受 iStock 标准的 1 万美元法律保障。 【腾讯广告发布一站式 AI 广告创意平台“腾讯广告妙思”(36 氪)】 1 月 11 日报道,腾讯广告在 2024 腾讯智慧营销峰会上正式发布了以腾讯混元大模型为基底的一站式 AI 广告创意平台“腾讯广告妙思”,助力各行业的广告主及优化师在创意制作、投放流程及广告审核等环节,提升广告生产及投放效率。 【淘宝基于 AI 大模型升级店小蜜产品,将于 6 月全行业上线(金十)】 1 月 10 日报道,淘宝近日宣布基于 AI 大模型升级店小蜜产品,邀请商家测试,预计在 2024 年 6 月上线。淘宝方面测试数据显示,店小蜜基于大模型强化 AI 问答能力后,答案准确率提升至 85%,能够服务于售前导购、售后服务、数据洞察、接待质检等环节。 【科大讯飞发布基于星火大模型的数字员工产品(金十)】 1 月 9 日报道,科大讯飞发布了基于星火认知大模型的管理数字员工产品、营销数字员工产品和办公数字员工产品。据科大讯飞地产数字化业务部总经理卢尧介绍,符合存在标准场景、与客户沟通时间长等特点的领域会是营销数字员工产品落地重点,如汽车、地产、数码终端、美容护肤等高端零售业。会上,科大讯飞 AI 工程院常务副院长龙明康透露,1 月 30 日科大讯飞将会正式发布星火认知大模型的最新版本。 【Steam 调整策略:助力发行更多 AI 游戏、增强内容审核(IT 之家)】 1 月 10 日消息,Valve 旗下电子游戏数字分发平台 Steam 近日发布公告,调整相关政策,以便于发行使用 AI 技术的绝大部分游戏。 开发者们在向 Steam 提交游戏时,需要填写新的内容调查,包括全新的 AI 内容披露部分。Steam 将 AI 的使用划分为两个大类:预生成内容(在游戏开发过程中借助 AI 工具生成的内容);实时生成内容(在游戏运行过程中借助 AI 工具生成的内容)。 此外,Steam 还将推出一套全新系统,让玩家可以举报游戏内违法的实时生成 AI 内容。当玩家认为自己遇到了本应被适当的 AI 生成内容保护措施拦截的内容时,便可通过游戏内 Steam 界面进行举报。 03 应用及服务(2C) 【文生视频软件 Pika 已上线 Pika 1.0 付费计划(AI新智界)】 文生视频软件 Pika 已上线 Pika 1.0 付费计划。Pika 的付费计划分为标准和专业两个档次。而在免费版本中,用户将拥有基础的 300 积分,可以生成 60 个视频。 【小度推出小度学习机 K16,搭载 AI 互动大语文体系等 20 项 AI 功能(36 氪 )】 1 月 8 日报道,小度推出学习机新品小度学习机 K16,官方售价为 2299 元。该产品搭载了小度新一代多模式精准学,以及基于百度文心大模型独创的 AI 互动大语文体系等 20 项 AI 功能。目前,该产品已在小度官方商城及各电商平台开启预售。 【夸克 App 上线“AI 学习助手”(36 氪)】 1 月 9 日报道,日前,夸克 App 推出大模型全新应用“AI 学习助手”,在部分搜索学习内容的结果页中,通过智能化的解题思路和讲解方式,进一步提升大学生在自学场景中的效率和质量。夸克数据显示,过去一个月中,与大学学习相关的内容搜索量同比增长近 30%。 【微软已邀请少数用户测试新版记事本 CoWriter AI 写作功能(IT之家)】 1 月 10 日消息,微软目前已邀请极少数用户,测试 Win11 系统中的新版记事本应用程序。据悉,新版最大的亮点在于引入了由 ChatGPT-4 支持的新功能 --CoWriter。这一功能也会采用“积分制”来限制用户使用次数:一旦用户用完了免费积分就需要付费。不过用户依然可以使用 CoWriter 来生成内容,但生成时间会比平时慢一些。 04 重要上市公司变化 【掌趣科技、悠米互娱与英伟达在 AI 技术与应用方面开展合作(财联社)】 1 月 9 日报道,掌趣科技联合悠米互娱与英伟达在 AI 技术与应用方面开展合作,英伟达将向“AI 游戏创作平台”提供 DLSS、Audio2 Face 等 AI 技术支持。未来双方将在 AI 游戏开发工具、AIGC、AI 应用场景等领域继续保持交流与合作。去年 6 月,掌趣科技宣布同悠米共同开发“AI 游戏创作平台”,即面向 C 端或小团队开发者打造 0 代码 AI + UGC 游戏创作平台,从而降低开放世界游戏的开发门槛。 【英伟达将与米哈游、腾讯、网易等游戏公司合作 AI 数字人业务(科创板日报)】 1 月 9 日报道,在美国 CES 2024 展会上,英伟达发布了系列新品,其中 NVIDIA ACE 微服务首次亮相。据悉,这是一个使用生成式 AI 制作虚拟数字人的技术平台,目前与 ACE 的合作者包括米哈游、网易游戏、掌趣科技、腾讯游戏、育碧等企业。 05 近期AIGC热度趋势 抖音 百度搜索 微博 法律声明 本公众号(名称:观媒万象)为国信证券股份有限公司(下称“国信证券”)研究所传媒组依法设立、独立运营的唯一官方公众号。 本公众号所载内容仅面向符合《证券期货投资者适当性管理办法》规定的机构类专业投资者。国信证券不因任何订阅或接收本公众号内容的行为而将订阅人视为国信证券的客户。 本公众号不是国信证券研究报告的发布平台,本公众号只是转发国信证券发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解和歧义。提请订阅者参阅国信证券已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。 国信证券对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本公众号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据国信证券后续发布的证券研究报告在不发布通知的情形下作出更改。国信证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本公众号中资料意见不一致的市场评论和/或观点。 本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本 公众号内容做出的任何决策与国信证券或相关作者无关。 本公众号发布的内容仅为国信证券所有。未经国信证券事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本公众号发布的全部或部分内容,亦不得从未经国信证券书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本公众号发布的全部或部分内容。国信证券将保留追究一切法律责任的权利。
本周大模型及算法进展 海外方面,1)视频模型上,Meta 推 AI 视频模型 Fairy,可轻松替换视频人物、改变风格;2)语音模型方面,英伟达推出 AI 语音识别模型 Parakeet,号称优于 Whisper;Meta推出audio2photoreal AI框架,能够生成一系列逼真的NPC任务模型,输入配音文件即可创建人物对话场景。 国内方面,1)多模态模型方面,字节跳动与浙大联合推多模态大语言模型 Vista-LLaMA,可解读视频内容输出高质量视频描述;2)视频生成模型方面,快手主导发布轻量级适配器模块I2V-Adapter,能在不改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频;3)语音模型方面,上海 AI 实验室等开源音频和语音生成工具包 Amphion,可帮助开发人员研究文本生成音频、音乐等与音频相关的领域;4)轻量化模型方面,深度求索推出首个国产开源MoE大模型,性能媲美Llama 2-7B,计算量却仅有40%;5)垂直应用模型方面,百川智能发布角色大模型 Baichuan-NPC,只需简单文字描述就能构建游戏角色。 B端工具及垂类应用方面,1)OpenAI向 ChatGPT Plus、开发团队和企业用户推出 GPT Store,并为团队规模较小的企业用户推出了新的付费套餐“ChatGPT Team”;同时OpenAI正与美国有线电视新闻网(CNN)、福克斯公司(Fox Corp.)和《时代》杂志(Time)进行谈判,以获得他们的新闻内容许可;数据上,在推出ChatGPT企业版四个月后,企业版 ChatGPT 已签约 260 家客户,共有超过 15 万名员工注册使用该产品。2)营销方面,微软与企业级AI内容创作工具Typeface合作推出AI营销活动功能,营销人员只需描述他们的目标或为Microsoft的人工智能助手Copilot上传创意简介,即可生成集中的项目板;图库巨头Getty Images宣布推出面向小型企业、设计师和营销人员的新工具 Generative AI by iStock,由 NVIDIA Picasso 提供技术支持;腾讯发布以腾讯混元大模型为基底的一站式 AI 广告创意平台“腾讯广告妙思”,助力各行业的广告主及优化师在创意制作、投放流程及广告审核等环节,提升广告生产及投放效率。3)电商方面,淘宝宣布基于 AI 大模型升级店小蜜产品,预计在 2024 年 6 月上线,能够服务于售前导购、售后服务、数据洞察、接待质检等环节。4)数字人方面,科大讯飞发布了基于星火认知大模型的管理数字员工产品、营销数字员工产品和办公数字员工产品。 C端应用及服务方面,1)视频生成上,Pika 已上线 Pika 1.0 付费计划。2)教育方面,小度推出小度学习机 K16,搭载 AI 互动大语文体系等 20 项 AI 功能;夸克 App 上线“AI 学习助手”。3)文本生成方面,微软已邀请少数用户测试新版记事本 CoWriter AI 写作功能。 重要上市公司变化方面,1)掌趣科技、悠米互娱与英伟达在 AI 技术与应用方面开展合作,英伟达将向“AI 游戏创作平台”提供 DLSS、Audio2 Face 等 AI 技术支持;2)英伟达将与米哈游、腾讯、网易等游戏公司合作 AI 数字人业务。 01 大模型&算法 【Meta 推 AI 视频模型 Fairy,可轻松替换视频人物、改变风格(站长之家)】 1 月 8 日报道,Meta 的 GenAI 团队推出了视频到视频综合模型“Fairy”,该模型比现有模型更快,时间上更一致。研究团队展示了 Fairy 在几个应用中的表现,包括角色/物体替换,风格化和长形式视频生成。Fairy 使用交叉帧关注机制,确保时间上的一致性和高保真度合成。该模型可以在仅 14 秒内生成大小为 512 x384 像素、120 帧(30 fps 下的 4 秒)的视频,比以前的模型至少快 44 倍。但该模型目前在处理如雨、火灾或闪电等动态环境效果方面存在问题,这些效果要么无法很好地融入整个场景,要么会产生视觉错误。 【Meta推出audio2photoreal AI框架,输入配音文件即可创建人物对话场景(IT之家)】 Meta日前公布了一项名为audio2photoreal的AI框架,该框架能够生成一系列逼真的NPC任务模型,并借助现有配音文件自动为任务模型“对口型”“摆动作”。 【英伟达推出 AI 语音识别模型 Parakeet,号称优于 Whisper(站长之家)】 1 月 8 日报道,开源对话 AI 工具包 NVIDIA NeMo 宣布推出 Parakeet ASR 模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。 英伟达宣布推出了四个 Parakeet 模型,这些模型基于 RNN Transducer/Connectionist Temporal Classification 解码器,并且具有 0.6-1.1 亿参数。它们能够应对各种音频环境,并且在仅使用了 64000 小时的数据集进行训练后,在基准数据集上实现了出色的词错误率(WER)表现,优于以往的模型。 根据开发人员的说法,这些模型对音乐和静音等非语音片段具有鲁棒性,并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。 【字节跳动与浙大联合推多模态大语言模型 Vista-LLaMA,可解读视频内容(站长之家)】 1 月 8 日报道,字节跳动与浙江大学合作推出了多模态大语言模型 Vista-LLaMA,该模型专为视频内容理解而设计,能够输出高质量视频描述。通过创新的视觉与语言 token 处理方式,Vista-LLaMA 解决了在视频内容中出现“幻觉”现象的问题。 【百川智能发布大模型 Baichuan-NPC,只需简单文字描述就能构建游戏角色(AI新智界)】 1 月 9 日,百川智能发布角色大模型 Baichuan-NPC,并推出“角色创建平台 + 搜索增强知识库”的定制化方案。通过这一方案,游戏厂商不用编写任何代码,只需通过简单的文字描述,便可以快速构建角色,实现角色定制。 【上海 AI 实验室等开源音频和语音生成工具包 Amphion(AIGC开放社区)】 上海 AI 实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为 Amphion 的音频、音乐和语音生成工具包。 Amphion 可帮助开发人员研究文本生成音频、音乐等与音频相关的领域,可以在一个框架内完成,以解决生成模型黑箱、代码库分散、缺少评估指标等难题。据悉,Amphion 包含了数据处理、通用模块、优化算法等基础设施。同时针对文本到语音、歌声转换、文本到音频生成等任务,提供了特定的框架、模型和开发说明,还内置了各类神经语音编解码器和评价指标。 【深度求索推出首个国产开源MoE大模型,性能媲美Llama 2-7B(量子位)】 深度求索团队最新开源160亿参数专家模型DeepSeek MoE,表现完全不输给密集的Llama 2-7B模型,计算量却仅有40%。这个模型堪称19边形战士,特别是在数学和代码能力上对Llama形成了碾压。除了性能上表现优异,DeepSeek MoE主打的就是节约计算量。 【即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了(机器之心)】 1 月 14 日报道,近期,由快手主导的一项新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》发布,该研究引入了一个创新的图像到视频转换方法,提出了一种轻量级适配器模块,即 I2V-Adapter,它能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。 相比于现有方法,I2V-Adapter 大幅减少了可训练参数(最低可达22M,为主流方案例如 Stable Video Diffusion [1] 的1%),同时具备与 Stable Diffusion [2] 社区开发的定制化 T2I 模型(DreamBooth [3]、Lora [4])与控制工具(ControlNet [5])的兼容性。通过实验,研究者证明了 I2V-Adapter 在生成高质量视频内容方面的有效性,为 I2V 领域的创意应用开辟了新的可能性。 【虎博科技大模型 TigerBot 正式获得上线备案,已在国内外商业化落地(36 氪)】 1 月 14 日报道,虎博科技自研大模型 TigerBot 宣布正式完成生成式人工智能上线备案,面向大众提供服务。虎博已推出从 70 亿到 1800 亿参数的 TigerBot 大模型系列,在上海浦江实验室等的大模型评测中位居前列。自去年以来,TigerBot 已经在国内外实现快速商业化落地,聚焦在游戏、医疗和泛娱乐赛道。 02 工具&垂类应用(2B) 【OpenAI 推出在线商店 GPT Store 和新付费产品 ChatGPT Team(AI新智界)】 1 月 11 日凌晨,OpenAI 宣布正式向 ChatGPT Plus、开发团队和企业用户推出 GPT Store,自发布 GPTs 两个月以来,用户已经创建了超过 300 万个 ChatGPT 自定义版本。GPT Store 汇集了用户为各种任务创建的 ChatGPT 的自定义版本,例如可以教孩子数学的聊天机器人,以及编程导师、读书指南等。 OpenAI 还为团队规模较小的企业用户推出了新的付费套餐“ChatGPT Team”:套餐内每位用户按年计费时,为每月 25 美元;按月计费则为每月 30 美元。与 Enterprise 用户一样,Team 的套餐也配备数据隐私保护功能。据悉,OpenAI 已经为 ChatGPT 提供了两个付费计划,一个是面向个人用户的 ChatGPT Plus,另一个是面向大型企业的 ChatGPT Enterprise。 【OpenAI 首席运营官:企业版 ChatGPT 已签约 260 家客户(彭博)】 1 月 12 日报道,在推出 ChatGPT 企业版仅四个月后,OpenAI 现已有数百家公司为该产品付费。OpenAI 首席运营官 Brad Lightcap 在接受采访时说,到目前为止,ChatGPT 已经签约了 260 家企业客户。Lightcap 说,这些公司共有超过 15 万名员工注册使用该产品。 【OpenAI与CNN、福克斯和时代杂志洽谈内容授权事宜(彭博)】 1月12日电,据知情人士透露,OpenAI正与美国有线电视新闻网(CNN)、福克斯公司(Fox Corp.)和《时代》杂志(Time)进行谈判,以获得他们的新闻内容许可。在面临剽窃受版权保护材料的指控之际,OpenAI正越来越努力地获取新闻内容,以构建自己的人工智能产品。 【微软与企业级AI内容创作工具Typeface合作推出AI营销活动功能(Maginative)】 在CES展会上,微软宣布Dynamics 365的更新,其中Dynamics 365 Customer Insights和Typeface的生成式AI平台之间的新集成,有望改变繁琐的营销活动开发工作流程。该AI功能可使用自然语言提示和智能建议简化营销活动创建。营销人员只需描述他们的目标或为Microsoft的人工智能助手Copilot上传创意简介,即可生成集中的项目板。 【图库巨头 Getty Images 推出生成式 AI 工具 Generative AI by iStock(AI新智界)】 1 月 9 日,图库巨头 Getty Images 在消费电子展(CES)上宣布推出面向小型企业、设计师和营销人员的新工具 Generative AI by iStock,由 NVIDIA Picasso 提供技术支持。据悉,客户生成的任何授权视觉内容均可享受 iStock 标准的 1 万美元法律保障。 【腾讯广告发布一站式 AI 广告创意平台“腾讯广告妙思”(36 氪)】 1 月 11 日报道,腾讯广告在 2024 腾讯智慧营销峰会上正式发布了以腾讯混元大模型为基底的一站式 AI 广告创意平台“腾讯广告妙思”,助力各行业的广告主及优化师在创意制作、投放流程及广告审核等环节,提升广告生产及投放效率。 【淘宝基于 AI 大模型升级店小蜜产品,将于 6 月全行业上线(金十)】 1 月 10 日报道,淘宝近日宣布基于 AI 大模型升级店小蜜产品,邀请商家测试,预计在 2024 年 6 月上线。淘宝方面测试数据显示,店小蜜基于大模型强化 AI 问答能力后,答案准确率提升至 85%,能够服务于售前导购、售后服务、数据洞察、接待质检等环节。 【科大讯飞发布基于星火大模型的数字员工产品(金十)】 1 月 9 日报道,科大讯飞发布了基于星火认知大模型的管理数字员工产品、营销数字员工产品和办公数字员工产品。据科大讯飞地产数字化业务部总经理卢尧介绍,符合存在标准场景、与客户沟通时间长等特点的领域会是营销数字员工产品落地重点,如汽车、地产、数码终端、美容护肤等高端零售业。会上,科大讯飞 AI 工程院常务副院长龙明康透露,1 月 30 日科大讯飞将会正式发布星火认知大模型的最新版本。 【Steam 调整策略:助力发行更多 AI 游戏、增强内容审核(IT 之家)】 1 月 10 日消息,Valve 旗下电子游戏数字分发平台 Steam 近日发布公告,调整相关政策,以便于发行使用 AI 技术的绝大部分游戏。 开发者们在向 Steam 提交游戏时,需要填写新的内容调查,包括全新的 AI 内容披露部分。Steam 将 AI 的使用划分为两个大类:预生成内容(在游戏开发过程中借助 AI 工具生成的内容);实时生成内容(在游戏运行过程中借助 AI 工具生成的内容)。 此外,Steam 还将推出一套全新系统,让玩家可以举报游戏内违法的实时生成 AI 内容。当玩家认为自己遇到了本应被适当的 AI 生成内容保护措施拦截的内容时,便可通过游戏内 Steam 界面进行举报。 03 应用及服务(2C) 【文生视频软件 Pika 已上线 Pika 1.0 付费计划(AI新智界)】 文生视频软件 Pika 已上线 Pika 1.0 付费计划。Pika 的付费计划分为标准和专业两个档次。而在免费版本中,用户将拥有基础的 300 积分,可以生成 60 个视频。 【小度推出小度学习机 K16,搭载 AI 互动大语文体系等 20 项 AI 功能(36 氪 )】 1 月 8 日报道,小度推出学习机新品小度学习机 K16,官方售价为 2299 元。该产品搭载了小度新一代多模式精准学,以及基于百度文心大模型独创的 AI 互动大语文体系等 20 项 AI 功能。目前,该产品已在小度官方商城及各电商平台开启预售。 【夸克 App 上线“AI 学习助手”(36 氪)】 1 月 9 日报道,日前,夸克 App 推出大模型全新应用“AI 学习助手”,在部分搜索学习内容的结果页中,通过智能化的解题思路和讲解方式,进一步提升大学生在自学场景中的效率和质量。夸克数据显示,过去一个月中,与大学学习相关的内容搜索量同比增长近 30%。 【微软已邀请少数用户测试新版记事本 CoWriter AI 写作功能(IT之家)】 1 月 10 日消息,微软目前已邀请极少数用户,测试 Win11 系统中的新版记事本应用程序。据悉,新版最大的亮点在于引入了由 ChatGPT-4 支持的新功能 --CoWriter。这一功能也会采用“积分制”来限制用户使用次数:一旦用户用完了免费积分就需要付费。不过用户依然可以使用 CoWriter 来生成内容,但生成时间会比平时慢一些。 04 重要上市公司变化 【掌趣科技、悠米互娱与英伟达在 AI 技术与应用方面开展合作(财联社)】 1 月 9 日报道,掌趣科技联合悠米互娱与英伟达在 AI 技术与应用方面开展合作,英伟达将向“AI 游戏创作平台”提供 DLSS、Audio2 Face 等 AI 技术支持。未来双方将在 AI 游戏开发工具、AIGC、AI 应用场景等领域继续保持交流与合作。去年 6 月,掌趣科技宣布同悠米共同开发“AI 游戏创作平台”,即面向 C 端或小团队开发者打造 0 代码 AI + UGC 游戏创作平台,从而降低开放世界游戏的开发门槛。 【英伟达将与米哈游、腾讯、网易等游戏公司合作 AI 数字人业务(科创板日报)】 1 月 9 日报道,在美国 CES 2024 展会上,英伟达发布了系列新品,其中 NVIDIA ACE 微服务首次亮相。据悉,这是一个使用生成式 AI 制作虚拟数字人的技术平台,目前与 ACE 的合作者包括米哈游、网易游戏、掌趣科技、腾讯游戏、育碧等企业。 05 近期AIGC热度趋势 抖音 百度搜索 微博 法律声明 本公众号(名称:观媒万象)为国信证券股份有限公司(下称“国信证券”)研究所传媒组依法设立、独立运营的唯一官方公众号。 本公众号所载内容仅面向符合《证券期货投资者适当性管理办法》规定的机构类专业投资者。国信证券不因任何订阅或接收本公众号内容的行为而将订阅人视为国信证券的客户。 本公众号不是国信证券研究报告的发布平台,本公众号只是转发国信证券发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解和歧义。提请订阅者参阅国信证券已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。 国信证券对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本公众号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据国信证券后续发布的证券研究报告在不发布通知的情形下作出更改。国信证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本公众号中资料意见不一致的市场评论和/或观点。 本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本 公众号内容做出的任何决策与国信证券或相关作者无关。 本公众号发布的内容仅为国信证券所有。未经国信证券事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本公众号发布的全部或部分内容,亦不得从未经国信证券书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本公众号发布的全部或部分内容。国信证券将保留追究一切法律责任的权利。
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。