首页 > 公众号研报 > 【国信传媒】AIGC周度动态更新第二十期(20240101 - 20240107)

【国信传媒】AIGC周度动态更新第二十期(20240101 - 20240107)

作者:微信公众号【观媒万象】/ 发布时间:2024-01-08 / 悟空智库整理
(以下内容从国信证券《【国信传媒】AIGC周度动态更新第二十期(20240101 - 20240107)》研报附件原文摘录)
  本周大模型及算法进展 海外方面,1)视频模型方面,Meta等推出全新AI视频生成模型FlowVid,仅需1.5分钟,就能生成一段4秒,每秒30帧、分辨率为512x512的视频;Midjourney 计划未来几个月推出“文本转视频”模型;Salesforce 研究提出新的视频生成 AI 模型 MoonShot,可同时以图像和文本的多模态输入为条件,更精确地控制生成的画面。2)垂直模型方面,网易有道推出子曰教育大模型 2.0,上下文窗口扩大到 16 K;松鼠 AI 推出教育行业首个智适应大模型。3)轻量型模型方面,Hugging Face 开发 8 亿参数文生成图模型 aMUSEd,几秒钟内可生成 AI 图像,可部署在移动设备等设备上;微软微型 LLM Phi-2 现已开源,据称性能优于谷歌 Gemini Nano;迷你 AI 开源模型 TinyLlama 发布,占用仅为 637 MB。 国内方面,1)华为诺亚方舟实验室等联合推出新型大语言模型架构盘古 -π,同规模性能超 LLaMA;2)华科阿里等联合打造 TF-T2V 视频方案,无需文本标注,降低AI量产视频成本。 B端工具及垂类应用方面, 1)OpenAI将推出“聊天机器人商店(Chatbot Store)”,允许AI模型开发者的客户共享和销售针对不同用途定制的基于OpenAI技术的聊天机器人;2)模型训练数据上,OpenAI拟向媒体出版公司支付数百万美元的年费采买新闻许可以训练大模型;3)营销电商方面,小冰发布数字员工和克隆人多款AI产品,已与淘宝合作AI电商业务;Meta发布生成式AI调试工具 HawkEye,用于解决其产品和广告系统中的人工智能调试挑战,Meta计划未来将 HawkEye 开源。 C端应用及服务方面,1)Chatbot方面,消息称谷歌将推出Bard高级版付费服务,同ChatGPT Plus竞争;2)教育上,网易有道发布全新一代有道学习机及大模型应用“小 P 老师”;3)浏览器上,移动端Edge浏览器名称变更加入“AI”字样,宣传新的人工智能功能,如 DALL-E 3 图像生成器、Copilot 文章摘要、图像识别等;4)视频生成上,阿里云通义千问 App上线免费功能“通义舞王”, 用户按照提示要求上传照片后,十几分钟即可生成神形兼备的舞蹈视频。 重要上市公司变化方面,1)美图自研 AI 视觉大模型 MiracleVision 通过备案将向公众开放;2)富春股份:子公司已将 AIGC 工具应用在游戏研发的美术、代码等方面;3)昆仑万维天工 AI 联合《最强大脑》加速大模型落地。 01 相关政策更新 【网信办公布第三批深度合成服务算法备案信息,含淘宝、抖音、网易等企业(IT 之家)】 1 月 5 日,国家互联网信息办公室发布第三批深度合成服务算法备案信息的公告,淘宝、抖音、网易等企业在列。据《互联网信息服务深度合成管理规定》第十九条明确规定,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。 境内深度合成服务算法备案清单(2024 年 1 月)部分企业及算法包括淘宝图像风格化生成算法、淘宝对话生成算法;天猫对话生成算法;抖音火山引擎人脸融合算法、火山引擎文本转语音算法;中国电信数字人生成算法;美图奇想智能视觉大模型算法 2-MiracleVision;网易智能商品内容生成算法、逆水寒文本生成算法、网易伏羲语音生成算法;百度语音识别算法、小度生成式语音合成算法等。 02 大模型&算法 【Meta等推出全新AI视频生成模型FlowVid(新智元)】 来自得克萨斯大学奥斯汀分校的Meta GenAI团队成员,提出了一个能够保持一致性的V2V(视频到视频)合成框架——FlowVid。仅需1.5分钟,就能生成一段4秒,每秒30帧、分辨率为512x512的视频。同时,FlowVid能够无缝与现有I2I模型配合,支持多种修改方式,包括风格化、物体替换和局部编辑。 【Midjourney 计划未来几个月推出“文本转视频”模型(站长之家)】 Midjourney 公司周二宣布,他们计划在未来几个月推出“文本转视频”模型,将其 AI 形象生成器扩展到视频创作领域。该公司将于 1 月开始培训视频模型,CEO David Holz 表示这是平台的自然发展,将竞争动态引入生成视频行业。截至目前,Holz 或 MidJourney 团队尚未分享有关模型的进一步信息。 【华为诺亚方舟实验室等联合推出新型大语言模型架构盘古 -π,同规模性能超 LLaMA(量子位)】 1月 2 日报道,华为诺亚方舟实验室等联合推出新型大语言模型架构:盘古 -π。通过增强非线性,该架构在传统 Transformer 上做出改进,由此可以显著降低特征塌陷问题,模型输出表达能力更强。据悉,在使用相同数据训练的情况下,盘古 -π(7B)在多任务上超越 LLaMA 2 等同规模大模型,并能实现 10% 的推理加速。在 1B 规模上可达 SOTA。同时华为还基于这一架构炼出了一个金融法律大模型“云山”。该工作由 AI 大牛陶大程领衔。 【网易有道推出子曰教育大模型 2.0(中国新闻网)】 1 月 3 日,网易有道在北京举行子曰教育大模型创新成果发布会,正式推出子曰教育大模型 2.0,上下文窗口扩大到 16 K,同时还发布了基于大模型研发的三大创新应用及一款智能硬件新品:AI 家庭教师“小 P 老师”,有道速读,虚拟人口语私教 Hi Echo2.0,以及有道 AI 学习机 X20。此外,网易有道还宣布将开源基于子曰教育大模型自研的 RAG 引擎“QAnything”,以便与开发者社区共享技术成果。 【Hugging Face 开发 8 亿参数文生成图模型 aMUSEd,几秒钟内可生成 AI 图像(站长之家)】 1 月 5 日报道,Hugging Face 团队正试图通过一款名为 aMUSEd 的新模型加快速度,该模型可以在短短几秒钟内生成图像,比其他竞争对手如 Stable Diffusion 更快。 这款轻量级的文本到图像模型基于谷歌的 MUSE 模型,参数规模约为 8 亿。aMUSEd 可以部署在移动设备等设备上。它的速度来自于它的构建方式。aMUSEd 采用了一种称为 Masked Image Model(MIM)的架构,而不是 Stable Diffusion 和其他图像生成模型中的潜在扩散。Hugging Face 团队表示,MIM 减少了推理步骤,从而提高了模型的生成速度和可解释性。而且它的小尺寸也使得它运行速度很快。 【华科阿里等联合打造 TF-T2V 视频方案,无需文本标注,把AI量产视频的成本打下来(站长之家)】 1 月 7 日报道,与图片生成相比,视频生成仍存在巨大挑战。首先,视频生成需要处理更高维度的数据,考虑额外时间维度带来的时序建模问题,因此需要更多的视频 - 文本对数据来驱动时序动态的学习。然而,对视频进行准确的时序标注非常昂贵。这限制了视频 - 文本数据集的规模,如现有 WebVid10M 视频数据集包含10.7M 视频 - 文本对,与 LAION-5B 图片数据集在数据规模上相差甚远,严重制约了视频生成模型规模化的扩展。为解决上述问题,华中科技大学、阿里巴巴集团、浙江大学和蚂蚁集团联合研究团队于近期发布了TF-T2V视频方案。该方案另辟蹊径,提出了基于大规模无文本标注视频数据进行视频生成,能够学习丰富的运动动态。 【微软微型 LLM Phi-2 现已开源,据称性能优于谷歌 Gemini Nano(The Decoder)】 1 月 6 日报道,微软以 MIT 开源许可证发布 Phi-2。MIT 许可证允许对许可软件进行商业使用、分发、修改和私人使用。 去年 12 月,微软发布 27 亿参数语言模型 Phi-2, 据称,其性能与 Google Gemini Nano 2 不相上下,甚至更胜一筹。 【Salesforce 研究提出新视频生成 AI 模型 MoonShot(MarketPost)】 1 月 7 日报道,Salesforce 研究提出新的视频生成 AI 模型 MoonShot,可同时以图像和文本的多模态输入为条件,更精确地控制生成的画面。 【松鼠 Ai 推出教育行业首个智适应大模型(经济观察网)】 1 月 5 日,在 AIAED 智适应教育大模型学术研讨会上,松鼠 Ai 正式发布国内首个教育智适应大模型,并在会上首次公开分享了应用落地大模型技术的思考与实践。 松鼠 Ai 董事长栗浩洋称,过去一年多里,众多国内外企业纷纷涉足大模型市场,并基于通用大模型开发出了一系列教育应用。然而,这些通用大模型主要是基于大语言模型,核心在于如何更好地与人交互。与此不同,智适应学习系统是一种能够将人工智能技术渗透到教学的核心环节,从根本上改变学习理念和方法的产品。 【迷你 AI 开源模型 TinyLlama 发布,占用仅为 637 MB(站长之家)】 1 月 6 日报道,TinyLlama 团队发布了一款占用仅 637 MB 的高性能 AI 开源模型 TinyLlama。TinyLlama 是 Meta 开源语言模型 Llama2 的紧凑版本,该模型有着 10 亿参数,性能优越,适用于多领域的语言模型研究,其最终版本在性能上超越了现有规模相当的开源语言模型,包括 Pythia-1.4B、OPT-1.3B 和 MPT-1.3B。据悉,TinyLlama 可在边缘设备上部署,也可用于辅助大型模型的推测解码。 03 工具&垂类应用(2B) 【OpenAI下周将推出聊天机器人商店(财联社)】 1月5日电,OpenAI的开发者备忘录显示,该公司计划在下周推出其“聊天机器人商店(Chatbot Store)”。该商店将允许AI模型开发者的客户共享和销售针对不同用途定制的基于OpenAI技术的聊天机器人。聊天机器人商店最初计划于去年11月份开放,但由于某些原因推迟了发布时间。 【OpenAI拟向媒体出版公司支付数百万美元的年费采买新闻许可以训练大模型(The Information)】 两名与OpenAI谈判的高管近日透露,OpenAI已经向一些媒体公司开出了每年100万 - 500万美元的价格,以获得将新闻内容用于训练自家大语言模型的授权许可。一位高管同时也称,苹果正试图在生成人工智能领域追赶OpenAI和谷歌,并试图与出版商就其内容的使用达成交易且出价更高。 【消息称英伟达正开发“Skinny Joe”AI GPU:700W TDP,特供中国(IT之家)】 据 IT 之家援引国外科技媒体 tweaktown 报道,英伟达正开发名为“Skinny Joe”的全新 AI GPU,预估为中国特供版本,其 TDP 为 700W。根据曝光的参考 Dev_ID 列表,“Skinny Joe”仅次于新款 L20 AI GPU 和英伟达 GeForce RTX 4090 D 显卡。目前尚不清楚“Skinny Joe”AI GPU 的具体规格信息,不过预估可能是 H100 或者 H200 的“瘦身”版本。 【小冰发布数字员工和克隆人多款 AI 产品,已与淘宝合作 AI 电商业务(科创板日报)】 1 月 4 日报道,小冰公司今日正式发布多款 AI 产品,包括小冰数字员工、小冰克隆人、小爱同学和 OPPO 的合作平台以及 AI 歌手。其中,数字员工和克隆人可以用于 AI 电商,已与淘宝进行了合作,用户在淘宝中可以直接与克隆人交互,直播解决方案拓展了小语种,辅助商家的跨境电商业务。 【AI 小说生成工具 MidReal AI 更新 Beta 版本(站长之家)】 1 月 3 日报道,AI 小说生成工具 MidReal AI 最新更新了 Beta 版本,在更新了模型的基础上增加了许多新功能。此外,官网上线了小说展厅,用户可以在官网上查看推荐的小说。 【Meta 发布生成式 AI 调试工具 HawkEye(站长之家)】 1 月 4 日报道,Meta 发布了一款名为 HawkEye 的生成式 AI 调试工具,用于解决其产品和广告系统中的人工智能调试挑战。HawkEye 采用决策树来简化调试流程,加速识别和解决模型异常问题,该工具能够在问题变得明显之前消除它们,提高可靠性。Meta 计划将 HawkEye 开源,以推动整个行业在强大、负责任的 AI 运维方面取得重要进展。 04 应用及服务(2C) 【消息称谷歌将推出Bard高级版付费服务,同ChatGPT Plus竞争(IT之家)】 消息称谷歌计划推出其AI语言模型Bard的高级付费版本——Bard Advanced,类似ChatGPT Plus付费订阅服务。Bard Advanced将在现有免费版本的基础上提供一系列额外功能和提升,主要包括:信息获取更广、回应质量的提升、优先处理速度。免费版Bard预计将继续保留,谷歌计划提供限时免费试用,让用户在付费之前体验Bard Advanced的强大之处。 【网易有道今日将发布全新一代有道学习机及大模型应用“小 P 老师”(财联社)】 1 月 3 日报道,网易有道将在今天的发布会上发布多项大模型应用新品,包括智能硬件有道学习机、以及大模型原生应用 AI 家庭教师“小 P 老师”、新一代虚拟人口语私教、有道速读等。同时,网易有道将推出“子曰”教育大模型 2.0 版本,在口语对话能力、教育场景下知识问答能力、文字处理能力等方面全面升级。 【微软移动端 Edge 浏览器名称变更,加入“AI”字样(IT之家)】 1 月 2 日消息,近日,用户发现微软将其安卓和 iOS 平台的移动浏览器从“微软 Edge”改名为了“微软 Edge:AI 浏览器”,强调了其目前最重视的 AI 领域。除了新的名字,该浏览器在 App Store 和 Google Play Store 的介绍中也宣传了新的人工智能功能,如 DALL-E 3 图像生成器、Copilot 文章摘要、图像识别等。此外,该介绍还强调了对 GPT-4 的支持,称微软 Edge 是“你的人工智能浏览器”。 【阿里云通义千问 App 上线免费功能“通义舞王”(36 氪)】 阿里云通义千问 App 上线免费功能“通义舞王”,用户在通义千问 App 内输入“通义舞王”“全民舞王”等口令后,即可进入体验页面。用户按照提示要求上传照片后,十几分钟即可生成神形兼备的舞蹈视频。目前,通义千问首批为用户提供了 12 种热门舞蹈模板。该功能背后的算法为阿里通义实验室自研视频生成模型 Animate Anyone。 【微软改变PC键盘 将新增人工智能键(财联社)】 1月4日电,微软宣布将Copilot键引入Windows 11电脑。微软称,在新的一年里,将迎来一个重大转变,即走向更加个人化和智能化的计算未来,人工智能将从系统、芯片到硬件无缝融入Windows。 05 重要上市公司变化 【美图自研 AI 视觉大模型 MiracleVision 通过备案将向公众开放(AI新智界)】 1 月 2 日,美图公司自研 AI 视觉大模型 MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。 据悉,MiracleVision于 2023 年 6 月内测,为美图秀秀、美颜相机、Wink、美图设计室、WHEE、美图云修等知名影像与设计产品提供 AI 模型能力的同时,也帮助美图公司搭建起由底层、中间层和应用层构建的人工智能产品生态。MiracleVision 目前已升级至 4.0 版本,除全面应用于美图旗下产品,还在逐步助力电商、广告、游戏、动漫、影视五大行业。截至目前,在通过备案的国内大模型当中,美图公司 MiracleVision(奇想智能)是唯一专注视觉领域的大模型,也是福建省唯一通过备案的大模型。 【富春股份:子公司已将 AIGC 工具应用在游戏研发的美术、代码等方面(深交所互动易)】 富春股份回答投资者时表示,人工智能在研发效率提升、研发成本降低及互动性增强等多个方面具有广阔的潜力,公司看好其技术应用的前景,公司全资子公司上海骏梦已将 AIGC 工具应用在游戏研发的美术、代码等方面,并积极探索与国内外 AI 大模型公司合作。 【昆仑万维天工 AI 联合《最强大脑》加速大模型落地(证券时报)】 1 月 5 日晚,由昆仑万维“天工 App”特约赞助的《最强大脑》第 11 季正式播出。这是 AI 大模型技术与综艺 IP 的首度深度合作。在节目中,“天工 App”将发挥其能搜、能聊、能写的多项超级 AI 大模型能力,与嘉宾选手深度互动,参与趣味脑力竞技环节,以推动大模型技术的普适应用。 06 近期AIGC热度趋势 抖音 百度搜索 微博 法律声明 本公众号(名称:观媒万象)为国信证券股份有限公司(下称“国信证券”)研究所传媒组依法设立、独立运营的唯一官方公众号。 本公众号所载内容仅面向符合《证券期货投资者适当性管理办法》规定的机构类专业投资者。国信证券不因任何订阅或接收本公众号内容的行为而将订阅人视为国信证券的客户。 本公众号不是国信证券研究报告的发布平台,本公众号只是转发国信证券发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解和歧义。提请订阅者参阅国信证券已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。 国信证券对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本公众号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据国信证券后续发布的证券研究报告在不发布通知的情形下作出更改。国信证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本公众号中资料意见不一致的市场评论和/或观点。 本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本 公众号内容做出的任何决策与国信证券或相关作者无关。 本公众号发布的内容仅为国信证券所有。未经国信证券事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本公众号发布的全部或部分内容,亦不得从未经国信证券书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本公众号发布的全部或部分内容。国信证券将保留追究一切法律责任的权利。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。