《出版业生成式人工智能技术应用指南》

智源FlagEval 12月榜发布,新增鲁棒性评测

摩尔线程:首个千卡智算中心落地

CMU称:Gemini Pro不如GPT-3.5 Turbo

轻松集团:自研大模型升级 发布七大AI+健康应用

微软与Suno合作,Copilot引入音乐生成功能

谷歌:零样本视频生成模型VideoPoet

AI机器人在迷宫游戏中超越人类

荷兰地图平台TomTom与微软合作打造车载AI助手

百度智能云:千帆AppBuilder开放服务

港中大团队:开源AI音频工具包Amphion

《出版业生成式人工智能技术应用指南》

今日AI资讯-12.21 - 图1

中国音像与数字出版协会发布了关于发布团体标准《出版业生成式人工智能技术应用指南》的公告。该指南经过立项审核、标准起草、征求意见、专家组审查等程序,并通过团标委审查,现予以批准发布。标准编号为T/CADPA 47-2023,自2024年1月20日起开始实施。

《出版业生成式人工智能技术应用指南(征求意见稿)》 https://web-yinxiang.oss-cn-beijing.aliyuncs.com/yinxiang/upload/yinxiang/file/20231114/1699945418432981.pdf

http://www.cadpa.org.cn/3281/202312/41644.html

智源FlagEval 12月榜发布,新增鲁棒性评测

今日AI资讯-12.21 - 图2

FlagEval大语言模型测评榜单12月榜发布,新增大语言模型鲁棒性评测结果,FlagEval平台更新了C-SEM v2.0数据集评测结果,新增了Qwen-72B/1.8B、DeepSeek-67B(Base)模型评测。其中,Qwen-72B-Chat模型主观评测结果准确率达83.6%。北京航空航天大学与智源FlagEval团队共同构建了大语言模型鲁棒性评测方案,分为内容扰动鲁棒性评测和格式扰动鲁棒性评测。 测评结果:https://flageval.baai.ac.cn/#/trending

https://mp.weixin.qq.com/s/qsSkR5HE3gUVS4PjU4SKmg

摩尔线程:首个千卡智算中心落地

今日AI资讯-12.21 - 图3

摩尔线程KUAE智算中心在北京成功举办揭幕仪式,宣告国内首个以国产全功能GPU为基础的大规模算力集群正式投入使用。摩尔线程CEO张建中发布了旨在支持千亿参数大模型训练和推理的大模型智算加速卡MTT S4000和摩尔线程KUAE平台。该平台支持业界主流分布式框架,融合了多种并行算法策略,并进行了额外优化以提高通信计算并行和Flash Attention效率。

https://mp.weixin.qq.com/s/ixPrVNbpQRAobaCHalXmMw

CMU称:Gemini Pro不如GPT-3.5 Turbo

今日AI资讯-12.21 - 图4

卡内基梅隆大学(CMU)和BerriAI的研究人员共同发表了一篇论文,对谷歌的Gemini Pro模型与OpenAI的GPT-3.5 Turbo、GPT-4 Turbo以及Mistral AI的Mixtral 8x7B进行了测试对比。他们通过一组不同的提示运行所有模型,包括向他们询问57个不同的多项选择题,涉及STEM、人文科学、社会科学等方面的内容。测试结果显示,Gemini Pro得分在十几个数据集的测试上表现都不如GPT-3.5 Turbo。研究人员还发现,当提示不同的模型在标记为A、B、C或D的答案之间进行选择时,Gemini选择“D”的次数比其他模型不成比例地多,无论它是否是正确的答案。 论文地址:arxiv.org/pdf/2312.11444.pdf

https://venturebeat.com/ai/google-gemini-is-not-even-as-good-as-gpt-3-5-turbo-researchers-find/

轻松集团:自研大模型升级 发布七大AI+健康应用

今日AI资讯-12.21 - 图5

轻松集团旗下的医疗健康服务平台轻松健康宣布,他们自主研发的垂直领域大型模型“轻松问医Dr.GPT”已全面升级。同时,轻松健康还发布了基于该大型模型研发的七大应用,以满足不同应用场景和用户群体的特定需求,包括“智能问诊系统”、“个性化健康管理顾问”、“慢性病管理计划”、“心理健康指导师”、“医学知识库和技能培训平台”、“辅助诊疗助手”、“患教内容智创平台”,覆盖健康管理服务的各个场景应用。

https://mp.weixin.qq.com/s/SCyfL6hXDtdGfUOUqD6Y9Q

微软与Suno合作,Copilot引入音乐生成功能

今日AI资讯-12.21 - 图6

微软宣布与人工智能音乐创作领导者Suno达成合作,将他们的能力引入Microsoft Copilot。通过这一合作,无论音乐背景如何,人们都可以轻松地用简单的提示创作出有趣、聪明、个性化的歌曲。Suno一直是人工智能音乐技术的领先者,开创了从一句话生成完整歌曲——包括歌词、乐器和歌声的能力。无需知道如何唱歌、演奏乐器或阅读音乐,就可以将音乐创意变成现实。Microsoft Copilot和Suno将处理所有繁重的工作,将歌曲与提示相匹配。这一合作将为创造力和乐趣开辟新的视野,使音乐创作变得人人可及。这一体验将从今天开始逐步推出,未来几周将逐渐扩大。 https://blogs.bing.com/search/december-2023/Turn-your-ideas-into-songs-with-Suno-on-Microsoft-Copilot #### 谷歌:零样本视频生成模型VideoPoet 今日AI资讯-12.21 - 图7 谷歌在其官方网站上宣布推出了用于零样本视频生成的大型语言模型VideoPoet。该模型能够执行多种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复、视频扩展以及视频到音频。该模型采用的方法在单个大模型中无缝集成了多种视频生成功能,而不是依赖于针对每项任务的单独训练组件。 https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html?m=1 #### AI机器人在迷宫游戏中超越人类 今日AI资讯-12.21 - 图8 苏黎世联邦理工学院的研究人员创建了一个名为CyberRunner的AI机器人,在迷宫游戏Labyrinth中的表现超过了人类。据称,该机器人通过倾斜表面使一个小金属球穿过迷宫,避开棋盘上的洞,仅用了六个小时就掌握了这个玩具。相关论文于当地时间周二发布,介绍了其建立在基于模型的强化学习领域的最新进展之上的模型,让AI通过试错来学习如何在动态环境中行动。该项目现已开源发布,用户可支付200美元以使用CyberRunner平台协调大规模实验。 https://twitter.com/SarithaRai/status/1737335469078442390 #### 荷兰地图平台TomTom与微软合作打造车载AI助手 今日AI资讯-12.21 - 图9 荷兰数字地图平台TomTom宣布将与微软合作,共同开发基于人工智能的车辆语音助手。该助手将允许用户使用自然语言与车辆进行交流,并实现语音交互,涵盖信息娱乐、位置搜索和车辆命令系统。TomTom表示,这款语音助手可以集成到其他汽车信息娱乐系统中,也可以作为TomTom数字驾驶舱的内置功能,是一个开放的模块化车载信息娱乐平台。 https://t.co/xAOwyiZqh5 #### 百度智能云:千帆AppBuilder开放服务 今日AI资讯-12.21 - 图10 百度智能云宣布,AI原生应用开发工作台——千帆AppBuilder全面开放服务。据了解,AppBuilder提供两种产品形态,代码态与低代码态。对于有深度AI原生应用开发需求的用户,AppBuilder代码态提供包括SDK、开发环境、调试工具、示例代码等各种开发套件和应用组件;而AppBuilder低码态则提供可视化工具,用户只需简单点选,即可快速定制、上线AI原生应用。 https://cloud.baidu.com/product/wenxinworkshop #### 港中大团队:开源AI音频工具包Amphion 今日AI资讯-12.21 - 图11 香港中文大学(深圳)武执政副教授领导的团队与上海人工智能实验室等合作,开源了音频、音乐和语音生成工具包Amphion v0.1版本。除了文字转语音功能,Amphion还能够将一首歌的声音转换成另一个歌手的声音,支持声音转换、歌声合成、文本到音频、文本到音乐等功能。目前,歌声转换支持迈克尔·杰克逊、泰勒·斯威夫特、王菲、那英、李健等歌手的声音。该工具包支持多种模型和架构,如FastSpeech2、VITS、Vall-E、NaturalSpeech2等,用于不同的音频生成任务。 论文地址: https://arxiv.org/abs/2312.09911 声音转换Demo地址: https://huggingface.co/spaces/amphion/singing_voice_conversion