《出版业生成式人工智能技术应用指南》
智源FlagEval 12月榜发布,新增鲁棒性评测
摩尔线程:首个千卡智算中心落地
CMU称:Gemini Pro不如GPT-3.5 Turbo
轻松集团:自研大模型升级 发布七大AI+健康应用
微软与Suno合作,Copilot引入音乐生成功能
谷歌:零样本视频生成模型VideoPoet
AI机器人在迷宫游戏中超越人类
荷兰地图平台TomTom与微软合作打造车载AI助手
百度智能云:千帆AppBuilder开放服务
港中大团队:开源AI音频工具包Amphion
《出版业生成式人工智能技术应用指南》

中国音像与数字出版协会发布了关于发布团体标准《出版业生成式人工智能技术应用指南》的公告。该指南经过立项审核、标准起草、征求意见、专家组审查等程序,并通过团标委审查,现予以批准发布。标准编号为T/CADPA 47-2023,自2024年1月20日起开始实施。
《出版业生成式人工智能技术应用指南(征求意见稿)》 https://web-yinxiang.oss-cn-beijing.aliyuncs.com/yinxiang/upload/yinxiang/file/20231114/1699945418432981.pdfhttp://www.cadpa.org.cn/3281/202312/41644.html
智源FlagEval 12月榜发布,新增鲁棒性评测

https://mp.weixin.qq.com/s/qsSkR5HE3gUVS4PjU4SKmg
摩尔线程:首个千卡智算中心落地

https://mp.weixin.qq.com/s/ixPrVNbpQRAobaCHalXmMw
CMU称:Gemini Pro不如GPT-3.5 Turbo

https://venturebeat.com/ai/google-gemini-is-not-even-as-good-as-gpt-3-5-turbo-researchers-find/
轻松集团:自研大模型升级 发布七大AI+健康应用

轻松集团旗下的医疗健康服务平台轻松健康宣布,他们自主研发的垂直领域大型模型“轻松问医Dr.GPT”已全面升级。同时,轻松健康还发布了基于该大型模型研发的七大应用,以满足不同应用场景和用户群体的特定需求,包括“智能问诊系统”、“个性化健康管理顾问”、“慢性病管理计划”、“心理健康指导师”、“医学知识库和技能培训平台”、“辅助诊疗助手”、“患教内容智创平台”,覆盖健康管理服务的各个场景应用。
https://mp.weixin.qq.com/s/SCyfL6hXDtdGfUOUqD6Y9Q
微软与Suno合作,Copilot引入音乐生成功能

谷歌在其官方网站上宣布推出了用于零样本视频生成的大型语言模型VideoPoet。该模型能够执行多种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复、视频扩展以及视频到音频。该模型采用的方法在单个大模型中无缝集成了多种视频生成功能,而不是依赖于针对每项任务的单独训练组件。
https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html?m=1
#### AI机器人在迷宫游戏中超越人类
苏黎世联邦理工学院的研究人员创建了一个名为CyberRunner的AI机器人,在迷宫游戏Labyrinth中的表现超过了人类。据称,该机器人通过倾斜表面使一个小金属球穿过迷宫,避开棋盘上的洞,仅用了六个小时就掌握了这个玩具。相关论文于当地时间周二发布,介绍了其建立在基于模型的强化学习领域的最新进展之上的模型,让AI通过试错来学习如何在动态环境中行动。该项目现已开源发布,用户可支付200美元以使用CyberRunner平台协调大规模实验。
https://twitter.com/SarithaRai/status/1737335469078442390
#### 荷兰地图平台TomTom与微软合作打造车载AI助手
荷兰数字地图平台TomTom宣布将与微软合作,共同开发基于人工智能的车辆语音助手。该助手将允许用户使用自然语言与车辆进行交流,并实现语音交互,涵盖信息娱乐、位置搜索和车辆命令系统。TomTom表示,这款语音助手可以集成到其他汽车信息娱乐系统中,也可以作为TomTom数字驾驶舱的内置功能,是一个开放的模块化车载信息娱乐平台。
https://t.co/xAOwyiZqh5
#### 百度智能云:千帆AppBuilder开放服务
百度智能云宣布,AI原生应用开发工作台——千帆AppBuilder全面开放服务。据了解,AppBuilder提供两种产品形态,代码态与低代码态。对于有深度AI原生应用开发需求的用户,AppBuilder代码态提供包括SDK、开发环境、调试工具、示例代码等各种开发套件和应用组件;而AppBuilder低码态则提供可视化工具,用户只需简单点选,即可快速定制、上线AI原生应用。
https://cloud.baidu.com/product/wenxinworkshop
#### 港中大团队:开源AI音频工具包Amphion
香港中文大学(深圳)武执政副教授领导的团队与上海人工智能实验室等合作,开源了音频、音乐和语音生成工具包Amphion v0.1版本。除了文字转语音功能,Amphion还能够将一首歌的声音转换成另一个歌手的声音,支持声音转换、歌声合成、文本到音频、文本到音乐等功能。目前,歌声转换支持迈克尔·杰克逊、泰勒·斯威夫特、王菲、那英、李健等歌手的声音。该工具包支持多种模型和架构,如FastSpeech2、VITS、Vall-E、NaturalSpeech2等,用于不同的音频生成任务。
论文地址:
https://arxiv.org/abs/2312.09911
声音转换Demo地址:
https://huggingface.co/spaces/amphion/singing_voice_conversion
