每日AI资讯 - 今日AI资讯-12.04 - 《AI学习相关》

阿里云首届通义千问AI挑战赛">阿里云首届通义千问AI挑战赛
Meta：推出音频生成模型Audiobox
Meta：发布多模态数据集Ego-Exo4D
山东推进新型工业化，瞄准AI等七大未来产业大力推进AI+">山东推进新型工业化，瞄准AI等七大未来产业大力推进AI+
阿里巴巴：推出AI动画生成框架">阿里巴巴：推出AI动画生成框架
多模态LLM测评基准MMMU发布">多模态LLM测评基准MMMU发布
阿里国际发布3款AI设计生态工具">阿里国际发布3款AI设计生态工具
Meta开源实时翻译系列模型Seamless">Meta开源实时翻译系列模型Seamless
全球首个金融风控大模型国际标准开始定制">全球首个金融风控大模型国际标准开始定制
昆仑万维：发布Agent开发平台天工SkyAgents">昆仑万维：发布Agent开发平台天工SkyAgents
奇妙元推出奇妙助手功能

欢迎阅读本期AI资讯。在这个资讯飞速发展的时代,人工智能技术也日新月异。本期资讯汇集了人工智能领域的最新进展和热点话题,旨在帮助您了解人工智能的最新动态与发展趋势。人工智能带来的机遇与挑战同在,我们应该怀有乐观和审慎的态度来看待其影响。最重要的是要学会运用它。希望本期资讯能对您有所启发。

阿里云首届通义千问AI挑战赛

Meta：推出音频生成模型Audiobox

Meta：发布多模态数据集Ego-Exo4D

山东推进新型工业化，瞄准AI等七大未来产业大力推进AI+

阿里巴巴：推出AI动画生成框架

多模态LLM测评基准MMMU发布

阿里国际发布3款AI设计生态工具

Meta开源实时翻译系列模型Seamless

全球首个金融风控大模型国际标准出炉

昆仑万维：发布Agent开发平台天工SkyAgents

奇妙元推出奇妙助手功能

阿里云首届通义千问AI挑战赛

今日AI资讯-12.04 - 图1

在通义千问发布会上，阿里云宣布首届“通义千问AI挑战赛”正式开赛。参赛者可以免费使用通义开源模型家族，其中包括最新发布的720亿参数模型Qwen-72B。该挑战赛分为算法和Agent两个赛道。算法赛道旨在通过微调训练通义千问大模型来探索开源模型的代码能力上限。Agent赛道则要求参赛者基于通义千问大模型和魔搭社区的Agent-Builder框架开发新一代AI应用，以促进大模型在各行各业的实际应用。现在起，开发者可以通过天池平台报名参赛，主办方将提供价值50万元的免费云上算力和奖金给参赛者。

https://tianchi.aliyun.com/competition/activeList

Meta：推出音频生成模型Audiobox

今日AI资讯-12.04 - 图2

Meta推出了名为Audiobox的音频生成模型。该模型可以结合语音输入和自然语言文本提示来生成各种自定义音频，包括语音和音效。据Meta所说，Audiobox是第一个支持语音和文本双输入进行自由语音重新设计的模型。Meta计划在接下来的几周内发布基于Audiobox的应用程序，并展示Audiobox功能的交互式演示。

https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/

Meta：发布多模态数据集Ego-Exo4D

今日AI资讯-12.04 - 图3

Meta推出了一个名为Ego-Exo4D的基础数据集和基准套件，旨在支持视频学习和多模态感知的研究。据介绍，Ego-Exo4D是Meta的FAIR（基础人工智能研究）项目和Aria项目与15所大学合作两年的研究成果。Ego-Exo4D的核心是同时捕捉参与者佩戴摄像头的第一人称（自我中心）视角和周围摄像头的多个第三人称（非自我中心）视角。这两个视角相互补充，自我中心的视角揭示了参与者的视听感知，而非自我中心的视角则揭示了周围场景和上下文。研究者将在本月开源数据，其中包括超过1400小时的视频，并提供用于新基准测试任务的注释。

论文地址： https://ego-exo4d-data.org/paper/ego-exo4d.pdf 项目主页： https://ego-exo4d-data.org

https://ai.meta.com/blog/ego-exo4d-video-learning-perception/

山东推进新型工业化，瞄准AI等七大未来产业大力推进AI+

山东省在济南召开了推进新型工业化的大会。山东省委书记林武强调，要扎实推动新型工业化各项工作，全面加快新型工业化进程。重点关注高端化发展，在未来产业布局上持续加大力度，特别聚焦于元宇宙、人工智能（AI）、生命科学、未来网络、量子科技、人形机器人、深海空天等七个未来产业领域，加强前瞻性研究布局，打造好未来产业的引领区域。同时，注重智能化发展，积极推进数字化与实体经济的深度融合。要加大力度促进人工智能应用，统筹布局通用大模型和垂直大模型，增强算力资源，培育一批高水平的智能技术和产品，积极推动“AI+”的发展。

https://mp.weixin.qq.com/s/H4hP7ymmoYwRrMRtL9hw6g

阿里巴巴：推出AI动画生成框架

今日AI资讯-12.04 - 图4

阿里巴巴的研究团队发布了一篇论文，他们利用扩散模型的能力提出了一个名为Animate Anyone的新框架，专门用于角色动画。这个框架可以从静态图像中使用AI生成动态视频，从而实现对任意角色的动画化。为了保持参考图像中复杂外观特征的一致性，研究团队改进了ReferenceNet算法，并通过空间注意力融合了详细特征。为了确保动画的可控性和连贯性，他们引入了一个高效的姿势指导器来指导角色的动作，并采用了一种有效的时间建模方法，以确保视频帧之间的平滑过渡。论文地址： https://arxiv.org/pdf/2311.17117

https://humanaigc.github.io/animate-anyone/

多模态LLM测评基准MMMU发布

今日AI资讯-12.04 - 图5

美国俄亥俄州立大学（OSU）的博士岳翔在社交平台上发文，他与来自7个机构的20多名研究人员合作发表了一篇论文，提出了MMMU基准测试。该测试收集了来自大学考试、测验和教科书的11.5K个多模态问题，涵盖了30个学科和183个子领域，包括艺术设计、商业、科学、健康与医学、人文社科、技术与工程等，其中包括30种异构图像类型，如图表、图像、地图、表格、乐谱和化学结构等。该测试专注于利用特定领域的知识进行高级感知和推理。论文测试了14个开源大模型以及GPT-4V，并发现即使是先进的GPT-4V也只能达到56%的准确率。对GPT-4V的150个错误案例进行错误分析后发现，35%的错误是感性的，29%是由于缺乏知识，26%是由于推理过程中的缺陷。论文地址：

https://arxiv.org/abs/2311.16502

https://huggingface.co/papers/2311.16502

项目主页： https://mmmu-benchmark.github.io

https://twitter.com/xiangyue96/status/1729698316554801358?s=20

阿里国际发布3款AI设计生态工具

今日AI资讯-12.04 - 图6

在第六届中国国际工业设计博览会上，阿里国际数字商业集团发布了三款设计生态工具：堆友、Pic Copilot、鹿班AI。这些工具提供了AI绘画、AI模型创作、AI图像和视频处理等功能。据报道，这三款产品已经为数十万商家提供服务，覆盖了50万设计师。此外，工信部国际经济技术合作中心与阿里国际设计签署了框架协议，共同推动数智设计的发展。堆友：https://d.design/ Pic Copilot：https://www.piccopilot.com/ 鹿班AI：https://luban.aliyun.com/ https://tech.huanqiu.com/article/4Fa6ROrF6YO

Meta开源实时翻译系列模型Seamless

今日AI资讯-12.04 - 图7

Meta推出了实时翻译系统Seamless。为了构建Seamless，Meta开发了两个模型：SeamlessExpressive用于保留语音到语音翻译的表达能力，SeamlessStreaming用于提供几乎无延迟的流式翻译结果。这些模型都是基于Meta在8月发布的基础模型SeamlessM4T v2构建的。SeamlessExpressive解决了之前在表达性语音研究中尚未开发的韵律方面的问题，如语速、节奏停顿，同时保留了情感和风格。目前，这些元素在英语、西班牙语、德语、法语、意大利语和中文之间的语音到语音翻译中得到保留。SeamlessStreaming支持近100种输入和输出语言的自动语音识别和语音到文本翻译，以及近100种输入语言和36种输出语言的语音到语音翻译。Meta已经开源了这四个模型，以便研究人员可以在此基础上进行进一步的研究。

开源地址： https://github.com/facebookresearch/seamless_communication Demo地址： https://seamless.metademolab.com/expressive

https://ai.meta.com/blog/seamless-communication/?utm_source=twitter&utm_medium=organic_social&utm_campaign=fair10&utm_content=video

全球首个金融风控大模型国际标准开始定制

今日AI资讯-12.04 - 图8

IEEE金融风控大模型标准启动会在深圳召开。这个标准由腾讯主导发起，是全球范围内首个金融风险控制领域的大模型国际标准。它的目标是为金融机构在风控建模环节中应用AI大模型技术提供参考和指引，以便在日益复杂和数据驱动的金融环境中高效预测、衡量和管理业务风险。该标准适用于金融零售信贷场景的风险控制管理，帮助金融机构在运用AI技术生成金融风控大模型的过程中提供参考，包括应用场景、基本条件、模型创建以及迭代等环节。启动会现场明确了标准的研制方案，并计划于明年9月正式发布。

https://mp.weixin.qq.com/s/bl69a91DATlBO29sUN-qWw

昆仑万维：发布Agent开发平台天工SkyAgents

今日AI资讯-12.04 - 图9

昆仑万维正式发布了天工SkyAgents平台。据介绍，天工SkyAgents是国内领先的AI Agent开发平台，基于昆仑万维天工大模型打造，具备自主学习和独立思考能力，涵盖感知、决策和执行的全流程。用户可以通过自然语言构建个人或多个”私人助理”，并将不同任务模块化，通过操作系统模块实现问题预设、指定回复、知识库创建与检索、意图识别、文本提取、HTTP请求等任务。对于企业用户而言，天工SkyAgents可按需组装成多种个性化应用，如企业IT、智能客服、企业培训、HR、法律顾问等，并支持一键服务部署，确保与不同业务系统的无缝集成。内测地址：https://agentspro.cn 开放平台地址：https://model-platform.tiangong.cn/ https://mp.weixin.qq.com/s/Bs97sL1_cseTQ2GVNgl-iw

奇妙元推出奇妙助手功能

今日AI资讯-12.04 - 图10

出门问问旗下的AI数字人视频创作平台奇妙元进行了全面升级，并推出了奇妙助手功能。据介绍，奇妙助手可以快速生成制作视频所需的素材，为短视频生成高质量的图片，内置了8种风格和3种尺寸比例。它还可以基于大模型能力智能生成文本，支持中英双语和多种语言情绪。此外，用户可以上传PPT并一键生成讲解视频，搭载智能解析功能，重点提炼内容。奇妙助手还提供一站式生成数字人视频的功能，提供海量的模板素材供选择。同时，它还可以一键提取视频台词，支持在线视频链接和本地视频上传，准确率达到99%。数字人商店新增了33+个形象，模板商店也更新了大量的剪辑模板素材。

https://mp.weixin.qq.com/s/phYagYwlBMkMFtMkADUORQ

今日AI资讯-12.04

阿里云首届通义千问AI挑战赛

Meta：推出音频生成模型Audiobox

Meta：发布多模态数据集Ego-Exo4D

山东推进新型工业化，瞄准AI等七大未来产业 大力推进AI+

阿里巴巴：推出AI动画生成框架

多模态LLM测评基准MMMU发布

阿里国际发布3款AI设计生态工具

Meta开源实时翻译系列模型Seamless

全球首个金融风控大模型国际标准开始定制

昆仑万维：发布Agent开发平台天工SkyAgents

奇妙元推出奇妙助手功能

山东推进新型工业化，瞄准AI等七大未来产业大力推进AI+