- 阿里云首届通义千问AI挑战赛">阿里云首届通义千问AI挑战赛
- Meta:推出音频生成模型Audiobox
- Meta:发布多模态数据集Ego-Exo4D
- 山东推进新型工业化,瞄准AI等七大未来产业 大力推进AI+">山东推进新型工业化,瞄准AI等七大未来产业 大力推进AI+
- 阿里巴巴:推出AI动画生成框架">阿里巴巴:推出AI动画生成框架
- 多模态LLM测评基准MMMU发布">多模态LLM测评基准MMMU发布
- 阿里国际发布3款AI设计生态工具">阿里国际发布3款AI设计生态工具
- Meta开源实时翻译系列模型Seamless">Meta开源实时翻译系列模型Seamless
- 全球首个金融风控大模型国际标准开始定制">全球首个金融风控大模型国际标准开始定制
- 昆仑万维:发布Agent开发平台天工SkyAgents">昆仑万维:发布Agent开发平台天工SkyAgents
- 奇妙元推出奇妙助手功能
欢迎阅读本期AI资讯。在这个资讯飞速发展的时代,人工智能技术也日新月异。本期资讯汇集了人工智能领域的最新进展和热点话题,旨在帮助您了解人工智能的最新动态与发展趋势。人工智能带来的机遇与挑战同在,我们应该怀有乐观和审慎的态度来看待其影响。最重要的是要学会运用它。希望本期资讯能对您有所启发。
阿里云首届通义千问AI挑战赛
Meta:推出音频生成模型Audiobox
Meta:发布多模态数据集Ego-Exo4D
山东推进新型工业化,瞄准AI等七大未来产业 大力推进AI+
阿里巴巴:推出AI动画生成框架
多模态LLM测评基准MMMU发布
阿里国际发布3款AI设计生态工具
Meta开源实时翻译系列模型Seamless
全球首个金融风控大模型国际标准出炉
昆仑万维:发布Agent开发平台天工SkyAgents
奇妙元推出奇妙助手功能
阿里云首届通义千问AI挑战赛
在通义千问发布会上,阿里云宣布首届“通义千问AI挑战赛”正式开赛。参赛者可以免费使用通义开源模型家族,其中包括最新发布的720亿参数模型Qwen-72B。该挑战赛分为算法和Agent两个赛道。算法赛道旨在通过微调训练通义千问大模型来探索开源模型的代码能力上限。Agent赛道则要求参赛者基于通义千问大模型和魔搭社区的Agent-Builder框架开发新一代AI应用,以促进大模型在各行各业的实际应用。现在起,开发者可以通过天池平台报名参赛,主办方将提供价值50万元的免费云上算力和奖金给参赛者。https://tianchi.aliyun.com/competition/activeList
Meta:推出音频生成模型Audiobox
Meta推出了名为Audiobox的音频生成模型。该模型可以结合语音输入和自然语言文本提示来生成各种自定义音频,包括语音和音效。据Meta所说,Audiobox是第一个支持语音和文本双输入进行自由语音重新设计的模型。Meta计划在接下来的几周内发布基于Audiobox的应用程序,并展示Audiobox功能的交互式演示。
https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/
Meta:发布多模态数据集Ego-Exo4D
Meta推出了一个名为Ego-Exo4D的基础数据集和基准套件,旨在支持视频学习和多模态感知的研究。据介绍,Ego-Exo4D是Meta的FAIR(基础人工智能研究)项目和Aria项目与15所大学合作两年的研究成果。Ego-Exo4D的核心是同时捕捉参与者佩戴摄像头的第一人称(自我中心)视角和周围摄像头的多个第三人称(非自我中心)视角。这两个视角相互补充,自我中心的视角揭示了参与者的视听感知,而非自我中心的视角则揭示了周围场景和上下文。研究者将在本月开源数据,其中包括超过1400小时的视频,并提供用于新基准测试任务的注释。
论文地址: https://ego-exo4d-data.org/paper/ego-exo4d.pdf 项目主页: https://ego-exo4d-data.orghttps://ai.meta.com/blog/ego-exo4d-video-learning-perception/
山东推进新型工业化,瞄准AI等七大未来产业 大力推进AI+
山东省在济南召开了推进新型工业化的大会。山东省委书记林武强调,要扎实推动新型工业化各项工作,全面加快新型工业化进程。重点关注高端化发展,在未来产业布局上持续加大力度,特别聚焦于元宇宙、人工智能(AI)、生命科学、未来网络、量子科技、人形机器人、深海空天等七个未来产业领域,加强前瞻性研究布局,打造好未来产业的引领区域。同时,注重智能化发展,积极推进数字化与实体经济的深度融合。要加大力度促进人工智能应用,统筹布局通用大模型和垂直大模型,增强算力资源,培育一批高水平的智能技术和产品,积极推动“AI+”的发展。https://mp.weixin.qq.com/s/H4hP7ymmoYwRrMRtL9hw6g
阿里巴巴:推出AI动画生成框架
阿里巴巴的研究团队发布了一篇论文,他们利用扩散模型的能力提出了一个名为Animate Anyone的新框架,专门用于角色动画。这个框架可以从静态图像中使用AI生成动态视频,从而实现对任意角色的动画化。为了保持参考图像中复杂外观特征的一致性,研究团队改进了ReferenceNet算法,并通过空间注意力融合了详细特征。为了确保动画的可控性和连贯性,他们引入了一个高效的姿势指导器来指导角色的动作,并采用了一种有效的时间建模方法,以确保视频帧之间的平滑过渡。 论文地址: https://arxiv.org/pdf/2311.17117https://humanaigc.github.io/animate-anyone/
多模态LLM测评基准MMMU发布
美国俄亥俄州立大学(OSU)的博士岳翔在社交平台上发文,他与来自7个机构的20多名研究人员合作发表了一篇论文,提出了MMMU基准测试。该测试收集了来自大学考试、测验和教科书的11.5K个多模态问题,涵盖了30个学科和183个子领域,包括艺术设计、商业、科学、健康与医学、人文社科、技术与工程等,其中包括30种异构图像类型,如图表、图像、地图、表格、乐谱和化学结构等。该测试专注于利用特定领域的知识进行高级感知和推理。论文测试了14个开源大模型以及GPT-4V,并发现即使是先进的GPT-4V也只能达到56%的准确率。对GPT-4V的150个错误案例进行错误分析后发现,35%的错误是感性的,29%是由于缺乏知识,26%是由于推理过程中的缺陷。 论文地址:https://arxiv.org/abs/2311.16502
https://huggingface.co/papers/2311.16502
项目主页: https://mmmu-benchmark.github.iohttps://twitter.com/xiangyue96/status/1729698316554801358?s=20
阿里国际发布3款AI设计生态工具
在第六届中国国际工业设计博览会上,阿里国际数字商业集团发布了三款设计生态工具:堆友、Pic Copilot、鹿班AI。这些工具提供了AI绘画、AI模型创作、AI图像和视频处理等功能。据报道,这三款产品已经为数十万商家提供服务,覆盖了50万设计师。此外,工信部国际经济技术合作中心与阿里国际设计签署了框架协议,共同推动数智设计的发展。 堆友:https://d.design/ Pic Copilot:https://www.piccopilot.com/ 鹿班AI:https://luban.aliyun.com/ https://tech.huanqiu.com/article/4Fa6ROrF6YOMeta开源实时翻译系列模型Seamless
Meta推出了实时翻译系统Seamless。为了构建Seamless,Meta开发了两个模型:SeamlessExpressive用于保留语音到语音翻译的表达能力,SeamlessStreaming用于提供几乎无延迟的流式翻译结果。这些模型都是基于Meta在8月发布的基础模型SeamlessM4T v2构建的。SeamlessExpressive解决了之前在表达性语音研究中尚未开发的韵律方面的问题,如语速、节奏停顿,同时保留了情感和风格。目前,这些元素在英语、西班牙语、德语、法语、意大利语和中文之间的语音到语音翻译中得到保留。SeamlessStreaming支持近100种输入和输出语言的自动语音识别和语音到文本翻译,以及近100种输入语言和36种输出语言的语音到语音翻译。Meta已经开源了这四个模型,以便研究人员可以在此基础上进行进一步的研究。
开源地址: https://github.com/facebookresearch/seamless_communication Demo地址: https://seamless.metademolab.com/expressive全球首个金融风控大模型国际标准开始定制
IEEE金融风控大模型标准启动会在深圳召开。这个标准由腾讯主导发起,是全球范围内首个金融风险控制领域的大模型国际标准。它的目标是为金融机构在风控建模环节中应用AI大模型技术提供参考和指引,以便在日益复杂和数据驱动的金融环境中高效预测、衡量和管理业务风险。该标准适用于金融零售信贷场景的风险控制管理,帮助金融机构在运用AI技术生成金融风控大模型的过程中提供参考,包括应用场景、基本条件、模型创建以及迭代等环节。启动会现场明确了标准的研制方案,并计划于明年9月正式发布。https://mp.weixin.qq.com/s/bl69a91DATlBO29sUN-qWw