- 阿里云首届通义千问AI挑战赛">阿里云首届通义千问AI挑战赛
- Meta:推出音频生成模型Audiobox
- Meta:发布多模态数据集Ego-Exo4D
- 山东推进新型工业化,瞄准AI等七大未来产业 大力推进AI+">山东推进新型工业化,瞄准AI等七大未来产业 大力推进AI+
- 阿里巴巴:推出AI动画生成框架">阿里巴巴:推出AI动画生成框架
- 多模态LLM测评基准MMMU发布">多模态LLM测评基准MMMU发布
- 阿里国际发布3款AI设计生态工具">阿里国际发布3款AI设计生态工具
- Meta开源实时翻译系列模型Seamless">Meta开源实时翻译系列模型Seamless
- 全球首个金融风控大模型国际标准开始定制">全球首个金融风控大模型国际标准开始定制
- 昆仑万维:发布Agent开发平台天工SkyAgents">昆仑万维:发布Agent开发平台天工SkyAgents
- 奇妙元推出奇妙助手功能
欢迎阅读本期AI资讯。在这个资讯飞速发展的时代,人工智能技术也日新月异。本期资讯汇集了人工智能领域的最新进展和热点话题,旨在帮助您了解人工智能的最新动态与发展趋势。人工智能带来的机遇与挑战同在,我们应该怀有乐观和审慎的态度来看待其影响。最重要的是要学会运用它。希望本期资讯能对您有所启发。
阿里云首届通义千问AI挑战赛
Meta:推出音频生成模型Audiobox
Meta:发布多模态数据集Ego-Exo4D
山东推进新型工业化,瞄准AI等七大未来产业 大力推进AI+
阿里巴巴:推出AI动画生成框架
多模态LLM测评基准MMMU发布
阿里国际发布3款AI设计生态工具
Meta开源实时翻译系列模型Seamless
全球首个金融风控大模型国际标准出炉
昆仑万维:发布Agent开发平台天工SkyAgents
奇妙元推出奇妙助手功能
阿里云首届通义千问AI挑战赛
https://tianchi.aliyun.com/competition/activeList
Meta:推出音频生成模型Audiobox
Meta推出了名为Audiobox的音频生成模型。该模型可以结合语音输入和自然语言文本提示来生成各种自定义音频,包括语音和音效。据Meta所说,Audiobox是第一个支持语音和文本双输入进行自由语音重新设计的模型。Meta计划在接下来的几周内发布基于Audiobox的应用程序,并展示Audiobox功能的交互式演示。
https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/
Meta:发布多模态数据集Ego-Exo4D
Meta推出了一个名为Ego-Exo4D的基础数据集和基准套件,旨在支持视频学习和多模态感知的研究。据介绍,Ego-Exo4D是Meta的FAIR(基础人工智能研究)项目和Aria项目与15所大学合作两年的研究成果。Ego-Exo4D的核心是同时捕捉参与者佩戴摄像头的第一人称(自我中心)视角和周围摄像头的多个第三人称(非自我中心)视角。这两个视角相互补充,自我中心的视角揭示了参与者的视听感知,而非自我中心的视角则揭示了周围场景和上下文。研究者将在本月开源数据,其中包括超过1400小时的视频,并提供用于新基准测试任务的注释。
论文地址: https://ego-exo4d-data.org/paper/ego-exo4d.pdf 项目主页: https://ego-exo4d-data.orghttps://ai.meta.com/blog/ego-exo4d-video-learning-perception/
山东推进新型工业化,瞄准AI等七大未来产业 大力推进AI+
山东省在济南召开了推进新型工业化的大会。山东省委书记林武强调,要扎实推动新型工业化各项工作,全面加快新型工业化进程。重点关注高端化发展,在未来产业布局上持续加大力度,特别聚焦于元宇宙、人工智能(AI)、生命科学、未来网络、量子科技、人形机器人、深海空天等七个未来产业领域,加强前瞻性研究布局,打造好未来产业的引领区域。同时,注重智能化发展,积极推进数字化与实体经济的深度融合。要加大力度促进人工智能应用,统筹布局通用大模型和垂直大模型,增强算力资源,培育一批高水平的智能技术和产品,积极推动“AI+”的发展。https://mp.weixin.qq.com/s/H4hP7ymmoYwRrMRtL9hw6g
阿里巴巴:推出AI动画生成框架
https://humanaigc.github.io/animate-anyone/
多模态LLM测评基准MMMU发布
https://arxiv.org/abs/2311.16502
https://huggingface.co/papers/2311.16502
项目主页: https://mmmu-benchmark.github.iohttps://twitter.com/xiangyue96/status/1729698316554801358?s=20
阿里国际发布3款AI设计生态工具
Meta开源实时翻译系列模型Seamless
Meta推出了实时翻译系统Seamless。为了构建Seamless,Meta开发了两个模型:SeamlessExpressive用于保留语音到语音翻译的表达能力,SeamlessStreaming用于提供几乎无延迟的流式翻译结果。这些模型都是基于Meta在8月发布的基础模型SeamlessM4T v2构建的。SeamlessExpressive解决了之前在表达性语音研究中尚未开发的韵律方面的问题,如语速、节奏停顿,同时保留了情感和风格。目前,这些元素在英语、西班牙语、德语、法语、意大利语和中文之间的语音到语音翻译中得到保留。SeamlessStreaming支持近100种输入和输出语言的自动语音识别和语音到文本翻译,以及近100种输入语言和36种输出语言的语音到语音翻译。Meta已经开源了这四个模型,以便研究人员可以在此基础上进行进一步的研究。
开源地址: https://github.com/facebookresearch/seamless_communication Demo地址: https://seamless.metademolab.com/expressive全球首个金融风控大模型国际标准开始定制
https://mp.weixin.qq.com/s/bl69a91DATlBO29sUN-qWw