每日AI资讯 - 今日AI资讯-12.05 - 《AI学习相关》

大模型3D可视化工作原理项目发布
首个无自然语言的大型视觉模型发布">首个无自然语言的大型视觉模型发布
UC伯克利等发布多模态基础模型CoDi-2
R-CNN作者离开Meta加入AI2
AI智能决策公司悠桦林完成近亿元C+轮融资
谷歌发布无监督同声传译架构Translatotron 3
青海昆仑人工智能算力中心正式揭牌启动运营
微软Copilot结束公测全面上市">微软Copilot结束公测全面上市
恒山光量子算力平台公测上线">恒山光量子算力平台公测上线
研究发现向ChatGPT承诺小费，回复会更详细">研究发现向ChatGPT承诺小费，回复会更详细
谷歌Gemini推迟至明年1月发布">谷歌Gemini推迟至明年1月发布

大模型3D可视化工作原理项目发布

首个无自然语言的大型视觉模型发布

UC伯克利等发布多模态基础模型CoDi-2

R-CNN作者离开Meta加入AI2

AI智能决策公司悠桦林完成近亿元C+轮融资

谷歌发布无监督同声传译架构Translatotron 3

青海昆仑人工智能算力中心正式揭牌启动运营

微软Copilot结束公测全面上市

恒山光量子算力平台公测上线

研究发现向ChatGPT承诺小费，回复会更详细

谷歌Gemini推迟至明年1月发布

大模型3D可视化工作原理项目发布

今日AI资讯-12.05 - 图1

开发者Brendan Bycroft在社交平台X上发布了他的大模型工作原理的3D可视化项目。该项目使用3D渲染展示了运行单个标记推理的所有步骤，并提供了步骤的演练指南和一些可交互的元素。通过可视化，可以展示计算发生的位置、复杂性以及张量和权重的相对大小。该项目演示了GPT-2、GPT-3和轻量级的NanoGPT等模型。

项目地址：https://bbycroft.net/llm

首个无自然语言的大型视觉模型发布

今日AI资讯-12.05 - 图2

来自BAIR和约翰斯·霍普金斯大学的团队发表了一篇论文，推出了首个无需自然语言数据的大型视觉模型（LVM，Large Vision Models）。该研究团队引入了一种新的序列建模方法，可以在没有任何语言数据的情况下学习LVM。论文定义了一种通用格式，即”视觉句子”，用于表示原始图像和视频以及带有语义分割和深度重建等注释数据源，而无需除像素之外的其他元知识。通过将包含4200亿个标记的各种视觉数据表示为序列，模型可以通过最小化交叉熵损失进行下一个标记预测的训练。通过对不同规模的模型架构和数据多样性进行训练，论文提供了实证证据表明该模型具有有效的可扩展性。在测试阶段，通过设计适当的视觉提示，可以解决许多不同的视觉任务。该项目的源代码、模型和数据集将来会开源。论文地址： https://arxiv.org/abs/2312.00785 项目主页： https://yutongbai.com/lvm.html

UC伯克利等发布多模态基础模型CoDi-2

今日AI资讯-12.05 - 图3

UC伯克利的博士Zineng Tang在社交平台X上发布了多模态大模型CoDi-2的论文。该模型可以在零/少样本的交互方式下生成任何模态（文本、视觉、音频），并且能够根据复杂的多模态交错上下文指令进行操作。为了训练CoDi-2，来自UC伯克利、微软Azure AI等机构的团队构建了一个大规模的生成数据集，涵盖了跨文本、视觉和音频的上下文多模态指令。CoDi-2展示了广泛的零样本图像生成能力，如推理、组合性、指令编辑、示例学习和主题驱动生成等。此外，CoDi-2还展示了音频生成的零镜头/少镜头能力，以及指令编辑和示例学习等复杂的提示。

论文地址： https://arxiv.org/pdf/2311.18775.pdf 项目地址： https://codi-2.github.io

https://twitter.com/ZinengTang/status/1730658941414371820?s=20

R-CNN作者离开Meta加入AI2

今日AI资讯-12.05 - 图4

AI2（艾伦AI研究所）的计算机视觉高级总监Ani Kembhavi在社交平台X上发文，宣布Ross Girschick将加入PRIOR团队。PRIOR是感知推理和交互研究的缩写，是AI2的一个计算机视觉研究团队，旨在推进计算机视觉领域，创建能够观察、探索、学习和推理世界的人工智能系统。Meta首席科学家杨立昆也在社交平台X上发文，表示Girschick离开对Meta基础AI研究所（FAIR）来说是一种损失，但他也为他感到高兴。他认为科研人员从工业实验室转向学术界或非营利组织是一种自然的职业过渡。Girschick因开发基于区域的卷积神经网络（R-CNN）的目标检测方法而闻名，并凭借“Mask R-CNN”在2017年的ICCV上获得了Marr奖。他的个人主页最近也进行了更新，宣布他将于2024年初加入AI2。

https://twitter.com/ylecun/status/1730713022195470541?s=20

AI智能决策公司悠桦林完成近亿元C+轮融资

今日AI资讯-12.05 - 图5

AI智能决策公司悠桦林微信公众号今日发布文章称，悠桦林近日完成了近1亿元人民币的C+轮融资，由上汽恒旭领投。这轮融资将用于加强悠桦林在运筹优化领域的技术优势和招募顶级行业人才，持续完善算法、产品和服务体系，特别是在智能供应链计划和排程优化平台方面的创新和深化，加快智能化决策解决方案的商业化步伐。

https://mp.weixin.qq.com/s/_BjYRDQPWw783jBrVYaWlg

谷歌发布无监督同声传译架构Translatotron 3

今日AI资讯-12.05 - 图6

谷歌在其官网上发布了无监督语音到语音翻译架构Translatotron 3，该架构只使用单语数据就可以学习语音到语音翻译任务。据介绍，该方法不需要对目标语言进行直接监督，这有助于保留源语音的语音附带特征（例如音调、情感等）。为了实现语音到语音的翻译，研究团队使用了反向翻译，这是一种无监督机器翻译（UMT）技术，使用源语言的合成翻译来进行翻译，而无需双语文本数据集。

论文地址：
https://arxiv.org/abs/2305.17547

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

青海昆仑人工智能算力中心正式揭牌启动运营

今日AI资讯-12.05 - 图7

由中共城西区委、城西区人民政府主办，青海锦诚、青海云顶、西宁升哲承办的青海昆仑人工智能算力中心揭牌仪式在西宁锦诚大厦举行。青海昆仑人工智能算力中心正式揭牌启动运营，成为青藏高原第一座智算中心。参与揭牌仪式的领导和嘉宾包括青海省工业和信息化厅副厅长、青海省发展和改革委员会政策研究室副主任、青海省工信厅数字经济发展局局长、青海联通党委书记等。同时，还有国家发改委市场所助理研究员、国家信息中心信息与网络安全部高级工程师等专家参会。青海昆仑人工智能算力中心将依托三江源国家大数据基地，托管运营算力资源。此次揭牌仪式的成功举办标志着城西区在算力产业和数字经济发展方面迈上了新的台阶，未来将全力打造算力产业与数字经济新生态。

https://mp.weixin.qq.com/s/my3AmRrhkFU_e25RXK_KqQ

微软Copilot结束公测全面上市

今日AI资讯-12.05 - 图8

微软在其官网上宣布Copilot（原名Bing Chat）已经退出公测阶段，现在已经全面可用。此外，具备商业数据保护功能的Copilot（原名Bing Chat Enterprise）现在向更多符合条件的Microsoft 365许可证用户开放，并且微软计划逐步增加基于云的标识和访问管理服务Entra ID的用户。微软通讯总监Caitlin Roulston表示，Copilot现在可以在169个国家/地区以105种语言在所有现代移动和网络浏览器上使用。 Copilot地址： https://copilot.microsoft.com

https://blogs.bing.com/search/december-2023/Microsoft-Copilot-is-now-generally-available

恒山光量子算力平台公测上线

今日AI资讯-12.05 - 图9

中国移动云能力中心与北京玻色量子合作推出了“五岳量子计算云平台——恒山光量子算力平台”，该平台在苏州正式发布。这是继玻色量子于2023年5月16日发布国内首台100量子比特相干光量子计算机真机“天工量子大脑”之后的又一重要里程碑。恒山光量子算力平台面向政企和科研用户开放，用户可以在注册开通“五岳”量子云服务后，通过控制台页面访问恒山光量子算力服务，并订购真机算力服务。现在，“恒山光量子算力平台”已正式开启公测。“五岳”量子计算云平台是一个融合光量子物理算力和经典算力的全栈量子计算云平台，为科研用户提供了云上可调用的光量子计算机算力资源以及多种类型的量子算法和应用的模拟仿真服务。其中，“恒山光量子算力平台”实现了100计算量子比特相干光量子计算机安全接入移动云算力底座，端到端地支持“数据构建、任务提交、安全鉴权、状态监控、消息互传”，并提供持续稳定的任务型量子真机算力服务。公测申请入口：https://ecloud.10086.cn/portal/product/WYQCLOUD https://www.sohu.com/a/741211517_100016644

研究发现向ChatGPT承诺小费，回复会更详细

今日AI资讯-12.05 - 图10

开发者@voooooogel在社交平台X上发文，表示向ChatGPT提问时承诺给予小费，将获得更详细的回复。该开发者使用gpt-4-1106-preview模型进行测试，基准提示是“你能向我展示使用PyTorch的简单卷积网络的代码吗”，然后附加了“不会给小费”、“给20美元小费”或“给200美元小费”的条件，并计算了5个回复的平均长度。测试结果显示，当提问中未提及小费时，回答的字符数低于基准的2%；当提出给予20美元小费时，回答的字符数高于基准的6%；当提出给予200美元小费时，回答的字符数高于基准的11%。据称，回答字符数增加的原因是ChatGPT提供了更详细的问题解释或在答案中添加了额外的相关内容，而不仅仅是对提出的问题进行评论。例如，在提供200美元小费时，ChatGPT自动添加了关于使用CUDA进行训练的部分，而问题本身并未明确提及。

https://twitter.com/ylecun/status/1730713022195470541?s=20

谷歌Gemini推迟至明年1月发布

今日AI资讯-12.05 - 图11

谷歌将旗下的AI聊天机器人Gemini的发布时间推迟至明年1月，这是为了与OpenAI竞争而开发的。据知情人士透露，谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）最近决定取消原定于下周在加利福尼亚州、纽约和华盛顿举行的一系列Gemini活动。这是因为公司发现Gemini无法可靠地处理一些非英语查询。

https://www.theinformation.com/articles/google-postpones-big-ai-launch-as-openai-zooms-ahead