- SuperCLUE-Auto: 首个汽车行业中文大模型测评基准
- 抖音相关负责人回应内测“AI 搜”功能
- 机器人掌勺!全球首家AI全自动餐厅将开业">机器人掌勺!全球首家AI全自动餐厅将开业
- 和AI聊天费水?预计2027年全球AI耗水将达66亿立方米">和AI聊天费水?预计2027年全球AI耗水将达66亿立方米
- 昆仑万维“天工SkyAgents”Beta版公测">昆仑万维“天工SkyAgents”Beta版公测
- 夸克App:上线健康大模型应用">夸克App:上线健康大模型应用
- 智源开源代码生成训练数据集与评测基准TACO">智源开源代码生成训练数据集与评测基准TACO
- 中国信通院院长:AI发展将迎来关键窗口期">中国信通院院长:AI发展将迎来关键窗口期
- 首批通过国家大模型标准评测">首批通过国家大模型标准评测
- OpenAI公布2024年计划,GPT-5要来了!">OpenAI公布2024年计划,GPT-5要来了!
SuperCLUE-Auto: 首个汽车行业中文大模型测评基准
抖音相关负责人回应内测“AI 搜”功能
机器人掌勺!全球首家AI全自动餐厅将开业
和AI聊天费水?预计2027年全球AI耗水将达66亿立方米
昆仑万维“天工SkyAgents”Beta版公测
夸克App:上线健康大模型应用
智源开源代码生成训练数据集与评测基准TACO
中国信通院院长:AI发展将迎来关键窗口期
首批通过国家大模型标准评测
OpenAI公布2024年计划,GPT-5要来了!
SuperCLUE-Auto: 首个汽车行业中文大模型测评基准
SuperCLUE发布了汽车行业的大模型评估标准——SuperCLUE-Auto。作为首个为汽车行业定制的大模型评估基准,它采用多维度、多轮次的开放式问题测评方式。该基准涵盖了智能座舱与交互、汽车营销、汽车理解与知识以及车辆使用指南四大核心领域,包含了十余个具体任务。
在首批评估中,SuperCLUE-Auto选择了具有代表性的12个闭源和开源模型进行测试,其中包括多个中文大模型。结果显示,有4个中文大模型在中文汽车场景的表现上超越了GPT-3.5,展现出强劲的实力。
榜单地址: https://cluebenchmarks.com/superclue_auto.htmlhttps://mp.weixin.qq.com/s/Npgim0Js2JSvukvgJq2pXQ
抖音相关负责人回应内测“AI 搜”功能
抖音正在内测”AI搜”的搜索功能。用户可以获得由AI生成的回答。在”AI搜”界面,用户可以查询相关问题和信息,而AI会通过智能搜索对这些内容进行归纳总结。对于不全面的答案,用户有权添加更多细节进行追问,或者在”你可能还想了解”部分选择系统推荐的补充信息以获取新的解答。这些回答的参考资料既包括抖音平台内的视频,也涵盖了第三方网站的内容,并且提供了直接跳转到视频源的功能,让用户能够观看相关的视频解说。针对这一功能,抖音的相关负责人回应表示,该功能仍在测试阶段,目前还不够成熟。行业专家推测,该功能可能正处于灰度测试阶段,尚未进行全面上线。https://www.ithome.com/0/741/435.htm
机器人掌勺!全球首家AI全自动餐厅将开业
全球首家由机器人和人工智能处理订单和食物的餐厅即将在美国南加州开业。这家名为“CaliExpress by Flippy”的餐厅将由机器人厨师掌勺,颠覆传统餐饮模式。文章还提到了Miso Robotics研发的人工智能煎炸机器人Flippy,以及其在提升菜品质量、一致性和厨房安全性方面的作用。另外,文中还提到了服务机器人行业的发展现状和地方层面对机器人行业的政策支持。最后,中国机器人产业联盟执行理事长兼秘书长宋晓刚对机器人智能化发展的新特点进行了介绍。https://tech.ifeng.com/c/8VnznoxeldZ
和AI聊天费水?预计2027年全球AI耗水将达66亿立方米
据数据显示,AI所需的算力每100天就会翻一番,并且在未来五年内可能会增长超过一百万倍。研究人员预计,到2027年,全球范围内的AI需求可能会需要消耗掉66亿立方米的水资源,几乎相当于美国华盛顿州全年的取水量。大多数数据中心采用蒸发冷却或水冷方式,这些方式虽然能够有效降低数据中心的功耗,但也会导致大量的水资源消耗和污染。同时,训练AI也是数据中心耗水量的元凶之一,因为对AI进行大量训练需要更强的数据中心和与之匹配的散热能力,进而加剧了对水资源的消耗。https://tech.ifeng.com/c/8VnxKQkC0nG
昆仑万维“天工SkyAgents”Beta版公测
昆仑万维AI Agents开发平台的Beta版“天工SkyAgents”已经正式推出测试。这个平台是基于昆仑万维的“天工大模型”打造的,具备自主学习和独立思考的能力,涵盖了从感知到决策、再到执行的功能。用户可以利用自然语言来构建个人化的“助手”,并将各种任务分解成模块,通过操作系统的方式实现执行,包括但不限于问题设定、特定回复、知识库创建与检索、意图识别、文本提取以及http请求等任务。 地址:https://model-platform.tiangong.cnhttps://mp.weixin.qq.com/s/nb00rzB0gi9a3G-Bu5S7_Q
夸克App:上线健康大模型应用
夸克App宣布全面升级其健康搜索功能,推出“夸克健康助手”健康大模型应用。这次升级还包括全新的内容交互方式,部分搜索结果和功能板块已经上线。经过升级,用户在夸克中搜索健康信息的准确率已经超过了整个行业的平均水平。夸克大模型经过精细调整和知识增强,在临床执业医师资格考试中获得了高达486分的成绩,同时,在健康内容上的误判率已经降低至不到5%。https://www.163.com/dy/article/IMQQHUI705476C4F.html
智源开源代码生成训练数据集与评测基准TACO
智源发布专注于算法的代码生成数据集,名为TACO(Topics in Algorithmic COde generation dataset)。该数据集的目标是为代码生成模型领域提供更具挑战性的训练数据和评测标准。TACO包含更难、更接近实际编程场景的编程竞赛题目,强调模型在实际应用中对问题的理解和推理能力,而不只是实现给定函数功能。据介绍,TACO包含训练集(25443道题目)和测试集(1000道题目)。每个题目都力求匹配多样的解答,答案数量高达155万条。此外,每道题目都有细致的标签,包括任务主题、算法、技能和难度等,为代码生成模型的训练和评测提供更准确的参考。 论文地址: https://arxiv.org/abs/2312.14852 智源开放数据仓库: https://data.baai.ac.cn/details/BAAI-TACOhttps://github.com/FlagOpen/TACO
https://mp.weixin.qq.com/s/L_oSI_06eCqw8cKcYSN3CQ
中国信通院院长:AI发展将迎来关键窗口期
在2024中国信通院ICT深度观察报告会的AI伙伴分论坛上,中国信息通信研究院院长余晓晖指出,MaaS(模型即服务)和开源大模型的快速应用将成为大模型应用的主要趋势。这将促进应用门槛急剧降低,推动大模型技术创新进程。他还表示,多模态巨型智能等领域有望迎来新的突破,对于AGI(人工通用智能)的方向也日益清晰。他认为未来几年AI的发展将迎来关键的发展窗口期。https://finance.ifeng.com/c/8VmnUicKi8W
首批通过国家大模型标准评测
在全国信息技术标准化技术委员会AI分委会全体会议上,国内首个官方的“大模型标准符合性评测”结果正式宣布。阿里云的通义千问、百度的文心大模型、腾讯的混元大模型以及360的智脑大模型,作为首批通过评测的企业,在通用性、智能性等多个方面都达到了国家相关标准的要求。据了解,此次测试由中国电子技术标准化研究院主导,旨在设立大模型符合性标准名录,引领着人工智能产业的健康有序发展。该评测吸纳了来自学术界和产业界数十家领先单位的意见,覆盖了38项具体评测维度,涉及评估语言大模型通用性和智能性。这是基于官方大模型测试基准的权威性评估。https://mp.weixin.qq.com/s/rqUgy24tGlipUU1T8oP9Cg