智谱AI推出中文大模型对齐评测基准AlignBench
AI生成材料论文A-Lab可靠性遭质疑
阿里电商AI布局曝光 淘天设立4个AI团队
蚂蚁集团20篇论文入选AI顶会NeurlPS
英国监管机构:不必急于为金融领域制定AI规则
Meta雷朋智能眼镜推出多模态AI功能
首个生成式AI政治电话银行家被采用
法国总统:欧盟AI法案可能会阻碍创新
微软:发布27亿参数基座模型Phi-2
AI耗电巨高推动巨头提前部署 微软正训练大模型加速核电站审批
智谱AI推出中文大模型对齐评测基准AlignBench
智谱AI发布了针对中文大模型的首个评测基准AlignBench,可以在多个维度上对模型与人类意图的对齐水平进行细致评估。AlignBench建立了一个综合全面的分类体系,分为8个大类。为了实现自动化和可复现性,AlignBench采用评分模型(GPT-4、CritiqueLLM)为每个模型的回答打分,分数范围为1-10,代表回答的质量。智谱AI使用gpt-4-0613和CritiqueLLM作为评分模型,对17个中文大模型进行了评估。结果显示,相较于GPT-4,在逻辑推理能力上,中文大模型存在较大差距,但在中文相关能力(尤其是中文理解类)方面,表现相近甚至更好。顶尖的开源模型在对齐性方面接近闭源模型,已经处于同一水平。
论文地址:https://arxiv.org/abs/2311.18743 项目地址:https://llmbench.ai/alignhttps://mp.weixin.qq.com/s/wQP-XG0zqsJNzlkT9E0E9w
AI生成材料论文A-Lab可靠性遭质疑
上个月在《Nature》杂志上发表的一篇关于AI生成材料的论文引起了多位研究人员的质疑。伦敦大学学院的固态化学家罗伯特·帕尔格雷夫(Robert Palgrave)表示:“这篇论文应该被撤回。”他在社交平台上多次对这项工作进行了批评,认为“论文的核心主张是他们合成了新材料,但提供的证据远远不足。”新泽西州普林斯顿大学的固体化学家莱斯利·舒普(Leslie Schoop)表示:“这篇论文只是加强了我们一直在进行的关于如何利用AI而不陷入陷阱的讨论。” 论文地址: https://nature.com/articles/s41586-023-06734-whttps://www.nature.com/articles/d41586-023-03956-w
阿里电商AI布局曝光 淘天设立4个AI团队
阿里的两大核心电商业务——淘天集团和国际数字商业集团都建立了围绕AI的完整团队。淘天集团整合了约20个AI团队,分别负责阿里妈妈、C端消费者、B端商家以及行业特色应用。此外,淘天集团的子业务如1688也开始招募自己的AI团队。他们已经训练出了名为“图灵”的大模型产品,主要应用于搜索、广告、推荐和逛逛的内容化。淘天集团还在筹建新的大模型研究团队,与几个应用场景探索的AI业务团队共用底层显卡和算法工程。
阿里国际商业集团也在AI领域取得了进展。他们成立了AI Business团队,目前已有100多人,其中约1/3是模型训练人员,其他人员负责模型推理应用、基础设施和产品开发运营。算法团队专注于多语言电商大模型训练、对话模型和图像生成能力。AI Business的服务已经应用在阿里国际内部的AliExpress(速卖通)、Trendyol、Daraz等业务中,包括商品信息本地化、图像设计、客服机器人和翻译等场景。他们最近发布了名为“Aidge”的AI产品,具备翻译、营销、本地化内容和设计等功能,并对独立软件服务商(ISV)和SaaS服务商开放接口,以满足商家需求。
https://mp.weixin.qq.com/s/L_cHkF7ndHtEesVpMa6R-g
蚂蚁集团20篇论文入选AI顶会NeurlPS
蚂蚁集团在最近举办的AI和机器学习领域顶级会议NeurlPS上表现突出,20篇论文被收录,覆盖计算机视觉、自然语言处理、图神经网络、图像处理等多个AI和机器学习领域。其中,七成以上的论文着重解决生成式AI在高速发展过程中所遇到的挑战和难题。蚂蚁集团在大会首日的研讨会上正式开源了业界首个分布式全链路因果学习系统OpenASCE(Open All-Scale Causal Engine)。据悉,蚂蚁集团过去五年在国际顶级学术期刊和学术会议上发表论文近500篇,其中AI领域的论文超过300篇。
https://mp.weixin.qq.com/s/YLzysDXK7f8VYPP9mhyDmQ
英国监管机构:不必急于为金融领域制定AI规则
英国金融行为监管局(FCA)周二表示,由于犯罪分子利用人工智能来扰乱市场和欺诈消费者,英国已经制定了一系列规则来应对这些问题。FCA首席执行官Nikhil Rathi表示,重要的是不要“贸然”对一项技术的方方面面进行监管,因为对这项技术的影响尚未完全了解。Rathi在向议会财政特别委员会发表的讲话中表示,人工智能是一个“极速发展的话题”,随着金融公司迅速采用人工智能,必须以“谦逊”的态度对待这一话题。
Meta雷朋智能眼镜推出多模态AI功能
Meta今日起在其雷朋智能眼镜中推出多模态AI功能,可以识别物体和翻译语言。用户戴上雷朋智能眼镜,说一声”Hey Meta”,就会召唤出一个虚拟助手,它能看到和听到周围发生的一切。Meta CEO马克·扎克伯格在社交平台Instagram上演示了这一更新,要求眼镜推荐与他手中的衬衫相匹配的裤子。作为回应,虚拟助手描述了这件衬衫,并提供了一些可能与之相配的裤子的建议。他还让眼镜的AI助手翻译文本并展示一些图像说明。该功能目前处于早期测试阶段,在美国小范围测试。
https://www.theverge.com/2023/12/12/23998780/ray-ban-smart-glasses-hey-meta-multimodal-ai-features
首个生成式AI政治电话银行家被采用
首个由生成式AI驱动的政治电话银行家阿什莉(Ashley)已被民主党人莎梅恩·丹尼尔斯(Shamaine Daniels)采用。阿什莉能够同时进行无数次定制的一对一对话,她在周末代表丹尼尔斯给数千名宾夕法尼亚州选民打电话,根据选民的个人资料和关键问题进行定制化的对话。与人类不同的是,阿什莉可以持续长时间工作,记得丹尼尔斯的所有职位,精通20多种语言,并且在电话被挂断时不会感到沮丧。
法国总统:欧盟AI法案可能会阻碍创新
当地时间周一,法国总统马克龙发表讲话,对上周欧盟通过的新AI法案提出了批评。他警告称,与美国、英国和中国的竞争对手相比,欧盟旨在解决AI发展问题的立法可能会阻碍欧洲科技公司的发展,并引发新一轮新兴技术监管之争。马克龙表示担忧,认为新法律可能使欧盟成为执行最严格制度的基座模型。
https://www.ftchinese.com/interactive/134044?exclusive
微软:发布27亿参数基座模型Phi-2
微软发布了一个拥有27亿参数的语言模型Phi-2,据称其性能可以与规模大25倍的大模型相媲美。该模型已经加入了Azure AI Studio。Phi-2是基于Transformer训练的,其目标是预测下一个单词。它在1.4T个词组上进行了训练,这些词组来自NLP和编码的合成数据集或网络数据集。训练过程使用了96个英伟达A100 GPU,在14天内完成。Phi-2是一个基座(Base)模型,没有通过人类反馈强化学习(RLHF)进行调整,也没有经过指导性微调。在多个基准测评中,仅有27亿参数的Phi-2的性能超越了Mistral和Llama 2的7B或13B模型,以及谷歌规模为3.2B的Gemini Nano 2模型。
https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/
AI耗电巨高推动巨头提前部署 微软正训练大模型加速核电站审批 微软作为全球AI产业的领跑者,将核能视为解决长期电力问题的方案,同时利用AI解决核能审批的难题。核能监管程序长且昂贵,但AI可以帮助解决这些问题。尽管核能发电量下降,但对于需要稳定大量电力的AI巨头来说,核能仍然是重要的发展目标。微软与非营利组织Terra Praxis合作,使用核能监管文件训练AI,以减少核电站建设审批的时间和成本。微软的可持续政策主管对人工智能在核能领域的潜力感到兴奋。微软创始人比尔·盖茨也是核能的支持者,他投资创办了核能初创企业TerraPower。微软的数据中心已经开始使用核能供电,并与联合能源公司达成协议确保稳定的电力供应。