大型语言模型进化史
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
Transformer models: an introduction and catalog — 2023 Edition
谁在做大模型?进展怎样?
国内厂商主要分四类
① 包装成MaaS:星火,通义千问,快速做个大模型出来,连同原本的AI应用资源打包做MaaS
② 垂类市场:腾讯,字节,行业大模型,垂类小市场
③ 套壳炒作:拿GLM和llama用行业数据来训练一个行业垂类模型
④ 踏实做事:文心一言,智谱AI,kimi chat
做好大模型需要数据,技术,钱(算力),完成商业闭环还需要生态和用户
GitHub - wgwang/LLMs-In-China: 中国大模型
大模型玩家分类 | 大模型玩家 | 模型 | 官网 | 进展 | |
---|---|---|---|---|---|
国外大厂 | 微软 openai | GPT-3.5 GPT4-Turbo | OpenAI | 11.7 openAI开发者大会 | |
国外大厂 | google DeepMind | PaLM2 Gemini | Google DeepMind | 现聊天机器人Bard的底层大模型;和Blueshift Team,Google Brain相继合并,预计23年底上线Gemini,取代PaLM2 | |
国外大厂 | Amazon | Olympus | AWS 云服务 | 2万亿参数,GPT4 一万亿参数 | |
国外大厂 | Meta | llama2 | Llama 2 | ||
国外大模型公司 | xAI | Grok | X.ai | 马斯克基于推特实时数据的大模型 | |
国外大模型公司 | Anthropic | Claude 2 | [Attention Required! | Cloudflare](https://www.anthropic.com/) | 仅次于openai的第二大大模型独角兽,市值300亿美元,谷歌亚马逊重仓 |
国外大模型公司 | Cohere(Aidan Gomez) | Coral | Cohere | 《Attention Is All You Need》主要作者,估值100亿美元 | |
国外大模型公司 | Coreweave | 英伟达独家投资算力供应商,70亿美元 | |||
国外大模型公司 | Inflection AI | Inflection-1 | Inflection | 估值40亿美元 | |
国外大模型公司 | AI21 Studio | Jurassic-2 | AI21 Studio | ||
国内大厂 | 腾讯 | 混元 | 腾讯混元大模型-腾讯云 | ||
国内大厂 | 阿里 | 通义千问 | 通义 | ||
国内大厂 | 华为 | 盘古 | 盘古大模型 | 面向市场的营销概念,几代技术融合进一个平台,专业模型的集合,只为解决行业/工业问题。也包含类GPT技术,但是整体和现在大火的GPT不是一个概念。 | |
国内大厂 | 百度 | 文心一言 | 文心一言 | 国内第一梯队,效果略差于GPT3.5,成本远高于GPT3.5 | |
国内大厂 | 字节跳动 | 云雀大模型(豆包) | 云雀 | ||
AI公司 | 商汤科技 | 日日新(商量) | 商汤商量语言大模型 | ||
AI公司 | 科大讯飞 | 讯飞星火 | 讯飞星火认知大模型 | 效果一般,据说是用的llama2微调,先做应用和生态,占市场托股价 | |
大模型公司 | 百川智能(王小川) | Baichuan | 百川大模型-汇聚世界知识 创作妙笔生花-百川智能 | 国内第一梯队 | |
大模型公司 | MinMax(中科院) | 阿巴阿巴 | MiniMax 开放平台 | ||
大模型公司 | 智谱AI(清华唐杰) | ChatGLM | 智谱AI开放平台 | 国内第一梯队 | |
大模型公司 | 月之暗面(清华杨植麟) | Kimi Chat | Moonshot AI | 10.10,256K上下文全球最长 | |
大模型公司 | 循环智能(清华杨植麟) | 千循 | 循环智能 | 应用公司 | |
大模型公司 | 衔远科技(清华周伯文) | ProductGPT | 衔远科技,全球领先的产品数智化技术服务者 | 基于通用大模型能力在垂直领域落地场景应用,应用公司 | |
大模型公司 | 深言科技(清华岂凡超) | LingoWhale | [深言科技 DeepLang | 用语言的地方就有深言](https://deeplang.ai/) | |
大模型公司 | 无问芯穹(清华汪玉) | 11.06,256K上下文全球最长;大模型一体机 | |||
大模型公司 | 生数科技(清华朱军) | 瑞莱智慧RealAI——安全可靠可控人工智能基础设施和解决方案提供商 | 跳过语言,发力多模态大模型 | ||
大模型公司 | 面壁智能(清华刘知远) | CPM | 面壁智能 | ||
大模型公司 | 澜舟科技(周明) | 孟子 | 澜舟科技-业界领先的认知智能公司 | ||
科研院所 | 北京智源研究院BAAI | 悟道 | “悟道”人工智能大模型 | ||
科研院所 | 中科院自动化研究所 | 紫东太初 | |||
科研院所 | 上海人工智能实验室(商汤) | 书生 | 书生 | ||
科研院所 | 复旦大学计算机科学技术学院自然语言处理实验室 | MOSS | |||
业务垂类 | VIVO | 蓝心 |
大模型发布和训练推理平台
平台 | 入口 |
---|---|
Hugging face | huggingface |
Amazon Bedrock | AWS Bedrock |
阿里魔搭 | ModelScope 魔搭社区 |
字节火山方舟 | 火山方舟 |
百度千帆 | 百度千帆 |
大模型能干什么?有哪些已经落地的领域?大模型+X的模式有哪些落地场景?
次级应用 | 典型 |
---|---|
聊天机器人 | chatgpt |
AI助手 | Copilot |
AI绘图 | StableDiffusion,Midjourney,DALLE |
AI写作 | Claude |
AI搜索 | Bing |
Agent应用 | 提示词工程+外部api调用工具做的垂直领域工具,11.7日后被openai官方的gpts取代 |
现象级事件/产品 | 链接 |
---|---|
用AI开的淘宝店 | 【36氪】我用AI开了家“假”淘宝店,居然真的有人下单?_哔哩哔哩_bilibili |
AI郭德纲/AI霉霉 | 当AI模拟特朗普、霉霉、马斯克说中文,声音、声调,口型一一对应_哔哩哔哩_bilibili |
妙鸭小程序 | ″妙鸭相机”开源版facechain本地部署详细教程(windows系统)_哔哩哔哩_bilibili |
结论:AI原生应用时代开启,妙鸭小程序就是AI原生产品的代表
在智能客服和代码生成领域有哪些好产品?
现在国内的智能客服,代码生成产品都不是AI原生产品,且当前依托的大模型都落后GPT4两个版本,国内最好的大模型都不及GPT3.5 该两类产品国内厂商的优势是生态,比如企业微信和微信对用户的覆盖首选openai的服务,在无法使用openai的服务情况下,第二选择是百度文心一言 后续智能客服看好直接使用openai的GPTs,或者企业微信能调用GPTs的接口 代码生成目前只看好微软的vscode+copilot插件
未来的发展
openai的飞轮已成:11.7openai发布会前,仅有数据和模型,发布会后,补全了应用,且开启ai原生应用时代(不依赖原有产品/用户生态)国内后期一定会有一家大模型公司能生存下来,且必须也跑通上述飞轮。仅做大模型的技术公司,如baichuan,智谱AI等极有可能被大厂收购,否则无法做出应用生态,无法盈利就无法长期生存
OpenAl2023年开发者大会概要
OpenAI 举办首届开发者大会,有哪些信息值得关注? - 知乎
GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点,这是OpenAI首个开发者日
我们该怎么发展自己的ai能力
① 大模型 all in openAI,使用gpts的能力,国内第一梯队落后两个大版本,且没有生态,效果和成本都不及直接使用openAI;如果在技术上无法使用openai的服务,则选择文心一言
② 运筹分析、机器学习、深度学习,和基于transformers+X的专业模型可以自研,一切以解决实际问题为导向,走华为盘古的市场路线
③ 不涉及核心能力或内部使用的产品,尽量用外部能力
GPTs的未来:独家数据,细分领域功能