Q1:OpenAI 接下来会有哪些动作? A:

    1. 和微软更加深入一体化的合作;包括 office、teams、云、Surface(消费级 终端)加入 AI 功能;以及推出新的 ToB / 消费级的产品;
    2. 可能会和更多的企业达成战略关系。目前已经贝恩等企业合作;
    3. 安全性提到最高优先级。强调 Safety 而不是 Security;
    4. OpenAI 是否会自己做消费级的终端;
    5. ChatGPT 如何避免回答错误?ChatGPT 会一本正经的胡说八道,但 ToC 应 用对于错误的容忍率很低,之后可能通过增加一层 validation,加入更好的 知识库,对答案进行控制。
    6. 对于大模型的探索:
      l 多模态进展、GPT4 不久就会发布。在训练多模态数据之后,参数量到
      达多少会涌现更多的能力?
      l OpenAI 的模型会不会有新的方向?目前 LLM/Auto regresion 是不是真 正好的方向?现在应该还在尝试不同的基础路径;
      l 多模态模型应用于生成设计:重点可能不在于准确度,对于精确度要求 不高于 95% 的内容都可以用 AI 生成,如图片、视频、宣传广告、3D 设计;另外,人类单次思考时间低于 3 秒钟内容都可以被 AI 替代。
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
    7. OpenAI 是否会在 AGI 有重大作用的领域有更多的投入,比如自动驾驶、 机器人。
      l 如果 OpenAI 不提前部署相关场景,会较为被动。目前已经有相关基础, 如虚拟环境,但是中间暂停了,或许未来会重新启动。OpenAI 和 Tesla 擎天柱机器人最后可能殊途同归;
      l 应该不会马上做机器人,Reinforce learning + 仿真这条路径已经被否定 了;
      l 多模态方向,目前视频、语音放在一起效果并不好。可能未来还是会一 层层的向上加数据,最终实现多模态。
    8. OpenAI 现在和未来都会花很大精力研究数学问题,目的是加速模型推理。
      l OpenAI 模型逻辑性非常强的原因之一是同时训练文本和代码,训练的 节奏和来回穿插并没有公开。多模态把时序数据变成序列数据,如果把 数学变成一个序列可以极大的增强推理水平,是 OpenAI 重点关注的点;
      l 大模型虽然在基础数学领域没有优势,但是在 PDE 和偏微方程有很大 优势,比如 Deepmind 的大模型可以做可控核聚变(但是和大模型是两 条技术路径)。
    9. 未来可穿戴设备 + SaaS + GPT 是否会有更多的想象空间?
      l 大语言模型使得交互方式变化、对人的行为活动采集的颗粒度会变得非
      常细致,所以围绕数据流会发生更大的变化,这部分是很期待的部分;
      l 但可穿戴的消费级设备还会涉及到怎么做产品化,所以需要一个很天才 的产品经理;
      l Adept 的产品就是用自然语言去控制 SaaS。但是该技术很难,类似 L3 级别的自动驾驶,现在可以做到 80% 的时间是对的,但还有 20% 需要
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    人去进行干预(一些复杂场景下,例如给出的 Prompt 不够精确的时候)。 类似的公司有 Inflection。
    10) 现阶段人和 GPT 交互所能得出的答案/反馈,和 Prompt 也有很大关系在, 现阶段 目前有的两派人在做:
    l 其一是围绕 GPT 优化垂直场景的 prompt,OpenAI 后续也可能自己做这 件事;
    l 其二是围绕 prompt 做坏事,挑战 gpt 下限,叫做 DAN(Do Anything No),类似互联网时代的病毒,所以 OpenAI 后续需要给系统打补丁, 大量投入 alignment。
    Q2:ChatGPT 被广泛应用之后输入的数据是否会对模型的走向有 影响?
    A:
    l 有影响,目前模型也用了 2021 年之后的数据,但是不全面,大部分是 2021 年之前,但 2021 年之后也使用了,只不过不是那么完全;
    l OpenAI 的模型是一直在更新的,目前 OpenAI 的 API 开放了两个接口,一 个是 Turbo,一个是 Turbo 0301,Turbo 0301 会一直更新,用更新的数据做 pre-training,以及用大家给出的更好的 prompt。
    l Instruct GPT 是之于 GPT 更好的升级,它就是通过收集、学习更多人的人的 输入来学习人类输入 prompt 的大致类型,从而实现更好的结果输出:
    Ø 之前的模型只是用海量的文本训练,但并没有和人类的意识 Align,并 不是一个“人类给出指令,模型就能够帮助人来做”的交互;
    Ø Instruct GPT 很重要的是做到了接收到人类想用模型做的事情的分布
    本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    (输入的内容)是什么样的。这些需要和公众去采集,结果上来看包 括三类:生成,brainstorming,以及 Open Q&A。
    l 采集和使用的数据必须是经过同意的,美国的意识形态强调政治正确,所 以 Harmless 非常重要,不能产生不良影响。
    Q3:OpenAI 现在用了多少算力,之后会需要多少算力? A:

    1. 听说 OpenAI 花了微软一半的算力,2.8 万张 A100。去年花费了 4-5 亿美元, 今年预期要亏损 20 多亿美元。
    2. 在有隐私限制及其他不能用 OpenAI API 的场景,底层算力大型的提升非常 重要。像 SambaNova(snorkel AI 的兄弟公司) 做的事情就是帮助不能用 API 的公司独立做自己大模型。使用的技术是类脑计算(Neuromorphic Computing)。
      SambaNova:美国 AI 芯片独角兽,其最重磅的软硬件集成平台 SambaNova DataScale, 拥有 TB 级内存容量和数百 PetaFLOPS 低延迟互连计算能力,能处理大量复杂的数据模 型。
      Q4:数据方向的新应用场景 A:
    3. OpenAI/Snorkel AI 将数据 signal 整合到一起,获得训练数据集。OpenAI 在
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    Scale.ai 只花了几十万,所以肯定有很多自己的数据标注方式。Snorkel AI/ 开源的 LLM,如 Human loop,都在数据方向做创新;
    2) 垂直领域如果最后有自己的大模型,利用自己的数据形成闭环,实现数据 迭代,那么互联网的优质语料库或许会成为限制;
    3) 如果 2025、26 年,大模型已经用完了人类的高质量数据要怎么办?人类生 成数据的速度是否会跟不上大模型训练数据的速度?
    4) 可能要看多模态的数据,或者是 AI 生成数据。还需要考虑 AI 生成的数据 能否满足基础模型对于数据质量的需求,以及怎么去评估数据的好坏或者 可解释性;
    5) 未来应该会产生更大体量的数据,计算机对人类行为的理解可能会更深入, 变成质量更高的数据。
    Q5:OpenAI 的开源与制衡问题

    1. OpenAI 将如何在垂直领域给提供更公开的环境,赋能垂直领域的应用。虽 然 OpenAI 开源了 ChatGPT 的 API,比 GPT3 便宜 10 倍,但不支持垂直领 域的 Fine-tune。大家只能做 prompt engineering,但长期来看,公司数据积 累的效率很低。当然,并不是所有的垂直领域都值得做。
    2. OpenAI 的开源精神未来会如何演变。OpenAI 的研究内容目前并不完全可 见,虽然发布了 blog 和论文,但是并不能成功重现,各大公司重现的
      GPT3 效果都不如直接调 OpenAI 的 API。
    3. 隐私安全问题如何解决。微软和 GPT 相结合之后,能否有相应措施解决这 个问题?下一步 OpenAI 是否能用更少的人类标注达到更好的效果,使得 模型性能更好复制,实现大规模应用。OpenAI 重视民主化,所以在
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    transformer 出现之后,采取了更难的方式 decoder。在 GPT2、GPT3 时期, OpenAI 始终强调自己走的路线不需要人类标注,直接使用公开信息训练, 通过扩大模型参数探索更多的可能性。但是 ChatGPT 的训练通过 Scale.ai 等公司合作,招了很多 labeler 标数据,导致模型效果很难被重现。之后 OpenAI 是否能够采取大模型或接入数据库等方式,减少人类标注,达到好 的效果。
    Sam 如何保证其他力量和 OpenAI 有更多的抗衡,让 AI 领域发展更健康:
    Sam 的格局比较大,之前希望陆奇能够去欧洲做一个 OpenAI 的竞争者,因 为不希望 OpenAI 一统江湖。所以很多 OpenAI 团队的人出来做类似的公司 也是被支持的。
    Q6:通用和垂直哪个更有盈利能力?

    1. 用领域和垂直领域关键的边界点:行业知识和企业组织内部知识的边界。
      l 如果是行业知识,比如医疗通用知识,那将会是大模型的天下,能够帮 助人获得更多的信息,对人赋能价值大;
      l 但一旦进入一个组织内部,由于组织的生命周期决定了这些信息,所以 这些信息不是通用的,大模型的对人的赋能价值将大幅度降低;
      l 赋能组织:科技的发展将带来组织形式的变化,为组织注入更多理性的 人,因此做好组织内人与人、人与机器的沟通很重要。
    2. Move works(垂直领域的一家公司)已经有很好的语料库和 ML 技术人员, 自己做模型甚至能比 Open AI 更好,但仍然选择与 Open AI 合作,说明通用 模型具有一定价值。
    3. 垂直领域的价值:积累起来的技术、资源、integration 等很有价值,已经建
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
      立了一些壁垒,有一些场景互相整合的机会很多,微软是很大的赢家。
    4. 通用领域很卷:现在通用领域的市场很卷,例如 Example Nova 融资很多, 但真正起量的很少,马太效应明显,一些大公司因为在 brand、技术、数据 上的优势,导致小公司和后面的新公司难以发展或进入市场。
    5. 两个领域的盈利能力主要与两个角度有关: l 技术角度;
      l 能力角度(例如,百度是通用搜索,但错过了电商搜索、电商搜索、 本地生活搜索;而 google 和 You Tube 却在流量搜索和视频搜索上赚了 很多钱。
      Q7:哪些垂直领域有创业机会?
    6. 需要重点关注的问题:用户场景发生什么变化?人文经济、社会学、政治
      没有跟上技术的进步?人会产生什么新需求?
    7. 真正有价值的东西:1)brand;2)用户的具体需求,例如在现在这样信息 爆炸的时代,做一个帮助人们接收、整理和理解信息的平台;
    8. 机会维度:
      l 特定领域的软件,例如 marketing 领域的 Adobe 和 Salesforece,市值超
      过 10 billion;
      l 一个板块如果有很多新的功能创新,可以在早期投资相关公司,这些 公司将来可能会被并购,例如 Figma。(如果并购发生比较快,IRR 很 可观。)
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
      Figma:原来只为 Adobe 服务,做 design,即把设计师、前端工程师、产品经理等 人员都粘结在新的平台上,提供跨部门协作的交界面服务。
      l 像 chat GPT 很难做成一个延展的平台,因为很多的坑已经被大公司给 占掉了,所以想要 Alpha 级的 return,就需要找到被大家忽略的点,并 据此延展成一个新的平台,例如 Aurora Solar 就是将 3D 设计作为一个 核心点切入,快速延展到一些其他的 SaaS 功能;
      l 某个产业发生了一些变化,导致其需要跟另外一个产业发生更多的交 互,例如电商行业和物流行业。在业务交界面上进行切入,并继续延 展,有机会成为一个新的平台。其实这还是做的传统 SaaS 的数字化和 智能化的事情,只是需要探索其中有什么样的机会点;
      l 某些垂直行业,如果以前有限制,而最近 feature 变化,行业规模有机 会放大很多倍。(例如,从 PC 到 Mobile,很多行业都发生了改变,我 们可以关注这些改变之下的需求)。
    9. 创业机会:
      l 这一波跟之前互联网不一样,但跟之前 SaaS 和 AI 更为类似,因为互 联网更多解决的是连接的问题,而 SaaS 和 AI 更多的是解决降本增效 以及计算机架构重构。因此,这次的创业需要找到新的突破点,争取 做到 global market,到后面并购退出或被国外 SaaS 巨头购买(需要是 离岸架构,创始人团队不完全中国人);
      l 如果是在中国,原来 SaaS 和 AI 行业创业中遇到的问题,现在的创业公 司还是会遇到,因为行业并没有改变,因此更多的创业机会需要公司 去寻找一些新的突破点,例如传统的 ERP 是使用 Excel 或手工输入的 方式统计人力资本,但现在更加自动化,使用更好的数据采集方式, 使公司能更好地利用人力资本。(Open AI 刚投了一家做这个业务的公 司)
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
    10. 创始团队:根据统计显示,专注于做 application 的创始团队,有一半以上 团队不是 tech background,甚至主要的几个创始人之前连代码都没有写过。
      Q8:垂直领域如金融/医疗如何做?
    11. 金融领域还需要等一段时间:目前的金融领域做 AI 和云是一样的,主要的 数据来源于公司自己。是否要用通用模型或者 ChatGPT 之类的东西尚且存 疑,隐私问题也需要考虑;
    12. 看好金融领域的原因:
      l 市场天花板足够大,量化基金是过去 IT 和 AI 技术应用很好的例子;
      l 金融领域的数据质量很高,本身就是结构化的数据。目前已经出现了 一些用数据方法的 MVP 版本,比如量化领域的出现了许多基于新技术 的指标;
      l 带来市场增量:LLM 对于传统 NLP 模型,进展有两个方面,一个是信 息的处理,另一个是对于非结构数据的提炼,过去 NLP 智能在结构化 数据方面做数据的提炼,更多的是内容提炼,而非知识提炼,如果我 们的语言模型能在隐藏的知识图谱里面进行提炼、微调,就可以从量 化金融领域拓展到传统的基金,这将会带来新的市场。
    13. 可以在金融应用的领域:合规或者营销的解决方案,合规风控的规则对全 球都适用的。
      Q9:目前软件公司有哪些经营模式?分别有什么好处和优点?
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
    14. 垂直采购型:既做应用层,又做模型。(例如,Stability AI) l 好处:技术壁垒会比较深;
      l 缺点:要有自有大模型,前期成本大。
    15. 商业采购大模型:向外采购模型层,自己只做应用层(例如,Jasper AI)。
      l 好处:可以专注应用层业务;轻资产,前期投入少;
      l 缺点:技术栈浅,因为模型是外采,没有很好的控制能力;
      l 开源模型:既做应用层,也做模型,但模型并不是自己做,而是修改开 源模型。
      Ø 好处:自由修改开源模型来适配自己的业务;对模型和应用都有控 制能力;
      Ø 缺点:需要招募真正对 foundation model 了解的工程师,让他们在 开源层进行修改。
      Q10:ChatGPT 对于垂直应用层有哪些影响?如何节省下大模型训 练的成本?
    16. Chat GPT 作为基本工具(通用工具型),例如智能客服的机器人,会有比较 大的近期影响;
    17. 但如果涉及到核心业务,例如通过理解人的行为去识别骗贷骗保,还需要 一定的时间;
    18. 很多数据自己本身就带有标签(例如,在业务场景中已经生成标注)
    19. ChatGPT 如何推动垂直领域的发展?
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    l ChatGPT 解锁的能力:吸取大量的社会知识,能够按照人类的指令做 事情;
    l 目前 Open AI 只是开放了一个 inference 接口,因为不是 call 形式、只 能 prompt,灵活性不强。因此在后面的发展中,我们可以结合垂直领 域,创造出更好的 prompt,把 chat GPT 作为一个更好的系统,在上面 再对接一个更好的模型;
    l 更多的竞争者出现,push Open AI 采用更开放的形式,将模型真正开源, 社区得到更好地开发。
    Q11:垂直领域的数据如何处理?

    1. 很多数据自己本身就带有标签(例如,在业务场景中已经生成标注);
    2. 如果数据处理涉及到数据安全的问题,可以通过脱敏和本地化训练来规避; 3) 人类生成数据的速度会不会低于模型训练的速度?
      l 同样的数据可以用于不同的模型,或者不同业务的目标、应用场景不 一样,因此同样的数据可能输出 N 个结果来支撑 N 个业务。
      Q12:应用领域二分法:
    3. 垂直切:AI 三要素是数据、算法、算力,在不同行业中的数据水平不一样, 因此我们需要考察每个垂直领域,按照数据基础排序,优先数据基础好的, 这部分企业用了 AI 之后的 ROI 更高;
    4. 水平切:让每个人有计算机交互的能力,而不论领域和行业;
    5. 在 Ops(运营层)会有比较多的机会,目前 Stable Defusion 社区非常繁荣。
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
      但目前集中在围绕自己的大模型进行延展,还没有看到跨多个大模型、或
      大模型和小模型的案例。
      Q13:数字化发展的不同商业模式,三个极端:1)传统企业;2) 互联网企业,例如抖音和字节,通过一个引擎来驱动整个商业模式 变现; 3)滴滴、美团,非常强的人机互动。
    6. 未来的模式可能是把滴滴、美团外卖的沟通方式再复杂一个度,强化沟通 模式;
    7. 什么样的企业能先获利?在某一个价值链上,需要非常多的人,有机会实 现大规模人力提升。(e.g. K12,AI 可以替代辅导老师)
      Q14:从哪些维度能有效评估大模型?OpenAI 内部的评估手段?
    8. 因果链是目前大家公认的 Metric,现在前几名的 NLP 模型,无论 OpenAI、
      或者 Athropic 都在拿这个指标进行对比;
      l 思维链(CoT )是各种论文上评估指标被着重强调的一点,这个能力 只在 100B 以上的模型才会存在,这也和过去的 NLP 模型形成了显著 差别;
      l 同时前几年 NLP 内容和现在大语言模型相比,最大的差异在于因果逻 辑:
      Ø 首先是能得到结果的过程和原因;
      Ø 其次是这种演绎和推理能保证模型训练过程中一个很好的收敛性和
      可解释性,也能输出一个更符合人期望的答案;
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    Ø 因果链反应了一个非常关键的问题,因为刚刚讨论应用场景或者变 化时,一直在围绕过去的应用场景,比如 SaaS ,如何替代旧的场 景,但更重要的应该对比现在模型和过去模型在根本性能力上的 区别,先讨论与众不同的能力,再讨论场景的延伸;
    思维链(Chain of thought)是一种提示方法,可以让大型语言模型(LLM)通过 生成一系列中间推理步骤来解决问题。这种方法可以提高 LLM 在算术、常识和符 号推理等任务上的性能。Chain of thought 也可以用来描述一个人的思维过程或逻 辑。
    2) 从自己训练模型出发,首先是会选择公开评测数据集,或者面对一些开发 评测平台,分为横向评测和纵向评测:
    l 公开数据集可以用来评测,一些大型的评测数据集比如 MLU ,另外还 有 Helm 这种评测平台,比如把推理数学问题之类的放到各个模型平台 相互对比;
    l 这就属于横向评测,比如我们对比一下 GPT 模型和 MOSS 模型之间的 表现,测试一下他们的数学推理题和问答能力;
    l 纵向评测就是自己的模型和之前的模型哪个更好,自己和自己比较的 时候往往更简单,只需要把数据集拆成训练集和测试集,在测试集上 评测一下是否有提升或下降;
    l 目前一个比较困难的事情是开放性问题,比如 QA,我们缺乏一些比较 好的评测方法,当考量到多轮对话问题时候,自动化的评测都不是特 别靠谱,比如 ChatGPT,我们能明显感受到它的多轮对话能力更好, 但具体如何量化对比它和 MOSS,没有好的方法;
    l 不知道 OpenAI 内部如何评测,最好的方式可能是大家一起搞一些评测 集,在某个组织里不要公开出去,类似 HELM 那样,用不同于传统方 法的方式去评测多轮对话,或者类似 ChatGPT 擅长的能力;
    本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    1. HELM:一个大语言模型评估榜单,基于斯坦福大学提供的开源的 CRFM benchmark 据集,榜单包含了十二个机构的 30 种大语言模型,使用了 42 种场景,52 个基准数据 集。

    l Goal (优化目标)是最重要的问题,但大家目前没有一个具体的目标,也 都不知道 OpenAI 内部的优化目标是什么。
    Ø 或许大家现在并不是无法做出 ChatGPT,只是不知道目标具体是什么? 这个应该就是 OpenAI 的优势,他们想得非常清楚,非常垂直,评测指 标和现在的公开数据集可能没有特别多关系,或许用那些数据集能够 帮你掌控基础场景的基本保障,但纯粹将数据刷高意义不是很大;
    Ø 如果只是用公开的数据集,纯粹刷数据指标,没有特别大的意义,可 能一个表现非常好的团队只是不经意在模型中把训练集当测试集了, 就在某某指标上超越 GPT3;
    Ø Greg 最近发了 twitter 指出 evaluation 在 ML 里面是一个最为低估的技 能。从公开资料和内部访谈看,OpenAI 的评测涉及三个指标:
    n helpfulness,就是答案是否真正有用,他们内部有专门 40 位非常顶 尖的人才负责,包括和一些数据标注公司合作;
    n truthfulness,即信息的真实性;
    n harmless,主要涉及到歧视和各种政治不正确的话语;
    Ø 公开数据集现在就好像走过场一样,InstructGPT 论文刚开始投稿时被 拒掉了,因为他们用的内部数据集,后来 OpenAI 团队使用他们的模型 在公开数据集上做了评测,才通过评审;
    OpenAI 在新的 Instruct 论文加了十几页在公开数据集上面的实验,同 时也分享了一些引入真实数据集的方法,比如它更专注在某几个垂类:
    本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    比如 Generation(50%左右)、OpenQ&A(12%)、brainstorming、chat、 rewrite、summarizing 、classification 等等,而且这个比例是符合人类给 它的一个 prompt 的分布,这里面有很多继续细节在;
    Ø 所以 OpenAI 内部绝对是有一套具体的评价指标,这个指标和它要解决 的问题,即人们会怎么使用这个模型息息相关,基于这个问题,他们 收集了专门符合人类使用分布的数据集输入,再基于这些输入和根据 他们想要解决的问题,他们定义了自己的具体的评估指标;
    Ø 在公开数据集上,很多数据集在不同指标上有一些专门的评测,希望 它的语言模型是准确的,不带有 bias、toxic,它们也希望你的模型有效, 所以无论是学术界、OpenAI,它们自己都有一些研究和领先优势;
    Ø 同时 OpenAI 内部也会进行新旧模型相互对比,比如基于一个指标去对 比 A 模型和 B 模型的输出差异性,然后比较在某一个公认的指标下, 更喜欢 A 模型输出结果的人占多少百分比,比 B 多多少,来比较出类 似 GPT3、GPT3.5 之前的模型提升效果;
    引自 InstructGPT 论文:为了了解数据集的组成,在表 1 中,我们显示了由承包商标记 的 API prompt(特别是 RM (Ranker model)数据集)的使用类别分布。大多数数据集 都是 Generation ,而不是 classification 或 QA。我们还在表 2 中展示了一些说明性 prompt(由研究人员编写以模拟 prompt 给 InstructGPT 模型的 prompt 类型)。
    本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    1. 其实模型的评估问题只有一小部分与技术相关,更多的是产品问题:
      l 刚刚提到的每个场景,具体的 Corner Star 不一样,其实目前大模型的
      惊艳效果只在场景都是在一些没有明确的正确答案上出现,比如对话,
      比如图片生成,你都很多说正确与否;
      l 但是再有些 NLP 具体场景下,ChatGPT 不一定比一个小很多的模型好 很多,这主要是一个产品问题;
      l 类似 New Bing 其实也有很多错误,但 Google 发布 Bard 就被人揪住错 误导致市值下跌,这也涉及到了怎么做宣发,怎么去造势, Microsoft 的产品经理肯定是想过这些东西,所以模型的评估应该从产品的角度思 考;
    2. 涉及到语言模型评估,可以分为主观题和客观题:
      l 客观题就是之前 NLP 的 benchmark,有很多子任务,或者去把一些推
      理任务变成了确定答案的推理:
      Ø 如果只看子任务,就会发现一些小模型会比 GPT 强,很多 paper 会 用这种方式说比 GPT3 带来了提升,包括最近的 LLaMA,被大家 质疑为什么不适用更大的 Benchmark 去测试,甚至让人怀疑是用训 练集在测试;
      Ø 所以最近 Stanford 的 CRFM 排行榜的结果其实是符合大家的认知 的,就是 OpenAI、Athropic 和一些更大的模型在综合能力各方面 都更强,但也不是说所有客观题任务都被他们解决了;
      Ø 客观题领域有比较 tough 的 Benchmark ,比如 CoT,逻辑推理题, 这种 benchmark 比较容易看出底座模型一些能力差异;
      l 另一个更难的问题,比如对话、summariztion,其实会有一些比较主观 的成分在,属于主观题;
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    Ø 主观题怎么做得更好,从 helpfulness,harmless 角度出发,OpenAI 在 alignment 上一直都是通过人打标签或者通过人定义一些规则;
    Ø 完成这些工作,最终得到一个排序,然后再基于排序形成 reword model,使用这个模型再对数据的质量进行判别,无论是判别生成 数据的质量,还是最终产生的结果,是否比较满足你的需求;
    Ø 最近看到一个有趣的访谈说,模型在某一个指标上达到某一个阈值, alignment 会比原来模型好很多,可能到达可以发布的标准;
    Ø 痛点是中文的 benchmark 标准比较缺乏,需要国内做大模型的公司 建立一个比较好的 benchmark,去客观的评估一下现在各个模型的 能力;
    Q15:OpenAI infra 搭建过程中有哪些关键点、milestone 、难点、 重要性都是什么?

    1. 对于没有用过大规模显卡的团队,是很难将千张显卡的算力完全发挥出来 的,可能只能发挥七八成效率,而 OpenAI 内部对于显卡资源的利用效率是 非常高的;
    2. Nvidia 提供的 Pod 的服务,即把所有带宽软件硬件,包括硬件的监控都全 部提供好,是一个产品化的交付,这一点相对于国内自己搭建,有比较大 的提升,尤其是在带宽方面,带宽层面的进步对于上层软件层的优化会有 比较明显的改善;
      Nvidia 提供的 Pod 的服务是一种让用户可以租用或购买 Nvidia 的 DGX 超级计算机的服 务;
      DGX 超级计算机是一种专为 AI 和高性能计算(HPC)设计的数据中心基础设施平台,
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
      可以提供高速的 GPU 集群和网络;
      Nvidia 还提供了 Base Command 软件,可以帮助用户管理和协调 Pod 上的 AI 工作负
      载;
      Nvidia 还提供了白手套服务,可以为用户提供从安装到运维的全生命周期的服务体验。
    3. OpenAI 对于 Training 和 serving 不一定有特别多的创新,因为训练一个千亿 模型,Google、Meta 也是可以做的,但 Google 和 Meta 的训练和服务都是 要跟着业务走的,内部没有特别多性能要求,它们只需要向上面堆资源, 不需要关注训练的效率,服务层面更没有优化的动力,最多开放接口,QPS 也没有特别大;
    4. 在需要两万张卡规模级别的训练上,OpenAI 自身的分布式调度架构要比微 软的能力强非常多;
      QPS: Queries Per Second,意思是每秒查询率。 指一台服务器每秒能够响应的查询次 数,用于衡量特定的查询服务器在规定时间内所处理流量多少,主要针对专门用于查询 的服务器的性能指标。
      Q16:大模型的数据处理质量如何保障?OpenAI 团队内部怎么做的? 在垂直细分领域,比如医疗行业,数据需求量是否足够大?
    5. OpenAI 初始的数据并不多,但后面通过模型上限将数据滚动起来:
      l 最早的 InstructGPT 是和美国两个公司 Scale.AI 和 Upwork 进行合作, 他们根据最符合人类 prompt 的分布,总结了二十多类进行标注,筛选 了 40 个 contractor 帮他们做更多的标注,大部分是菲律宾人和孟加拉 国人,所以 OpenAI 用比较小的人力抵达了非常好的效果;
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    l 在初始模型上线后,OpenAI 和二三十家公司合作,每个公司会授权给 他一部分数据,慢慢的大家使用 beta 模型,将数据闭环滚动起来;
    2) OpenAI 的基础模型(Base model)训练的数据质量应该也是非常高的:
    l 比较明确的是基于人类反馈微调的部分肯定是人工标注,但大家忽略了 基础模型训练部分的数据也是高质量的,他们的 Base model 训练的数 据做过处理;
    l 有一种处理方案,我们可以利用基础版本的 GPT3 模型对于数据的理解 能力,将所有数据筛一遍,让 GPT3 模型去判断数据的好坏,把显著低 质量的数据筛掉,用剩下的数据训练一个新的基础模型,再辅助后续的 instructGPT,这应该是一个更大型的 Loop;
    由于 ChatGPT 对于技术的保密性,大部分人对于聊天机器人的认知是:基于预训练的 Base Model(如 GPT3)进行 Alignment 微调(Fine-tune),但从 Anthropic 发布论文看, 他们的对话机器人在 Base Model 的训练阶段对于数据进行处理,这种技术路线可以更 好地服务于微调后的结果表现,未来有望成为主流。
    3) OpenAI 的文化是追求美的,他们一直追求用更少的人力去抵达更好的效果:
    l 无论是之前的 GPT2、GPT3,还是之后的 InstructGPT,OpenAI 都非常 排斥大量的人工标注,他们觉得人工表述是不美的东西,InstructGPT 只需要非常少的人力,比如 40 个 contractor 和一些很有限的标注,就能 达到一个比小的模型好 100 倍的效果;
    l 另一个创新是 Reward Model,它不会直接让这些模型去评判结果,并 不会给出一个选择题,而是会给出一个排序题,他会给出四五个结果, 让人对这些结果进行排序,训练一个负责排序的模型叫 Reward Model, 抵达和人类似的效果;
    l 训练模型去预测排序,会简单很多,它的效果和人的效果类似,在第三
    本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    步的 RLHF 的阶段,其实不需要任何人类的标注,只是让它的基础模型 去拟合排序函数,通过预测人类排序,就可以达到很好的效果,这是一 个非常非常美的东西;
    l 所以 InstructGPT 只在前两步用到了人类标注,第一步是对人类反馈进 行监督学习,第二步就是人类对模型的回答给出基本的排序,去训练一 个排序模型;
    l 第三方数据标注公司在大模型领域没有拿到很大额的订单,远不如过去 自动驾驶行业的数据标注的生意量,因为 RLHF 并不需要人类标注,就 可以让数据引擎滚动起来。
    InstructGPT 论文被人视作 ChatGPT 的关键技术基础,其中引入了人类反馈强化学习 (RLHF)过程取代了 Fine-tune 过程,其过程如下:

    1. 收集演示数据,借助对数据属性标注的方式训练一个监督规则并对基础模型微调; 2. 收集不同生成结果的对照数据,借助人工排序的标注方式训练一个奖励模型
      (Reward Model);
    2. 基于奖励模型和强化学习对于生成策略进行优化;
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
    1. 医疗领域的标注需求不是特别大:
      l 目前采用的方法是与药企合作,药企会有一些单病种的路径和临床共识, 建立合作后大概会有 300 个编辑来做标注工,而建立起模型后会通过 SaaS 将标注任务给到一些小医生;
      l 这种标注链路改变了学术会议的模式,目前的客户像勃林格 (Boehringer Ingelheim)都很 buy in 这种标注流程。
      Q17:OpenAI 闭源模型和 Stability 开源模型的未来发展路径
    2. 对开源模型与闭源模型的选择考量:
      l 开源模型的搭建需要一定的资源投入,具有一定成本以及搭建门槛,因
      此开源模型的大面积铺开有难度;
      l 受限于成本价格,大多数人会愿意使用 API,少量有需求的人会开发垂
      直或产品专用模型;
      l OpenAI 的接口目前除了价格便宜外其他优势并不明显,还需要 OpenAI 去发展在其他领域的公司与服务;
      l 开源与闭源的选择是应用层公司的 ROI 问题。下游公司调用开源模型 需要投入人力与研发成本,接入闭源模型需要花费 API 接口费用,这两 种选择方式的投资回报比比较,是应用层公司选择开源还是闭源模型的 关键;
      l 开源与闭源模型对行业的未来发展影响并不关键。即使模型是闭源,也 并不能阻碍别的技术路线重新出现。开源模型对国内的帮助更大,可以 在开源模型的基础上做二次迭代。
    3. 开源模型与闭源模型未来的发展路径:
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    l AI 开源模型与闭源模型的对比,相较于 Android 与 iOS,更像硬件领域 中 X86 与 RISC-V 的对比,不仅仅是技术层面的模型,也涉及到硬件与 商业模式方面的比较;
    l OpenAI 的未来发展方向可能有两个:
    Ø 专注于技术方面的 Break through,保持自身的技术公司属性;
    Ø 创建自身的开发 Ecosystem,让大家在 big Ecosystem 去更 flexible 的开发;
    Ø 两个方向可能冲突,也可能不冲突,OpenAI 作为初创公司,大家 希望看到的是他形成一个大生态,让大家更好地去开发。
    l OpenAI 可能想以一个偏硬件的方式去做 Lark language model 的商业化 生意;
    l 开源模型目前仍需进一步发展,未来可能会细化为 Domain 与 AGI 两个 方向;
    l 闭源模型的 API 服务不能仅凭借技术实现自身的进一步发展,仍然需要 运营服务的支撑。
    3) AI 模型未来可能的发展:
    l AI 模型生态核心的区别在于开源模型能不能比较好地收集到各类真实
    的、高价值的商业场景反馈数据;
    l OpenAI 之所以被看好,因为它既闭源,又有非常多 API 生态,可以把 很多场景中真实用户的反馈以及高价值清洗过的数据训练出来,能够形 成数据的规模效应;
    l 无论开源模型还是闭源模型,其他 AI 玩家的数据反馈,能不能比较好 的被外部所利用,会产生什么样的方法与商业模式,还有待观察;
    本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    l 在 transform 算法的特性上,算力在进行指数级的提升,但 performance 的提升越来越慢;
    l 下一代算法是谁提出仍然有非常大的不确定性。谁能拥有更丰富数据, 拥有整个产业链,特别是大模型都需要进一步的观察。
    Q18:对比 PC → Mobile 的特征变化,LLM 带来了哪些本质变化? 1) LLM 大语言模型所带来的技术迭代:
    l ChatGPT 的本质进步在于对人类知识的现象进行编程,这一点是范式思 维的转变,是技术本质上的飞跃;
    l OpenAI 的接口处理信息聚焦于 query,无法做到判断人类真实的需求, 这需要进一步的创新;
    l 大语言模型将人还原到更多维度的形态,进而形成多模态的商品,这与 早前将人还原为特征的关键词的算法有本质区别。短视频的兴趣挖掘算 法,可以依靠大语言模型理论实现更加深刻的需求挖掘,同样也可以应 用于商品匹配等领域;
    l 数据颗粒度可能会是比较关键的一个变化。大语言模型会带来数据颗粒 度与数据体量的变化,结构化的数据生产会增多,会使得 data 公司与 SaaS 公司受益;
    l OpenAI 的数据质量较高,但是其数据处理过程尚未公布。OpenAI 对 ChatGPT 的数据训练过程构成了其技术护城河。
    2) LLM 大语言模型带来的增长点:
    l 大语言模型的应用场景与移动互联网区别相差不大,并没有改变我们 distribution,这与 PC 向 Mobile 的转移有一定的区别。AI 以及 LLM 在 底层上对软件的评判标准有没有影响是值得商榷的;
    本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    l 大语言模型对判断 Business 好坏的影响,在于数据层面。对生意好坏的 判断标准很大程度上看它能不能逐渐真正地形成数据飞轮,看他能不能 不断地为用户提供服务,然后用户不断地为它生成新的数据;
    l 比较优质或有潜力形成数据飞轮的业务,可能可以控制端设备,并能持 续获得用户所生产的数据;
    l 从资产端与产业链角度而言,AI 大语言模型带来了存量与增量两个方 面的增长;
    l 从增量板块与存量板块而言,AI 大模型会带来几方面的增长点:
    Ø 增量板块而言,供给侧技术的突破,可以形成独特的中国投资的视
    角,具体而言,有两大类板块的企业值得关注:
    n 中国底层的基础设施与红色产业链,会在 AI 价值上进行重估。 中国也会形成自身的底层板块,出现一系列的产业链工具以及 相应环节,会形成相应的机会点;
    n AI 会将 SaaS 没做成的 ToC 的事情打通。AI + RPA、教育等都 是 ToC 类的增量产品,是有机会点的。
    Ø 存量板块而言,大语言模型所能带来的机会点也分为两类:
    n 中国的 AI + SaaS 会有相应的发展。作为存量板块,其判断逻辑
    应比较朴素,遵循对 SaaS 公司的业务指标判断就可以;
    n 存量板块另一类是中国常规软件生意中最成熟的项目制。AI 的
    参与可以在某些场景中提升项目的毛利。
    3) LLM 大语言模型带来的深度变化:
    l 移动互联网基于 LBS 等技术,在短视频领域创造出了最成功的体验与 价值。而 AI 的增量与价值市场目前尚未明确,AI 结合的行业中,哪个 行业最成功地提升了人的体验,值得进一步的关注;
    本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    l 对于 ToB 端来讲,大语言模型可以带来业务协作模式的变化,SaaS 系 统的交互方式可能会演变为另外一种形态,成为集成了 AI 的 IM 的入 口,成为访问企业里面所有 SaaS 业务流程,还有数据库的一个超级入 口;
    l 如果 GDP、 GPT 等技术当成一种生产资料,它会带来成本上的变化。 例如在内容创作领域,虚拟人直播、自动生成图片等将广泛应用。 GBD 会优先渗透到那些有明确经济价值的场景,内容创作领域的成本 是可以通过 AI 实现降低的;
    l AI 技术的应用也会随着老龄化、劳动力缩减而被广泛推广,AI 将成为 保持社会协作效率的重要工具。文案、售前等都会通过 AI 实现大规模 的效率提升;
    l AI 会带来社会分工的变化。例如 0 代码产品的存在,可以使得懂业务 的人将脑海中的想法落地。
    Q19:OpenAI 能赚百亿美元营收大钱的商业化业务会是什么?

    1. OpenAI 可能会做消费级的的硬件设备,例如新的手机、新的“小度”。不过 硬件的提升速度赶不上软件与算法的发展,硬件的发展不一定依靠 OpenAI 而实现。
    2. OpenAI 的护城河在哪里?
      l 数据被认为是技术公司的护城河,但 OpenAI 包括 ChatGPT 并没有形 成数据飞轮,因为它爬的数据都是全网的数据。OpenAI 并没有积累太 多数据,ChatGPT 前,接入 OpenAI API 的寥寥无几。此外,ChatGPT 获得很多的 query,形成数据飞轮后,目前 OpenAI 还没有利用到,后 续的如何利用以及隐私方面的保护都需要关注;
      本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    l 人才是 OpenAI 最大的护城河。OpenAI 有很强使命感以及技术生命力, 以至于即使它的 paper 公布了,其他家也没法 reproduce 出来;
    l OpenAI 的技术属性以及人才护城河,可能使他不具备商业化的基因。 OpenAI 可能没有那么强的动力去做商业化,它的真实想法还是 move forward technology。
    3) OpenAI 内部也有一种观点,认为商业化对未来几十亿美元量级的研发投入 是重要的。依靠商业化的收入,才可以实现更大的研发投入。同时, OpenAI 也为其他创业公司提供了可能的商业化价值点,其对互联网、对科 技的商业模式的影响目前还没能看出来。
    4) OpenAI 的百亿营收是很容易想象的。可以类比 Apple 从 App Store 上赚的 钱以及 Google 依靠基础模型的营收能力。OpenAI 构建了基于人类知识的 技术底座,形成了基础模型,能够提供各种各样的服务,所以其营收方式 以及相应空间是极大的。
    5) OpenAI 会发展出更新的商业模式吗?
    l OpenAI 有可能还是在游戏、广告、电商和会员等商业模式上发力。如 发展出虚拟的陪伴,虚拟机器人、元宇宙等形态,这 4 种模式和这 4 种 模式的排列组合可以是未来 OpenAI 的商业模式方向;
    l OpenAI 可能不会在硬件方向上发力。未来 5 年可以预见到 AI 能够极 大地提升各种模态的生产效率,但是同时这次革命又非常吃算力、吃芯 片,可以想见芯片的提升、云到端的延迟等提升是相对缓慢的;
    l OpenAI 未来的所投资方向代表着其认为可以营收的方向。如,它投资 了芯片、教育、问答等。因此对于 OpenAI 公司本身而言,未来会成为 一个非盈利性的公司。
    本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。

    Q20:微软对 OpenAI 的加分项和减分项 1) 减分项:
    l 微软可能让 OpenAI 会更早的考虑商业化。微软推出了的 Bing Chat 是 对 OpenAI 进行的比较大的分析,这也导致了 OpenAI 从开源的技术心 态转向闭源的原因;
    l ChatGPT 已经作为产品形态出现,但相关论文并没有,这种闭源状态不 是很好的现象。
    2) 加分项:
    l 在微软端的应用是 OpenAI 更好的选择,ChatGPT 可以噫风险比较少的 方式普及到全人类,这与 AGI 的愿景是比较贴合的,如果交给广告公 司来做,并不一定能起到最好的效果;
    l OpenAI 让整个行业更卷了,实现了人类技术上的突破,对整个人类社 会是有帮助的。
    待讨论问题
    如何看待大模型系统涌现性?
    本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅 供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。