✍️ AIGC 思考/行业动态 - OpenAI 闭门讨论会纪要 V2Date:2023 - 03 - 05 - 《AIGC知识库 Stable Diffusion Midjourney ChatGPT》

Q1:OpenAI 接下来会有哪些动作? A:

和微软更加深入一体化的合作;包括 office、teams、云、Surface(消费级终端)加入 AI 功能;以及推出新的 ToB / 消费级的产品;
可能会和更多的企业达成战略关系。目前已经贝恩等企业合作;
安全性提到最高优先级。强调 Safety 而不是 Security;
OpenAI 是否会自己做消费级的终端;
ChatGPT 如何避免回答错误?ChatGPT 会一本正经的胡说八道，但 ToC 应用对于错误的容忍率很低，之后可能通过增加一层 validation，加入更好的知识库，对答案进行控制。
对于大模型的探索:
l 多模态进展、GPT4 不久就会发布。在训练多模态数据之后，参数量到
达多少会涌现更多的能力?
l OpenAI 的模型会不会有新的方向?目前 LLM/Auto regresion 是不是真正好的方向?现在应该还在尝试不同的基础路径;
l 多模态模型应用于生成设计:重点可能不在于准确度，对于精确度要求不高于 95% 的内容都可以用 AI 生成，如图片、视频、宣传广告、3D 设计;另外，人类单次思考时间低于 3 秒钟内容都可以被 AI 替代。
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。
OpenAI 是否会在 AGI 有重大作用的领域有更多的投入，比如自动驾驶、机器人。
l 如果 OpenAI 不提前部署相关场景，会较为被动。目前已经有相关基础，如虚拟环境，但是中间暂停了，或许未来会重新启动。OpenAI 和 Tesla 擎天柱机器人最后可能殊途同归;
l 应该不会马上做机器人，Reinforce learning + 仿真这条路径已经被否定了;
l 多模态方向，目前视频、语音放在一起效果并不好。可能未来还是会一层层的向上加数据，最终实现多模态。
OpenAI 现在和未来都会花很大精力研究数学问题，目的是加速模型推理。
l OpenAI 模型逻辑性非常强的原因之一是同时训练文本和代码，训练的节奏和来回穿插并没有公开。多模态把时序数据变成序列数据，如果把数学变成一个序列可以极大的增强推理水平，是 OpenAI 重点关注的点;
l 大模型虽然在基础数学领域没有优势，但是在 PDE 和偏微方程有很大优势，比如 Deepmind 的大模型可以做可控核聚变(但是和大模型是两条技术路径)。
未来可穿戴设备 + SaaS + GPT 是否会有更多的想象空间?
l 大语言模型使得交互方式变化、对人的行为活动采集的颗粒度会变得非
常细致，所以围绕数据流会发生更大的变化，这部分是很期待的部分;
l 但可穿戴的消费级设备还会涉及到怎么做产品化，所以需要一个很天才的产品经理;
l Adept 的产品就是用自然语言去控制 SaaS。但是该技术很难，类似 L3 级别的自动驾驶，现在可以做到 80% 的时间是对的，但还有 20% 需要
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

人去进行干预(一些复杂场景下，例如给出的 Prompt 不够精确的时候)。类似的公司有 Inflection。
10) 现阶段人和 GPT 交互所能得出的答案/反馈，和 Prompt 也有很大关系在，现阶段目前有的两派人在做:
l 其一是围绕 GPT 优化垂直场景的 prompt，OpenAI 后续也可能自己做这件事;
l 其二是围绕 prompt 做坏事，挑战 gpt 下限，叫做 DAN(Do Anything No)，类似互联网时代的病毒，所以 OpenAI 后续需要给系统打补丁，大量投入 alignment。
Q2:ChatGPT 被广泛应用之后输入的数据是否会对模型的走向有影响?
A:
l 有影响，目前模型也用了 2021 年之后的数据，但是不全面，大部分是 2021 年之前，但 2021 年之后也使用了，只不过不是那么完全;
l OpenAI 的模型是一直在更新的，目前 OpenAI 的 API 开放了两个接口，一个是 Turbo，一个是 Turbo 0301，Turbo 0301 会一直更新，用更新的数据做 pre-training，以及用大家给出的更好的 prompt。
l Instruct GPT 是之于 GPT 更好的升级，它就是通过收集、学习更多人的人的输入来学习人类输入 prompt 的大致类型，从而实现更好的结果输出:
Ø 之前的模型只是用海量的文本训练，但并没有和人类的意识 Align，并不是一个“人类给出指令，模型就能够帮助人来做”的交互;
Ø Instruct GPT 很重要的是做到了接收到人类想用模型做的事情的分布
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

(输入的内容)是什么样的。这些需要和公众去采集，结果上来看包括三类:生成，brainstorming，以及 Open Q&A。
l 采集和使用的数据必须是经过同意的，美国的意识形态强调政治正确，所以 Harmless 非常重要，不能产生不良影响。
Q3:OpenAI 现在用了多少算力，之后会需要多少算力? A:

听说 OpenAI 花了微软一半的算力，2.8 万张 A100。去年花费了 4-5 亿美元，今年预期要亏损 20 多亿美元。
在有隐私限制及其他不能用 OpenAI API 的场景，底层算力大型的提升非常重要。像 SambaNova(snorkel AI 的兄弟公司) 做的事情就是帮助不能用 API 的公司独立做自己大模型。使用的技术是类脑计算(Neuromorphic Computing)。
SambaNova:美国 AI 芯片独角兽，其最重磅的软硬件集成平台 SambaNova DataScale，拥有 TB 级内存容量和数百 PetaFLOPS 低延迟互连计算能力，能处理大量复杂的数据模型。
Q4:数据方向的新应用场景 A:
OpenAI/Snorkel AI 将数据 signal 整合到一起，获得训练数据集。OpenAI 在
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

Scale.ai 只花了几十万，所以肯定有很多自己的数据标注方式。Snorkel AI/ 开源的 LLM，如 Human loop，都在数据方向做创新;
2) 垂直领域如果最后有自己的大模型，利用自己的数据形成闭环，实现数据迭代，那么互联网的优质语料库或许会成为限制;
3) 如果 2025、26 年，大模型已经用完了人类的高质量数据要怎么办?人类生成数据的速度是否会跟不上大模型训练数据的速度?
4) 可能要看多模态的数据，或者是 AI 生成数据。还需要考虑 AI 生成的数据能否满足基础模型对于数据质量的需求，以及怎么去评估数据的好坏或者可解释性;
5) 未来应该会产生更大体量的数据，计算机对人类行为的理解可能会更深入，变成质量更高的数据。
Q5:OpenAI 的开源与制衡问题

OpenAI 将如何在垂直领域给提供更公开的环境，赋能垂直领域的应用。虽然 OpenAI 开源了 ChatGPT 的 API，比 GPT3 便宜 10 倍，但不支持垂直领域的 Fine-tune。大家只能做 prompt engineering，但长期来看，公司数据积累的效率很低。当然，并不是所有的垂直领域都值得做。
OpenAI 的开源精神未来会如何演变。OpenAI 的研究内容目前并不完全可见，虽然发布了 blog 和论文，但是并不能成功重现，各大公司重现的
GPT3 效果都不如直接调 OpenAI 的 API。
隐私安全问题如何解决。微软和 GPT 相结合之后，能否有相应措施解决这个问题?下一步 OpenAI 是否能用更少的人类标注达到更好的效果，使得模型性能更好复制，实现大规模应用。OpenAI 重视民主化，所以在
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

transformer 出现之后，采取了更难的方式 decoder。在 GPT2、GPT3 时期， OpenAI 始终强调自己走的路线不需要人类标注，直接使用公开信息训练，通过扩大模型参数探索更多的可能性。但是 ChatGPT 的训练通过 Scale.ai 等公司合作，招了很多 labeler 标数据，导致模型效果很难被重现。之后 OpenAI 是否能够采取大模型或接入数据库等方式，减少人类标注，达到好的效果。
Sam 如何保证其他力量和 OpenAI 有更多的抗衡，让 AI 领域发展更健康:
Sam 的格局比较大，之前希望陆奇能够去欧洲做一个 OpenAI 的竞争者，因为不希望 OpenAI 一统江湖。所以很多 OpenAI 团队的人出来做类似的公司也是被支持的。
Q6:通用和垂直哪个更有盈利能力?

用领域和垂直领域关键的边界点:行业知识和企业组织内部知识的边界。
l 如果是行业知识，比如医疗通用知识，那将会是大模型的天下，能够帮助人获得更多的信息，对人赋能价值大;
l 但一旦进入一个组织内部，由于组织的生命周期决定了这些信息，所以这些信息不是通用的，大模型的对人的赋能价值将大幅度降低;
l 赋能组织:科技的发展将带来组织形式的变化，为组织注入更多理性的人，因此做好组织内人与人、人与机器的沟通很重要。
Move works(垂直领域的一家公司)已经有很好的语料库和 ML 技术人员，自己做模型甚至能比 Open AI 更好，但仍然选择与 Open AI 合作，说明通用模型具有一定价值。
垂直领域的价值:积累起来的技术、资源、integration 等很有价值，已经建
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。
立了一些壁垒，有一些场景互相整合的机会很多，微软是很大的赢家。
通用领域很卷:现在通用领域的市场很卷，例如 Example Nova 融资很多，但真正起量的很少，马太效应明显，一些大公司因为在 brand、技术、数据上的优势，导致小公司和后面的新公司难以发展或进入市场。
两个领域的盈利能力主要与两个角度有关: l 技术角度;
l 能力角度(例如，百度是通用搜索，但错过了电商搜索、电商搜索、本地生活搜索;而 google 和 You Tube 却在流量搜索和视频搜索上赚了很多钱。
Q7:哪些垂直领域有创业机会?
需要重点关注的问题:用户场景发生什么变化?人文经济、社会学、政治
没有跟上技术的进步?人会产生什么新需求?
真正有价值的东西:1)brand;2)用户的具体需求，例如在现在这样信息爆炸的时代，做一个帮助人们接收、整理和理解信息的平台;
机会维度:
l 特定领域的软件，例如 marketing 领域的 Adobe 和 Salesforece，市值超
过 10 billion;
l 一个板块如果有很多新的功能创新，可以在早期投资相关公司，这些公司将来可能会被并购，例如 Figma。(如果并购发生比较快，IRR 很可观。)
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。
Figma:原来只为 Adobe 服务，做 design，即把设计师、前端工程师、产品经理等人员都粘结在新的平台上，提供跨部门协作的交界面服务。
l 像 chat GPT 很难做成一个延展的平台，因为很多的坑已经被大公司给占掉了，所以想要 Alpha 级的 return，就需要找到被大家忽略的点，并据此延展成一个新的平台，例如 Aurora Solar 就是将 3D 设计作为一个核心点切入，快速延展到一些其他的 SaaS 功能;
l 某个产业发生了一些变化，导致其需要跟另外一个产业发生更多的交互，例如电商行业和物流行业。在业务交界面上进行切入，并继续延展，有机会成为一个新的平台。其实这还是做的传统 SaaS 的数字化和智能化的事情，只是需要探索其中有什么样的机会点;
l 某些垂直行业，如果以前有限制，而最近 feature 变化，行业规模有机会放大很多倍。(例如，从 PC 到 Mobile，很多行业都发生了改变，我们可以关注这些改变之下的需求)。
创业机会:
l 这一波跟之前互联网不一样，但跟之前 SaaS 和 AI 更为类似，因为互联网更多解决的是连接的问题，而 SaaS 和 AI 更多的是解决降本增效以及计算机架构重构。因此，这次的创业需要找到新的突破点，争取做到 global market，到后面并购退出或被国外 SaaS 巨头购买(需要是离岸架构，创始人团队不完全中国人);
l 如果是在中国，原来 SaaS 和 AI 行业创业中遇到的问题，现在的创业公司还是会遇到，因为行业并没有改变，因此更多的创业机会需要公司去寻找一些新的突破点，例如传统的 ERP 是使用 Excel 或手工输入的方式统计人力资本，但现在更加自动化，使用更好的数据采集方式，使公司能更好地利用人力资本。(Open AI 刚投了一家做这个业务的公司)
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。
创始团队:根据统计显示，专注于做 application 的创始团队，有一半以上团队不是 tech background，甚至主要的几个创始人之前连代码都没有写过。
Q8:垂直领域如金融/医疗如何做?
金融领域还需要等一段时间:目前的金融领域做 AI 和云是一样的，主要的数据来源于公司自己。是否要用通用模型或者 ChatGPT 之类的东西尚且存疑，隐私问题也需要考虑;
看好金融领域的原因:
l 市场天花板足够大，量化基金是过去 IT 和 AI 技术应用很好的例子;
l 金融领域的数据质量很高，本身就是结构化的数据。目前已经出现了一些用数据方法的 MVP 版本，比如量化领域的出现了许多基于新技术的指标;
l 带来市场增量:LLM 对于传统 NLP 模型，进展有两个方面，一个是信息的处理，另一个是对于非结构数据的提炼，过去 NLP 智能在结构化数据方面做数据的提炼，更多的是内容提炼，而非知识提炼，如果我们的语言模型能在隐藏的知识图谱里面进行提炼、微调，就可以从量化金融领域拓展到传统的基金，这将会带来新的市场。
可以在金融应用的领域:合规或者营销的解决方案，合规风控的规则对全球都适用的。
Q9:目前软件公司有哪些经营模式?分别有什么好处和优点?
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。
垂直采购型:既做应用层，又做模型。(例如，Stability AI) l 好处:技术壁垒会比较深;
l 缺点:要有自有大模型，前期成本大。
商业采购大模型:向外采购模型层，自己只做应用层(例如，Jasper AI)。
l 好处:可以专注应用层业务;轻资产，前期投入少;
l 缺点:技术栈浅，因为模型是外采，没有很好的控制能力;
l 开源模型:既做应用层，也做模型，但模型并不是自己做，而是修改开源模型。
Ø 好处:自由修改开源模型来适配自己的业务;对模型和应用都有控制能力;
Ø 缺点:需要招募真正对 foundation model 了解的工程师，让他们在开源层进行修改。
Q10:ChatGPT 对于垂直应用层有哪些影响?如何节省下大模型训练的成本?
Chat GPT 作为基本工具(通用工具型)，例如智能客服的机器人，会有比较大的近期影响;
但如果涉及到核心业务，例如通过理解人的行为去识别骗贷骗保，还需要一定的时间;
很多数据自己本身就带有标签(例如，在业务场景中已经生成标注)
ChatGPT 如何推动垂直领域的发展?
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

l ChatGPT 解锁的能力:吸取大量的社会知识，能够按照人类的指令做事情;
l 目前 Open AI 只是开放了一个 inference 接口，因为不是 call 形式、只能 prompt，灵活性不强。因此在后面的发展中，我们可以结合垂直领域，创造出更好的 prompt，把 chat GPT 作为一个更好的系统，在上面再对接一个更好的模型;
l 更多的竞争者出现，push Open AI 采用更开放的形式，将模型真正开源，社区得到更好地开发。
Q11:垂直领域的数据如何处理?

很多数据自己本身就带有标签(例如，在业务场景中已经生成标注);
如果数据处理涉及到数据安全的问题，可以通过脱敏和本地化训练来规避; 3) 人类生成数据的速度会不会低于模型训练的速度?
l 同样的数据可以用于不同的模型，或者不同业务的目标、应用场景不一样，因此同样的数据可能输出 N 个结果来支撑 N 个业务。
Q12:应用领域二分法:
垂直切:AI 三要素是数据、算法、算力，在不同行业中的数据水平不一样，因此我们需要考察每个垂直领域，按照数据基础排序，优先数据基础好的，这部分企业用了 AI 之后的 ROI 更高;
水平切:让每个人有计算机交互的能力，而不论领域和行业;
在 Ops(运营层)会有比较多的机会，目前 Stable Defusion 社区非常繁荣。
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。
但目前集中在围绕自己的大模型进行延展，还没有看到跨多个大模型、或
大模型和小模型的案例。
Q13:数字化发展的不同商业模式，三个极端:1)传统企业;2) 互联网企业，例如抖音和字节，通过一个引擎来驱动整个商业模式变现; 3)滴滴、美团，非常强的人机互动。
未来的模式可能是把滴滴、美团外卖的沟通方式再复杂一个度，强化沟通模式;
什么样的企业能先获利?在某一个价值链上，需要非常多的人，有机会实现大规模人力提升。(e.g. K12，AI 可以替代辅导老师)
Q14:从哪些维度能有效评估大模型?OpenAI 内部的评估手段?
因果链是目前大家公认的 Metric，现在前几名的 NLP 模型，无论 OpenAI、
或者 Athropic 都在拿这个指标进行对比;
l 思维链(CoT )是各种论文上评估指标被着重强调的一点，这个能力只在 100B 以上的模型才会存在，这也和过去的 NLP 模型形成了显著差别;
l 同时前几年 NLP 内容和现在大语言模型相比，最大的差异在于因果逻辑:
Ø 首先是能得到结果的过程和原因;
Ø 其次是这种演绎和推理能保证模型训练过程中一个很好的收敛性和
可解释性，也能输出一个更符合人期望的答案;
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

Ø 因果链反应了一个非常关键的问题，因为刚刚讨论应用场景或者变化时，一直在围绕过去的应用场景，比如 SaaS ，如何替代旧的场景，但更重要的应该对比现在模型和过去模型在根本性能力上的区别，先讨论与众不同的能力，再讨论场景的延伸;
思维链(Chain of thought)是一种提示方法，可以让大型语言模型(LLM)通过生成一系列中间推理步骤来解决问题。这种方法可以提高 LLM 在算术、常识和符号推理等任务上的性能。Chain of thought 也可以用来描述一个人的思维过程或逻辑。
2) 从自己训练模型出发，首先是会选择公开评测数据集，或者面对一些开发评测平台，分为横向评测和纵向评测:
l 公开数据集可以用来评测，一些大型的评测数据集比如 MLU ，另外还有 Helm 这种评测平台，比如把推理数学问题之类的放到各个模型平台相互对比;
l 这就属于横向评测，比如我们对比一下 GPT 模型和 MOSS 模型之间的表现，测试一下他们的数学推理题和问答能力;
l 纵向评测就是自己的模型和之前的模型哪个更好，自己和自己比较的时候往往更简单，只需要把数据集拆成训练集和测试集，在测试集上评测一下是否有提升或下降;
l 目前一个比较困难的事情是开放性问题，比如 QA，我们缺乏一些比较好的评测方法，当考量到多轮对话问题时候，自动化的评测都不是特别靠谱，比如 ChatGPT，我们能明显感受到它的多轮对话能力更好，但具体如何量化对比它和 MOSS，没有好的方法;
l 不知道 OpenAI 内部如何评测，最好的方式可能是大家一起搞一些评测集，在某个组织里不要公开出去，类似 HELM 那样，用不同于传统方法的方式去评测多轮对话，或者类似 ChatGPT 擅长的能力;
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

  HELM:一个大语言模型评估榜单，基于斯坦福大学提供的开源的 CRFM benchmark 数 据集，榜单包含了十二个机构的 30 种大语言模型，使用了 42 种场景，52 个基准数据 集。

l Goal (优化目标)是最重要的问题，但大家目前没有一个具体的目标，也都不知道 OpenAI 内部的优化目标是什么。
Ø 或许大家现在并不是无法做出 ChatGPT，只是不知道目标具体是什么? 这个应该就是 OpenAI 的优势，他们想得非常清楚，非常垂直，评测指标和现在的公开数据集可能没有特别多关系，或许用那些数据集能够帮你掌控基础场景的基本保障，但纯粹将数据刷高意义不是很大;
Ø 如果只是用公开的数据集，纯粹刷数据指标，没有特别大的意义，可能一个表现非常好的团队只是不经意在模型中把训练集当测试集了，就在某某指标上超越 GPT3;
Ø Greg 最近发了 twitter 指出 evaluation 在 ML 里面是一个最为低估的技能。从公开资料和内部访谈看，OpenAI 的评测涉及三个指标:
n helpfulness，就是答案是否真正有用，他们内部有专门 40 位非常顶尖的人才负责，包括和一些数据标注公司合作;
n truthfulness，即信息的真实性;
n harmless，主要涉及到歧视和各种政治不正确的话语;
Ø 公开数据集现在就好像走过场一样，InstructGPT 论文刚开始投稿时被拒掉了，因为他们用的内部数据集，后来 OpenAI 团队使用他们的模型在公开数据集上做了评测，才通过评审;
OpenAI 在新的 Instruct 论文加了十几页在公开数据集上面的实验，同时也分享了一些引入真实数据集的方法，比如它更专注在某几个垂类:
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

比如 Generation(50%左右)、OpenQ&A(12%)、brainstorming、chat、 rewrite、summarizing 、classification 等等，而且这个比例是符合人类给它的一个 prompt 的分布，这里面有很多继续细节在;
Ø 所以 OpenAI 内部绝对是有一套具体的评价指标，这个指标和它要解决的问题，即人们会怎么使用这个模型息息相关，基于这个问题，他们收集了专门符合人类使用分布的数据集输入，再基于这些输入和根据他们想要解决的问题，他们定义了自己的具体的评估指标;
Ø 在公开数据集上，很多数据集在不同指标上有一些专门的评测，希望它的语言模型是准确的，不带有 bias、toxic，它们也希望你的模型有效，所以无论是学术界、OpenAI，它们自己都有一些研究和领先优势;
Ø 同时 OpenAI 内部也会进行新旧模型相互对比，比如基于一个指标去对比 A 模型和 B 模型的输出差异性，然后比较在某一个公认的指标下，更喜欢 A 模型输出结果的人占多少百分比，比 B 多多少，来比较出类似 GPT3、GPT3.5 之前的模型提升效果;
引自 InstructGPT 论文:为了了解数据集的组成，在表 1 中，我们显示了由承包商标记的 API prompt(特别是 RM (Ranker model)数据集)的使用类别分布。大多数数据集都是 Generation ，而不是 classification 或 QA。我们还在表 2 中展示了一些说明性 prompt(由研究人员编写以模拟 prompt 给 InstructGPT 模型的 prompt 类型)。
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

其实模型的评估问题只有一小部分与技术相关，更多的是产品问题:
l 刚刚提到的每个场景，具体的 Corner Star 不一样，其实目前大模型的
惊艳效果只在场景都是在一些没有明确的正确答案上出现，比如对话，
比如图片生成，你都很多说正确与否;
l 但是再有些 NLP 具体场景下，ChatGPT 不一定比一个小很多的模型好很多，这主要是一个产品问题;
l 类似 New Bing 其实也有很多错误，但 Google 发布 Bard 就被人揪住错误导致市值下跌，这也涉及到了怎么做宣发，怎么去造势， Microsoft 的产品经理肯定是想过这些东西，所以模型的评估应该从产品的角度思考;
涉及到语言模型评估，可以分为主观题和客观题:
l 客观题就是之前 NLP 的 benchmark，有很多子任务，或者去把一些推
理任务变成了确定答案的推理:
Ø 如果只看子任务，就会发现一些小模型会比 GPT 强，很多 paper 会用这种方式说比 GPT3 带来了提升，包括最近的 LLaMA，被大家质疑为什么不适用更大的 Benchmark 去测试，甚至让人怀疑是用训练集在测试;
Ø 所以最近 Stanford 的 CRFM 排行榜的结果其实是符合大家的认知的，就是 OpenAI、Athropic 和一些更大的模型在综合能力各方面都更强，但也不是说所有客观题任务都被他们解决了;
Ø 客观题领域有比较 tough 的 Benchmark ，比如 CoT，逻辑推理题，这种 benchmark 比较容易看出底座模型一些能力差异;
l 另一个更难的问题，比如对话、summariztion，其实会有一些比较主观的成分在，属于主观题;
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

Ø 主观题怎么做得更好，从 helpfulness，harmless 角度出发，OpenAI 在 alignment 上一直都是通过人打标签或者通过人定义一些规则;
Ø 完成这些工作，最终得到一个排序，然后再基于排序形成 reword model，使用这个模型再对数据的质量进行判别，无论是判别生成数据的质量，还是最终产生的结果，是否比较满足你的需求;
Ø 最近看到一个有趣的访谈说，模型在某一个指标上达到某一个阈值， alignment 会比原来模型好很多，可能到达可以发布的标准;
Ø 痛点是中文的 benchmark 标准比较缺乏，需要国内做大模型的公司建立一个比较好的 benchmark，去客观的评估一下现在各个模型的能力;
Q15:OpenAI infra 搭建过程中有哪些关键点、milestone 、难点、重要性都是什么?

对于没有用过大规模显卡的团队，是很难将千张显卡的算力完全发挥出来的，可能只能发挥七八成效率，而 OpenAI 内部对于显卡资源的利用效率是非常高的;
Nvidia 提供的 Pod 的服务，即把所有带宽软件硬件，包括硬件的监控都全部提供好，是一个产品化的交付，这一点相对于国内自己搭建，有比较大的提升，尤其是在带宽方面，带宽层面的进步对于上层软件层的优化会有比较明显的改善;
Nvidia 提供的 Pod 的服务是一种让用户可以租用或购买 Nvidia 的 DGX 超级计算机的服务;
DGX 超级计算机是一种专为 AI 和高性能计算(HPC)设计的数据中心基础设施平台，
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。
可以提供高速的 GPU 集群和网络;
Nvidia 还提供了 Base Command 软件，可以帮助用户管理和协调 Pod 上的 AI 工作负
载;
Nvidia 还提供了白手套服务，可以为用户提供从安装到运维的全生命周期的服务体验。
OpenAI 对于 Training 和 serving 不一定有特别多的创新，因为训练一个千亿模型，Google、Meta 也是可以做的，但 Google 和 Meta 的训练和服务都是要跟着业务走的，内部没有特别多性能要求，它们只需要向上面堆资源，不需要关注训练的效率，服务层面更没有优化的动力，最多开放接口，QPS 也没有特别大;
在需要两万张卡规模级别的训练上，OpenAI 自身的分布式调度架构要比微软的能力强非常多;
QPS: Queries Per Second，意思是每秒查询率。指一台服务器每秒能够响应的查询次数，用于衡量特定的查询服务器在规定时间内所处理流量多少，主要针对专门用于查询的服务器的性能指标。
Q16:大模型的数据处理质量如何保障?OpenAI 团队内部怎么做的? 在垂直细分领域，比如医疗行业，数据需求量是否足够大?
OpenAI 初始的数据并不多，但后面通过模型上限将数据滚动起来:
l 最早的 InstructGPT 是和美国两个公司 Scale.AI 和 Upwork 进行合作，他们根据最符合人类 prompt 的分布，总结了二十多类进行标注，筛选了 40 个 contractor 帮他们做更多的标注，大部分是菲律宾人和孟加拉国人，所以 OpenAI 用比较小的人力抵达了非常好的效果;
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

l 在初始模型上线后，OpenAI 和二三十家公司合作，每个公司会授权给他一部分数据，慢慢的大家使用 beta 模型，将数据闭环滚动起来;
2) OpenAI 的基础模型(Base model)训练的数据质量应该也是非常高的:
l 比较明确的是基于人类反馈微调的部分肯定是人工标注，但大家忽略了基础模型训练部分的数据也是高质量的，他们的 Base model 训练的数据做过处理;
l 有一种处理方案，我们可以利用基础版本的 GPT3 模型对于数据的理解能力，将所有数据筛一遍，让 GPT3 模型去判断数据的好坏，把显著低质量的数据筛掉，用剩下的数据训练一个新的基础模型，再辅助后续的 instructGPT，这应该是一个更大型的 Loop;
由于 ChatGPT 对于技术的保密性，大部分人对于聊天机器人的认知是:基于预训练的 Base Model(如 GPT3)进行 Alignment 微调(Fine-tune)，但从 Anthropic 发布论文看，他们的对话机器人在 Base Model 的训练阶段对于数据进行处理，这种技术路线可以更好地服务于微调后的结果表现，未来有望成为主流。
3) OpenAI 的文化是追求美的，他们一直追求用更少的人力去抵达更好的效果:
l 无论是之前的 GPT2、GPT3，还是之后的 InstructGPT，OpenAI 都非常排斥大量的人工标注，他们觉得人工表述是不美的东西，InstructGPT 只需要非常少的人力，比如 40 个 contractor 和一些很有限的标注，就能达到一个比小的模型好 100 倍的效果;
l 另一个创新是 Reward Model，它不会直接让这些模型去评判结果，并不会给出一个选择题，而是会给出一个排序题，他会给出四五个结果，让人对这些结果进行排序，训练一个负责排序的模型叫 Reward Model，抵达和人类似的效果;
l 训练模型去预测排序，会简单很多，它的效果和人的效果类似，在第三
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

步的 RLHF 的阶段，其实不需要任何人类的标注，只是让它的基础模型去拟合排序函数，通过预测人类排序，就可以达到很好的效果，这是一个非常非常美的东西;
l 所以 InstructGPT 只在前两步用到了人类标注，第一步是对人类反馈进行监督学习，第二步就是人类对模型的回答给出基本的排序，去训练一个排序模型;
l 第三方数据标注公司在大模型领域没有拿到很大额的订单，远不如过去自动驾驶行业的数据标注的生意量，因为 RLHF 并不需要人类标注，就可以让数据引擎滚动起来。
InstructGPT 论文被人视作 ChatGPT 的关键技术基础，其中引入了人类反馈强化学习 (RLHF)过程取代了 Fine-tune 过程，其过程如下:

收集演示数据，借助对数据属性标注的方式训练一个监督规则并对基础模型微调; 2. 收集不同生成结果的对照数据，借助人工排序的标注方式训练一个奖励模型
(Reward Model);
基于奖励模型和强化学习对于生成策略进行优化;
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

医疗领域的标注需求不是特别大:
l 目前采用的方法是与药企合作，药企会有一些单病种的路径和临床共识，建立合作后大概会有 300 个编辑来做标注工，而建立起模型后会通过 SaaS 将标注任务给到一些小医生;
l 这种标注链路改变了学术会议的模式，目前的客户像勃林格 (Boehringer Ingelheim)都很 buy in 这种标注流程。
Q17:OpenAI 闭源模型和 Stability 开源模型的未来发展路径
对开源模型与闭源模型的选择考量:
l 开源模型的搭建需要一定的资源投入，具有一定成本以及搭建门槛，因
此开源模型的大面积铺开有难度;
l 受限于成本价格，大多数人会愿意使用 API，少量有需求的人会开发垂
直或产品专用模型;
l OpenAI 的接口目前除了价格便宜外其他优势并不明显，还需要 OpenAI 去发展在其他领域的公司与服务;
l 开源与闭源的选择是应用层公司的 ROI 问题。下游公司调用开源模型需要投入人力与研发成本，接入闭源模型需要花费 API 接口费用，这两种选择方式的投资回报比比较，是应用层公司选择开源还是闭源模型的关键;
l 开源与闭源模型对行业的未来发展影响并不关键。即使模型是闭源，也并不能阻碍别的技术路线重新出现。开源模型对国内的帮助更大，可以在开源模型的基础上做二次迭代。
开源模型与闭源模型未来的发展路径:
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

l AI 开源模型与闭源模型的对比，相较于 Android 与 iOS，更像硬件领域中 X86 与 RISC-V 的对比，不仅仅是技术层面的模型，也涉及到硬件与商业模式方面的比较;
l OpenAI 的未来发展方向可能有两个:
Ø 专注于技术方面的 Break through，保持自身的技术公司属性;
Ø 创建自身的开发 Ecosystem，让大家在 big Ecosystem 去更 flexible 的开发;
Ø 两个方向可能冲突，也可能不冲突，OpenAI 作为初创公司，大家希望看到的是他形成一个大生态，让大家更好地去开发。
l OpenAI 可能想以一个偏硬件的方式去做 Lark language model 的商业化生意;
l 开源模型目前仍需进一步发展，未来可能会细化为 Domain 与 AGI 两个方向;
l 闭源模型的 API 服务不能仅凭借技术实现自身的进一步发展，仍然需要运营服务的支撑。
3) AI 模型未来可能的发展:
l AI 模型生态核心的区别在于开源模型能不能比较好地收集到各类真实
的、高价值的商业场景反馈数据;
l OpenAI 之所以被看好，因为它既闭源，又有非常多 API 生态，可以把很多场景中真实用户的反馈以及高价值清洗过的数据训练出来，能够形成数据的规模效应;
l 无论开源模型还是闭源模型，其他 AI 玩家的数据反馈，能不能比较好的被外部所利用，会产生什么样的方法与商业模式，还有待观察;
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

l 在 transform 算法的特性上，算力在进行指数级的提升，但 performance 的提升越来越慢;
l 下一代算法是谁提出仍然有非常大的不确定性。谁能拥有更丰富数据，拥有整个产业链，特别是大模型都需要进一步的观察。
Q18:对比 PC → Mobile 的特征变化，LLM 带来了哪些本质变化? 1) LLM 大语言模型所带来的技术迭代:
l ChatGPT 的本质进步在于对人类知识的现象进行编程，这一点是范式思维的转变，是技术本质上的飞跃;
l OpenAI 的接口处理信息聚焦于 query，无法做到判断人类真实的需求，这需要进一步的创新;
l 大语言模型将人还原到更多维度的形态，进而形成多模态的商品，这与早前将人还原为特征的关键词的算法有本质区别。短视频的兴趣挖掘算法，可以依靠大语言模型理论实现更加深刻的需求挖掘，同样也可以应用于商品匹配等领域;
l 数据颗粒度可能会是比较关键的一个变化。大语言模型会带来数据颗粒度与数据体量的变化，结构化的数据生产会增多，会使得 data 公司与 SaaS 公司受益;
l OpenAI 的数据质量较高，但是其数据处理过程尚未公布。OpenAI 对 ChatGPT 的数据训练过程构成了其技术护城河。
2) LLM 大语言模型带来的增长点:
l 大语言模型的应用场景与移动互联网区别相差不大，并没有改变我们 distribution，这与 PC 向 Mobile 的转移有一定的区别。AI 以及 LLM 在底层上对软件的评判标准有没有影响是值得商榷的;
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

l 大语言模型对判断 Business 好坏的影响，在于数据层面。对生意好坏的判断标准很大程度上看它能不能逐渐真正地形成数据飞轮，看他能不能不断地为用户提供服务，然后用户不断地为它生成新的数据;
l 比较优质或有潜力形成数据飞轮的业务，可能可以控制端设备，并能持续获得用户所生产的数据;
l 从资产端与产业链角度而言，AI 大语言模型带来了存量与增量两个方面的增长;
l 从增量板块与存量板块而言，AI 大模型会带来几方面的增长点:
Ø 增量板块而言，供给侧技术的突破，可以形成独特的中国投资的视
角，具体而言，有两大类板块的企业值得关注:
n 中国底层的基础设施与红色产业链，会在 AI 价值上进行重估。中国也会形成自身的底层板块，出现一系列的产业链工具以及相应环节，会形成相应的机会点;
n AI 会将 SaaS 没做成的 ToC 的事情打通。AI + RPA、教育等都是 ToC 类的增量产品，是有机会点的。
Ø 存量板块而言，大语言模型所能带来的机会点也分为两类:
n 中国的 AI + SaaS 会有相应的发展。作为存量板块，其判断逻辑
应比较朴素，遵循对 SaaS 公司的业务指标判断就可以;
n 存量板块另一类是中国常规软件生意中最成熟的项目制。AI 的
参与可以在某些场景中提升项目的毛利。
3) LLM 大语言模型带来的深度变化:
l 移动互联网基于 LBS 等技术，在短视频领域创造出了最成功的体验与价值。而 AI 的增量与价值市场目前尚未明确，AI 结合的行业中，哪个行业最成功地提升了人的体验，值得进一步的关注;
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

l 对于 ToB 端来讲，大语言模型可以带来业务协作模式的变化，SaaS 系统的交互方式可能会演变为另外一种形态，成为集成了 AI 的 IM 的入口，成为访问企业里面所有 SaaS 业务流程，还有数据库的一个超级入口;
l 如果 GDP、 GPT 等技术当成一种生产资料，它会带来成本上的变化。例如在内容创作领域，虚拟人直播、自动生成图片等将广泛应用。 GBD 会优先渗透到那些有明确经济价值的场景，内容创作领域的成本是可以通过 AI 实现降低的;
l AI 技术的应用也会随着老龄化、劳动力缩减而被广泛推广，AI 将成为保持社会协作效率的重要工具。文案、售前等都会通过 AI 实现大规模的效率提升;
l AI 会带来社会分工的变化。例如 0 代码产品的存在，可以使得懂业务的人将脑海中的想法落地。
Q19:OpenAI 能赚百亿美元营收大钱的商业化业务会是什么?

OpenAI 可能会做消费级的的硬件设备，例如新的手机、新的“小度”。不过硬件的提升速度赶不上软件与算法的发展，硬件的发展不一定依靠 OpenAI 而实现。
OpenAI 的护城河在哪里?
l 数据被认为是技术公司的护城河，但 OpenAI 包括 ChatGPT 并没有形成数据飞轮，因为它爬的数据都是全网的数据。OpenAI 并没有积累太多数据，ChatGPT 前，接入 OpenAI API 的寥寥无几。此外，ChatGPT 获得很多的 query，形成数据飞轮后，目前 OpenAI 还没有利用到，后续的如何利用以及隐私方面的保护都需要关注;
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

l 人才是 OpenAI 最大的护城河。OpenAI 有很强使命感以及技术生命力，以至于即使它的 paper 公布了，其他家也没法 reproduce 出来;
l OpenAI 的技术属性以及人才护城河，可能使他不具备商业化的基因。 OpenAI 可能没有那么强的动力去做商业化，它的真实想法还是 move forward technology。
3) OpenAI 内部也有一种观点，认为商业化对未来几十亿美元量级的研发投入是重要的。依靠商业化的收入，才可以实现更大的研发投入。同时， OpenAI 也为其他创业公司提供了可能的商业化价值点，其对互联网、对科技的商业模式的影响目前还没能看出来。
4) OpenAI 的百亿营收是很容易想象的。可以类比 Apple 从 App Store 上赚的钱以及 Google 依靠基础模型的营收能力。OpenAI 构建了基于人类知识的技术底座，形成了基础模型，能够提供各种各样的服务，所以其营收方式以及相应空间是极大的。
5) OpenAI 会发展出更新的商业模式吗?
l OpenAI 有可能还是在游戏、广告、电商和会员等商业模式上发力。如发展出虚拟的陪伴，虚拟机器人、元宇宙等形态，这 4 种模式和这 4 种模式的排列组合可以是未来 OpenAI 的商业模式方向;
l OpenAI 可能不会在硬件方向上发力。未来 5 年可以预见到 AI 能够极大地提升各种模态的生产效率，但是同时这次革命又非常吃算力、吃芯片，可以想见芯片的提升、云到端的延迟等提升是相对缓慢的;
l OpenAI 未来的所投资方向代表着其认为可以营收的方向。如，它投资了芯片、教育、问答等。因此对于 OpenAI 公司本身而言，未来会成为一个非盈利性的公司。
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。

Q20:微软对 OpenAI 的加分项和减分项 1) 减分项:
l 微软可能让 OpenAI 会更早的考虑商业化。微软推出了的 Bing Chat 是对 OpenAI 进行的比较大的分析，这也导致了 OpenAI 从开源的技术心态转向闭源的原因;
l ChatGPT 已经作为产品形态出现，但相关论文并没有，这种闭源状态不是很好的现象。
2) 加分项:
l 在微软端的应用是 OpenAI 更好的选择，ChatGPT 可以噫风险比较少的方式普及到全人类，这与 AGI 的愿景是比较贴合的，如果交给广告公司来做，并不一定能起到最好的效果;
l OpenAI 让整个行业更卷了，实现了人类技术上的突破，对整个人类社会是有帮助的。
待讨论问题
如何看待大模型系统涌现性?
本报告内容仅作为与报告接受者商业沟通之用途，双方需对本报告内容严格保密，不得外泄或用作商业用途。本报告的内容仅供报告接收方参考，不构成任何投资建议，亦不构成拾象团队对于报告内容的任何要约或承诺。