:::color2 👏 Hi~,我是『AGI舰长』,欢迎来到 AGI 课堂的 2024 开源版 AI 知识库。
🎯** 深入度链接,请前往[AI全栈大模型通识课堂](https://www.yuque.com/lhyyh/agi/introduce),以打造一个『人人都能学会的 · AI 全栈通识课』**为宗旨
课程共分为五个单元共78+节(持续更新),并提升职场竞争力,跳槽,升职,加薪,实现自我超越! ::: :::color1 🙋 个人介绍 **👉🏻** ::: :::color5 🙋 AI 工具 **👉🏻** ::: :::info 🙋 开源版知识库**👉🏻** ::: :::warning 🙋 AI全栈通识课堂 ::: —- :::color5 关注 AI 的小伙伴,相信都看到过很多 AI 术语,对于其概念一知半解。 比如:AI、AIGC、多模态、AGI、Transformer、NLP、Agent、RAG、向量化、大模型、ChatGPT…… 这些 AI 术语缩写到底是什么?有什么区别? 本问旨在做概念解读,各领域更详细的知识请看其他文章 ::: # 一、基本概念 ## 1.1 AI 工作原理 :::color1 AI,全称 Artificial Intelligence,人工智能。顾名思义,让机器发展出像人一样的智能,可以看到、听到、思考、判断,然后根据经验作出决策。而 AI 之所以能够走向现实生活,影响到多个行业领域的生产工作,离不开三个重要技术的支撑:深度学习、神经网络以及生成式对抗网络(GAN)。 ::: 1、神经网络 神经网络是一种模拟人脑神经元连接的算法模型。你可以把神经网络想象成一个大脑。就像大脑由许多神经元相互连接构成,神经网络也由许多”节点”或”神经元”通过”链接”相互连接。这些链接就像我们大脑中的神经连接,可以传递和处理信息。 2、深度学习 如果说神经网络像一个普通大脑,深度学习则是一个更加“聪明”的大脑。在这个“大脑”里,神经元被组织成许多层,这就像大脑的不同区域处理不同的任务一样。每一层都在学习和处理数据的不同特征或部分。这就使得深度学习能够处理非常复杂的问题,比如识别图像或理解自然语言。 3、生成式对抗网络(GAN) GAN 技术可以说是推动这次 AIGC 热潮的关键技术,有了它,AI 才能够生成逼真的图像、音频和文本。 你可以把 GAN 的工作原理想象成是一个艺术家和艺术评论家的竞赛。艺术家(生成器)的工作是创造看起来真实的艺术作品,而艺术评论家(判别器)的任务是判断这个作品是否真的来自真正的艺术家,还是来自我们的 AI 艺术家。艺术家(生成器)开始时可能不太擅长制作逼真的作品,而评论家(判别器)也可能并不擅长识别真伪。但是,随着他们不断的竞争,艺术家的作品变得越来越逼真,评论家的判断能力也越来越强。 在这个不断生成和对抗的过程中,AI 逐渐学会了如何创作看起来非常真实的作品。 ## 1.2 AI 大模型/预训练大模型 AI 大模型是一种机器学习模型。它可以学习和处理更多的信息,比如图像、文字、声音等,也可以通过训练,完成各种复杂的任务。比如智能语音助手和图像识别软件都会用到 AI 大模型。 这里的「预训练」,可以理解为像学生学习知识一样,机器也需要通过学习和训练来获取相关的知识和技能,来完成各种任务。AI 预训练大模型可以通过不同领域的大量训练,掌握知识和技能。 由 OpenAI 公司开发的模型 GPT 就是一种大型语言模型,也是预训练模型的一种,它能够自动生成各类文本,比如新闻报道、小说,也可以回答问题、写文章、进行对话。GPT 是目前自然语言处理领域最为先进的自然语言生成模型之一。 ## 1.3 AIGC ### AIGC 概念 全新的时代,AIGC 全称是指“Artificial Intelligence Generative Content”,可以翻译为“生成式 AI”,意思是人工智能生成内容。即 AI 接收到人下达的任务指令,通过处理人的自然语言,自动生成图片、视频、音频等。而 2023 年 3 月 14 日发布的 ChatGPT 就是 AIGC 的一款具体产品。 ChatGPT 是由 OpenAI 公司研发的对话程序。它是 AI 驱动的自然语言处理工具,能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流。 ### AIGC 内容生成的时代变迁 打个通俗点的比方,AIGC 就像一支马良神笔,拥有的无尽创造力。这支笔的特别之处在于,是由 AI 打造的。来自 AI 的理解力、想象力和创作力的加持,它可以根据指定的需求和样式,创作出各种内容:文章、短篇小说、报告、音乐、图像,甚至是视频。AIGC 的出现,就像是打开了一个全新的创作世界,为人们提供了无尽的可能性。**从用户生成内容(UGC),到专业生成内容(PGC),再到现在的人工智能生成内容(AIGC),我们看到了内容创作方式的巨大变革和进步。 _AIGC 的特点是:高效、个性化、数据驱动、自动智能_ ### AIGC 的作用与地位 AIGC 的突猛发展,正在重新塑造着内容创作生态。当常识能被机器识别,当艺术被重新定义,当创意不再需要人工,广告营销行业将迎来一场生产变革巨浪。 ### AIGC 可以生成的内容 AIGC 可以生成的内容很多,具体的种类和范围可能随着技术的发展而不断扩大。目前,一些常见的 AIGC 内容包括: + 文字:**最基本的 AIGC 内容,可以与人类进行实时对话,生成不同风格的文字,诗歌、故事,甚至计算机代码等。 + 图像:**可以由文字或者图片,直接生成各种类型的图片。可以辅助人类进行绘画设计和发散想象力,大致可以分为图像自主生成工具和图像编辑工具两类。 + 视频:**可以通过文字描述,生成一段情节连贯的视频。比如广告片、电影预告片、教学视频、音乐视频等。也可以当作视频的剪辑工具。 + 音频**:可以生成逼真的音效,包括语音克隆、语音合成、文本生成特定音,音乐生成、声音效果等。 + 游戏:**游戏的剧情设计、角色设计、配音和音乐、美术原画设计、游戏动画、3D 模型、地图编辑器等都可以让 AIGC 帮助完成。 + 虚拟人:可以生成虚拟明星、虚拟恋人、虚拟助手、虚拟朋友等。指存在于非物理世界(如图片、视频、直播、一体服务机、VR)中,并具有多重人类特征的综合产物。 ### AIGC 的常见应用场景 日常工作、生活中常见的场景举例如下: 常见 AI 工具举例如下: ### AIGC 和 ChatGPT 的关系 首先要理解一个事儿就是 AIGC 和 ChatGPT 的关系。 AIGC 是 AI 大模型,特别是自然语言处理模型的一种重要应用;ChatGPT 则是 AIGC 在聊天对话场景的一个具体应用。**可以把 AIGC 看作是一个大的范畴,而 ChatGPT 是其中一个类别的小应用。 ChatGPT 是由 OpenAI 开发的一款大型预训练语言模型,就像一个会聊天的机器人。 它可以理解你说的话,并给出回答。这个机器人在互联网上读了很多书、文章,学到了很多知识,所以可以回答各种问题,甚至进行深入的讨论。不过,ChatGPT 的理解与人类不同,人类理解事物时,有意识、经验和情感等多个层次的参与,而 ChatGPT 只是通过分析和模拟大量的文本数据来”学习”如何合理地回应。 ## 1.4 多模态 在许多专家领袖对于 AI 的预言中,多模态 AI 是一个高频关键词。 多模态 AI,即能够处理和理解多种类型数据(例如图像、文本、音频等)的人工智能。目前的 AI 技术大多只能处理文字数据,而多模态能够理解更多类型的信息【比如 MJ 为代表的文生图 + Sora 为代表的文生视频】。 比如,你在看一部没有字幕的外语电影,而你并不懂这种语言。如果有一个多模态 AI,它可以同时理解电影中的视觉和听觉信息,然后把这些信息转化为你能理解的语言,为你提供实时的字幕。这就是多模态 AI 的应用场景之一,它可以处理并理解多种类型的信息,以帮助我们更好地获取和理解信息。 ## 1.5 AGI-Agent Artificial General Intelligence,即“通用智能人工”,这是另一个与 AI 未来相关的高频词汇。它指 AI 能够在所有领域中,像人类一样学习各种知识,完成各种任务。AGI 是人工智能的一种理想状态,也可以说是 AI 研究的终极目标,即让机器拥有与人类等同的“智能体-Agent(如:AutoGPT、MetaGPT、XAgent )”。 现在的 AI 技术,虽然在特定任务上表现出超越人类的能力(如围棋、图像识别等),但它们仍然只是“窄”AI,仅限于特定任务。虽然研究者们对实现 AGI 的未来充满了希望,但这是否能在未来的某个时刻实现,以及何时能够实现,现在还不得而知。**【但 2024 年 2 月 16 日 Sora 的发布,将会加快这个步伐】 ## 1.6 提示词工程师 prompt 提示词工程师像是 AI 模型的导演,负责设计和优化指导 AI 行动的语言提示。 他们了解 AI 模型的工作原理,并使用这些知识来优化语言提示,从而引导 AI 模型产生更好的结果。他们的工作可以涵盖多种任务,比如提升 AI 对问题的理解,优化 AI 的回答,甚至引导 AI 生成全新的内容。这项工作更偏向语言艺术和人工智能的交叉领域。 更详细的教程可以看另一篇文章👇 ⛳ ChatGPT prompt 合集 ## 1.7 自然语言处理(NLP) NLP (全称:Natural Language Processing)自然语言处理 是人工智能的一个重要分支,它研究如何让计算机理解和处理人类语言。NLP涵盖了许多任务,包括语音识别、自然语言理解、自然语言生成和机器翻译等。 自然语言处理(NLP)就像是教计算机理解和使用人类语言的一种技术。举个例子,当你对手机说:“打开天气应用,查看明天的天气。”这就涉及到了自然语言处理。你的手机需要理解你的指令——这是什么意思,你想做什么,然后才能执行正确的动作。 自然语言处理需要用到很多开源的工具和软件,它们能够帮助研究员处理语言数据,大大降低开发的门槛,让自然语言处理技术的进步的速度变快。 ## 1.8 Transformer 2017年 Google Research推出了Transformer模型。谷歌官方论文“Attention Is All You Need ”介绍了Transformer,一种有助于语言理解的新神经网络架构。在Transformer出现之前,机器不太擅长理解长句子的含义,也无法看到相距较远单词之间的关联。Transformer极大地改善了这一点,并成为当今语言理解和生成式人工智能系统的基石。它彻底改变了机器执行翻译、文本摘要、问题回答甚至图像生成和机器人技术的含义。 Transformer 是一种深度学习模型架构,它主要使用了自注意力(Self-Attention)机制来处理序列数据。与传统的RNN(循环神经网络)和CNN(卷积神经网络)不同,Transformer可以并行处理序列中的所有元素,并且能够捕捉序列中的长距离依赖关系。Transformer 将“编码器-解码器”架构与文本处理机制相结合。 ## 1.9 RAG & 向量化 ### 1.9.1 RAG RAG(Retrieval Augmented Generation)顾名思义,通过检索的方法来增强生成模型的能力。在向大模型输入提示词之前,需要先通过向量数据库的相似性检索,做 prompt 检索增强。 ### 1.9.2 向量化 向量化是一种将数据转换成向量(即数值数组)的过程,这样可以让计算机更高效地处理和理解这些数据。在机器学习和人工智能领域,向量化是一种常见的数据预处理方法,尤其是在处理文本、图像和声音等非结构化数据时。通过向量化,我们可以将这些复杂的数据转换成标准化的数值形式,从而便于使用算法进行分析和处理。 向量化的技术手段: 1. 文本向量化:将文本转换成向量的过程。常见的方法包括词袋模型(Bag of Words, BoW)、TF-IDF(Term Frequency-Inverse Document Frequency)、Word2Vec、BERT等。这些方法可以将单词、短语或整个文档转换成数值向量,以便进行进一步的处理和分析。 2. 图像向量化:将图像数据转换成向量的过程。这通常涉及将图像的每个像素值转换成向量中的一个元素,或者使用更高级的方法(如卷积神经网络CNN)提取图像的特征并将这些特征表示为向量。 3. 声音向量化:将声音信号转换成向量的过程。这可以通过提取声音信号的特征(如梅尔频率倒谱系数MFCC)来实现。 ## 1.10 向量数据库2、常见的 AIGC 应用
2.1 ChatGPT
ChatGPT 是由 OpenAI 开发的一款大型预训练语言模型,就像一个会聊天的机器人。
它可以理解你说的话,并给出回答。这个机器人在互联网上读了很多书、文章,学到了很多知识,所以可以回答各种问题,甚至进行深入的讨论。不过,ChatGPT 的理解与人类不同,人类理解事物时,有意识、经验和情感等多个层次的参与,而 ChatGPT 只是通过分析和模拟大量的文本数据来”学习”如何合理地回应。
2.2 Midjourney
Midjourney 是由美国旧金山的一家独立研究实验室创立的图片类 AIGC 应用程序,我们可以通过语言描述来生成图片。比如,输入一个苹果,它就会为你生成出一张苹果的图片。
:::color1
📍MidJourney 终极宝典
📍【手机版】AI绘画软件及教程
📍如何省下百元充值 Midjourney 会员?
📍AI 绘画精品 prompt 案例合集—持续更新
📍免费无限白嫖最新PS beta版的AI功能!
📍**万字总结:[Midjourney 进阶手册](https://ydyrb84oyc.feishu.cn/docx/MiEQdY8kVoBlYmxoUqUcPqJ6noe)「[需移步星球](https://mp.weixin.qq.com/s/7rEZNtEPSdtwySki_pvPDw)」**
:::
2.3 Stable Diffusion
图片生成类 AI 大模型,可以在给定的任何提示词下生成图像,并支持根据关键词和图片检索。与 Midjourney 相比,生成图像的结果更可控。
:::color1
📍Stable Diffusion 终极宝典
📍SD关键词分类查询—javastarboy
🌎** [Stable Diffusion 进阶手册](https://ydyrb84oyc.feishu.cn/docx/CCEidE496orBNOx6mZdcduVjnCW)「[需移步星球](https://mp.weixin.qq.com/s/7rEZNtEPSdtwySki_pvPDw)」**
:::
2.4 Sora
OpenAI 推出全新的生成式人工智能视频模型“Sora”。据悉,通过文本指令直接生成长达60秒的视频,其中融合了精致复杂的背景、多维度的镜头切换,以及充满情感的多角色演绎。
这意味着,OpenAI将其尖端人工智能技术拓展至视频领域,真正的“多模态”已经到来!继文本和图像之后Sora作为理解和模拟现实世界的模型,将成为实现通用人工智能(AGI)的重要基石。虽然业内对于OpenAI视频生成模型的问世早有所料,但依然有人认为“进展之快超乎想象”,也有人振奋地表示“新工业革命已步步逼近”。
正在更新中,敬请期待…学习更多关于 AI 大模型全栈知识👇
:::danger 🌈** AI大模型全栈通识课程**👇
:::
:::color1 🙋 个人介绍 **👉🏻**
:::
:::color5 🙋 AI 工具 **👉🏻**
:::
:::info 🙋 开源版知识库**👉🏻**
:::
:::warning 🙋 AI全栈通识课堂
:::
✅免责声明
素材来源于网络以及个人总结,仅供个人学习交流无商业用途,版本归原创者所有
如有侵权请及时与我联系(微信:AGI舰长-LHYYH0001)删除