基础知识篇:深度学习模型训练与部署
lesson1️⃣ 认识人工智能与深度学习
提起 AI,大家脑海中会出现什么画面?是影视作品中无所不能的智能机器人,还是日常生活中随处可见的人脸识别、智能驾驶?是火遍社交媒体的 AI 作图、AI 对话,还是工业生产、电子安防中的可靠伙伴?广义上讲,任何能够从事某种智能活动的计算机程序都是人工智能(Artificial Intelligence)。
聊人工智能,也就绕不开深度学习(Deep Learning),深度学习是一种人工智能方法,通过模拟人脑神经网络对知识的学习,挖掘数据(如图像、文本和声音)背后的特征,在计算机视觉、自然语言处理等多个领域表现出惊人的效果。例如,文心一言背后的 ERNIE 文心大模型就是一种深度学习模型。
人工智能与机器学习、深度学习是层层包含的关系,随着深度学习技术的发展,尤其是生成式人工智能(GenAI) 的飞速进步,深度学习技术已逐渐成为人工智能时代的代表性技术。
深度学习的核心原理是通过多轮次迭代,使得神经网络学习出数据(如图像、文本和声音)背后的特征,我们称之为模型训练。训练好的模型可以在同分布的测试数据上泛化推理,得出符合预期的结果。由于深度学习模型的这一泛化特性,使得模型能够从事某种智能活动(对训练数据以外的新数据进行推理),如识别未见过的行人、生成未见过的视频等。
下图展示了深度学习模型的训练原理。首先,我们需要搭建模型结构(通常是端到端的神经网络),准备训练数据(这个数据量通常较大)。准备工作完成后,我们把数据送入模型中进行前向计算,包括向量矩阵运算、非线性变换等,各层神经网络依次计算后,对输出结果进行目标函数(损失函数)计算,来确认本次前向计算和目标结果之间的差值。之后进行反向传播,即通过链式法则求导,计算各层梯度,基于梯度的数值优化参数求解,运用随机梯度下降(stochastic gradient descent,SGD)算法更新神经网络各层节点。这样的过程我们称之为一次迭代。通过数次迭代,神经网络会逐渐拟合到训练数据的高维分布,目标函数逐渐降低,我们称之为训练收敛。
完成训练的深度学习模型包含模型结构和权重参数,在推理阶段,预测数据送入模型后与各层权重参数进行数值计算,得出推理结果。这里需要注意,同样的模型结构由于训练数据和训练过程可能不同,会产生不同的权重参数,直接影响模型的推理结果。也就是说,即使是相同的模型结构,有的模型权重可能更擅长识别动物,而有的模型权重更擅长识别服饰。
学习提示 🐝
恭喜你完成了本节课程的学习!在这节课程中,我们了解到一种重要的人工智能方法——深度学习,并初步认识到深度学习背后复杂的数理知识与数值计算。
如何进行自己的深度学习模型训练?使用深度学习框架有何助益?下一节我们将会了解深度学习框架——飞桨 PaddlePaddle