实验一:手写数字识别

一、实验目的

利用深度学习实现手写数字识别,当输入一张手写图片后,能够准确的识别出该图片中数字是几。输出内容是0、1、2、3、4、5、6、7、8、9的其中一个。

二、实验原理

(1)采用用全连接神经网络训练
全连接神经网络模型是一种多层感知机(MLP),感知机的原理是寻找类别间最合理、最具有鲁棒性的超平面,感知机最具代表的是SVM支持向量机算法。神经网络同时借鉴了感知机和仿生学,通常来说,动物神经接受一个信号后会发送各个神经元,各个神经元接受输入后根据自身判断,激活产生输出信号后汇总从而实现对信息源实现识别、分类,一个典型的神经网络如下图所示:
image.png
上图是典型的全连接神经网络模型(DNN),有的场合也称作深度神经网络,与传统的感知机不同,每个结点和下一层所有结点都有运算关系,这就是名称中‘全连接’的含义,在实践中全连接神经网络通常有多个隐藏层,增加隐藏层可以更好分离数据的特征,但过多的隐藏层也会增加训练时间以及产生过拟合。
在训练全连接神经网络时,先是通过前向传播,得到预测结果,再反向传播去调整模型权重。
(2)反向传播
反向传播根据前向传播产生的损失函数值,沿输出端向至输入端优化每层之间参数,在此过程中运算利用梯度下降法优化参数,神经网络求解参数本质上仍然是规划中求最优解问题,现代机器学习框架如Tensorflow、pytorch、keras将梯度下降法、Booting、Bagging这些优化中常用技巧封装起来,开发者只要专注于数据建模即可。
(3)训练mnist手写数字识别
利用交叉熵作为损失函数实现对minist数据集的识别,minist数据集是手写数字的图像样本,DNN识别图像的过程就是把图像正确的归为0-9这10个数字,所以这是一个分类算法的实现。

三、实验内容

(1)训练模型
数据集:采用TensorFlow2.3的TensorFlow-datasets内置的mnist数据集
神经网络:全连接
损失函数:分类交叉熵
优化器:Adam
评价准则:准确率
Epochs:100
(2)测试模型
测试集:采用TensorFlow2.3的TensorFlow-datasets内置的mnist数据集,形状改为28*28
(3)环境

Python 3.8 TensorFlow 2,3 Tensorflow_datasets 2.1 scipy numpy PIL matplotlib scipy

四、实验过程

(1)导入包

  1. import os
  2. import scipy
  3. import tensorflow as tf
  4. import tensorflow_datasets as tfds
  5. import matplotlib.pyplot as plt
  6. import numpy as np
  7. from PIL import Image

(2)导入Mnist数据集并标准化数据

  1. # 载入mnist数据集
  2. dataset, metadata = tfds.load("mnist", as_supervised=True, with_info=True)
  3. mnist = tf.keras.datasets.mnist
  4. (x_train, y_train), (x_test, y_test) = mnist.load_data()
  5. x_train, x_test = x_train / 255.0, x_test / 255.0
  6. x_test, y_test = x_test / 255.0, y_test / 255.0

(3)搭建全连接模型

  1. model = tf.keras.models.Sequential([
  2. tf.keras.layers.Flatten(),
  3. tf.keras.layers.Dense(128, activation=tf.nn.relu),
  4. tf.keras.layers.Dropout(0.2),
  5. tf.keras.layers.Dense(10, activation=tf.nn.softmax)
  6. ])

(4)训练模型并保存模型权重

  1. # 模型保存路径
  2. checkpoint_path = "model/cp.ckpt"
  3. checkpoint_dir = os.path.dirname(checkpoint_path)
  4. # 创建一个保存模型权重的回调
  5. cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_path,
  6. save_weights_only=True,
  7. verbose=1)
  8. # 训练模型的配置
  9. model.compile(optimizer='adam',
  10. loss='sparse_categorical_crossentropy', metrics=['accuracy'])
  11. # 开始训练模型
  12. model.fit(x_train, y_train,
  13. validation_data=(x_test, y_test),
  14. epochs=100,
  15. callbacks=[cp_callback])

(5)测试模型

  1. path = './test_pic/mnist_train_0.jpg'
  2. im = Image.open(path)
  3. plt.imshow(im)
  4. plt.show()
  5. pic = np.array(img2vec(path))
  6. print("\n识别结果:\n{}".format(np.argmax(model.predict(pic.reshape(1, 28, 28)))))
  7. print()

(6)工具函数,把图片统一大小并二值化

  1. def img2vec(path):
  2. '''
  3. jpg转换为向量
  4. Args:
  5. path: the path of your pic
  6. '''
  7. try:
  8. im = Image.open(path).convert('L')
  9. im = im.resize((28, 28))
  10. tmp = np.array(im)
  11. vec = tmp.ravel()
  12. return vec
  13. except:
  14. print("图片不存在")

五、实验分析

(1)训练过程
Epoch=100,训练准确率能达到99.6%

  1. Epoch 98/100
  2. 1850/1875 [============================>.] - ETA: 0s - loss: 0.0117 - accuracy: 0.9962
  3. Epoch 00098: saving model to model/cp.ckpt
  4. 1875/1875 [==============================] - 3s 1ms/step - loss: 0.0118 - accuracy: 0.9962 - val_loss: 1.9510 - val_accuracy: 0.0000e+00
  5. Epoch 99/100
  6. 1867/1875 [============================>.] - ETA: 0s - loss: 0.0121 - accuracy: 0.9962
  7. Epoch 00099: saving model to model/cp.ckpt
  8. 1875/1875 [==============================] - 3s 2ms/step - loss: 0.0121 - accuracy: 0.9962 - val_loss: 2.0950 - val_accuracy: 0.0000e+00
  9. Epoch 100/100
  10. 1863/1875 [============================>.] - ETA: 0s - loss: 0.0113 - accuracy: 0.9961
  11. Epoch 00100: saving model to model/cp.ckpt
  12. 1875/1875 [==============================] - 3s 1ms/step - loss: 0.0113 - accuracy: 0.9961 - val_loss: 1.8876 - val_accuracy: 0.0000e+00

(2)测试模型
mnist_train_2.jpgmnist_train_3.jpgmnist_train_1.jpgmnist_train_0.jpg
保存mnist的200张图片作为预测使用,能准确预测出图片中的数字。

六、实验体会与心得

该手写数字识别是入门深度学习最简单的例子,数据集小,实现简单,通过对一个这个例子的实现,明白了深度学习的计算步骤。以及实现的流程。可以入门更难的例子。