1 简介

VGGNet是2015年在ICLR会议中,公开的神经网络模型,这个模型在2014年imagenet比赛中获得了定位的第一名和分类的第二名的好成绩。

2 基本方法

Google官方文档介绍
(1)tf.placeholder用于传入真实训练样本/测试、真实特征、待处理特征,仅占位,不必给初值,用sess.run的feed_dict参数以字典形式喂给x:

images = tf.placeholder(tf.float32, shape =[BATCH_SIZE, IMAGE_PIXELS])

截屏2020-12-22 上午9.46.58.png
(2)np.load /np.save将数组以二进制格式读出或写入磁盘,扩展名为.npy

np.save(“名.npy”,某数组) 某变量 = np.load(“名.npy”,encoding =””).item()# encoding可不写,有三个选项latin1 ASCII bytes 默认是ASCII

(3).item()遍历(键值对)

data_dict = np.load(vgg16.npy,encoding=’latin1’).item()#读取vgg16.npy文件,遍历其内键值对,导出模型参数赋给data_dict

(4)tf.shape(a)返回a的维度,a可以为tensor,list ,array
截屏2020-12-22 上午10.01.19.png
(5)tf.nn.bias_add(乘加和,bias)#把bias加到乘加和上
(6)tf.reshape(tensor,[n行,m列])或tf.reshape(tensor,[-1,m列])-1表示行随着m列自动计算
(7)np.argsort(列表)#对列表从小到大排序,返回索引值
(8)os.getcwd() # 返回当前工作目录
(9)os.path.join( , ,…) # 拼出整个路径,可引导到特定文件

vv16_path = os.path.join(os.getcwd(),”vgg16.npy”)

(10)tf.split(切谁,怎么切,在哪个维度切)

  1. #value 是一个【5 30】的张量
  2. split0,split1,split2 = tf.split(value,[4,15,11],1)
  3. value在第一个维度分为4 15 11三份
  4. tf.shape(split0) ==>[5,4]
  5. tf.shape(split1) ==>[5,15]
  6. tf.shape(split2) ==>[5,11]
  7. #把value平均切为三份
  8. split0,split1,split2 = tf.split(value, num_or_size_splits = 3,axis = 1)


(11)tf.conda(值,在哪个维),实现粘贴

  1. t1 = [[1,2,3],[4,5,6]]
  2. t2 = [[7,8,9],[10,11,12]]
  3. #按照第0个维度粘
  4. tf.concat([t1,t2],0) ==>[[1,2,3],[4,5,6][7,8,9],[10,11,12]]
  5. #按照第1个维度粘贴
  6. tf.concat([t1,t2],1) ==>[[1,2,3,7,8,9],[4,5,6,10,11,12]]
  7. ...

(12)fig = plt.figure(‘图名字’)可视化图片

  1. img = io.imread(图片路径)
  2. ax = fig.add_subplot(数 数)#分别是包含几行,包含∏列,当前是第几个
  3. ax.bar(bar的个数,bar的值,每个bar的名字,bar宽,bard色)
  4. ax.set_ylabel("")
  5. ax.set_title("")
  6. ax.text(文字x坐标,文字y坐标,文字内容,ha ='center',va ='bottom',fontsize = 7)

(13)ax = imshow(图)画子图

3 实现

app.py文件

是应用程序,实现图像识别
截屏2020-12-22 上午10.30.15.png

  1. #coding:utf-8
  2. import numpy as np
  3. import tensorflow as tf
  4. #引入绘图模块
  5. import matplotlib.pyplot as plt
  6. #引用自定义模块
  7. import vgg16
  8. import utils
  9. from Nclasses import labels
  10. testNum = input("input the number of test pictures:")
  11. for i in range(testNum):
  12. img_path = raw_input('Input the path and image name:')
  13. #对待测试图像出预处理操作
  14. img_ready = utils.load_image(img_path)
  15. #定义画图窗口,并指定窗口名称
  16. fig=plt.figure(u"Top-5 预测结果")
  17. with tf.Session() as sess:
  18. #定义一个维度为[1, 224, 224, 3]的占位符
  19. images = tf.placeholder(tf.float32, [1, 224, 224, 3])
  20. #实例化出vgg
  21. vgg = vgg16.Vgg16()
  22. #前向传播过程,调用成员函数,并传入待测试图像
  23. vgg.forward(images)
  24. #将一个batch数据喂入网络,得到网络的预测输出
  25. probability = sess.run(vgg.prob, feed_dict={images:img_ready})
  26. #得到预测概率最大的五个索引值
  27. top5 = np.argsort(probability[0])[-1:-6:-1]
  28. print "top5:",top5
  29. #定义两个list-对应概率值和实际标签
  30. values = []
  31. bar_label = []
  32. #枚举上面取出的五个索引值
  33. for n, i in enumerate(top5):
  34. print "n:",n
  35. print "i:",i
  36. #将索引值对应的预测概率值取出并放入value
  37. values.append(probability[0][i])
  38. #将索引值对应的际标签取出并放入bar_label
  39. bar_label.append(labels[i])
  40. print i, ":", labels[i], "----", utils.percent(probability[0][i])
  41. #将画布分为一行一列,并把下图放入其中
  42. ax = fig.add_subplot(111)
  43. #绘制柱状图
  44. ax.bar(range(len(values)), values, tick_label=bar_label, width=0.5, fc='g')
  45. #设置横轴标签
  46. ax.set_ylabel(u'probabilityit')
  47. #添加标题
  48. ax.set_title(u'Top-5')
  49. for a,b in zip(range(len(values)), values):
  50. #显示预测概率值
  51. ax.text(a, b+0.0005, utils.percent(b), ha='center', va = 'bottom', fontsize=7)
  52. #显示图像
  53. plt.show()

vgg16.py文件

读取模型参数,搭建模型
截屏2020-12-22 上午10.31.38.png

  1. #tensorflow学习笔记(北京大学) vgg16.py 完全解析
  2. #QQ群:476842922(欢迎加群讨论学习
  3. #!/usr/bin/python
  4. #coding:utf-8
  5. import inspect
  6. import os
  7. import numpy as np
  8. import tensorflow as tf
  9. import time
  10. import matplotlib.pyplot as plt
  11. #样本RGB的平均值
  12. VGG_MEAN = [103.939, 116.779, 123.68]
  13. class Vgg16():
  14. def __init__(self, vgg16_path=None):
  15. if vgg16_path is None:
  16. #返回当前工作目录
  17. vgg16_path = os.path.join(os.getcwd(), "vgg16.npy")
  18. #遍历其内键值对,导入模型参数
  19. self.data_dict = np.load(vgg16_path, encoding='latin1').item()
  20. def forward(self, images):
  21. print("build model started")
  22. #获取前向传播开始时间
  23. start_time = time.time()
  24. #逐个像素乘以255
  25. rgb_scaled = images * 255.0
  26. #从GRB转换彩色通道到BRG
  27. red, green, blue = tf.split(rgb_scaled,3,3)
  28. #减去每个通道的像素平均值,这种操作可以移除图像的平均亮度值
  29. #该方法常用在灰度图像上
  30. bgr = tf.concat([
  31. blue - VGG_MEAN[0],
  32. green - VGG_MEAN[1],
  33. red - VGG_MEAN[2]],3)
  34. #构建VGG的16层网络(包含5段卷积,3层全连接),并逐层根据命名空间读取网络参数
  35. #第一段卷积,含有两个卷积层,后面接最大池化层,用来缩小图片尺寸
  36. self.conv1_1 = self.conv_layer(bgr, "conv1_1")
  37. #传入命名空间的name,来获取该层的卷积核和偏置,并做卷积运算,最后返回经过激活函数后的值
  38. self.conv1_2 = self.conv_layer(self.conv1_1, "conv1_2")
  39. #根据传入的pooling名字对该层做相应的池化操作
  40. self.pool1 = self.max_pool_2x2(self.conv1_2, "pool1")
  41. #第二段卷积,包含两个卷积层,一个最大池化层
  42. self.conv2_1 = self.conv_layer(self.pool1, "conv2_1")
  43. self.conv2_2 = self.conv_layer(self.conv2_1, "conv2_2")
  44. self.pool2 = self.max_pool_2x2(self.conv2_2, "pool2")
  45. #第三段卷积,包含三个卷积层,一个最大池化层
  46. self.conv3_1 = self.conv_layer(self.pool2, "conv3_1")
  47. self.conv3_2 = self.conv_layer(self.conv3_1, "conv3_2")
  48. self.conv3_3 = self.conv_layer(self.conv3_2, "conv3_3")
  49. self.pool3 = self.max_pool_2x2(self.conv3_3, "pool3")
  50. #第四段卷积,包含三个卷积层,一个最大池化层
  51. self.conv4_1 = self.conv_layer(self.pool3, "conv4_1")
  52. self.conv4_2 = self.conv_layer(self.conv4_1, "conv4_2")
  53. self.conv4_3 = self.conv_layer(self.conv4_2, "conv4_3")
  54. self.pool4 = self.max_pool_2x2(self.conv4_3, "pool4")
  55. #第五段卷积,包含三个卷积层,一个最大池化层
  56. self.conv5_1 = self.conv_layer(self.pool4, "conv5_1")
  57. self.conv5_2 = self.conv_layer(self.conv5_1, "conv5_2")
  58. self.conv5_3 = self.conv_layer(self.conv5_2, "conv5_3")
  59. self.pool5 = self.max_pool_2x2(self.conv5_3, "pool5")
  60. #第六层全连接
  61. #根据命名空间name做加权求和运算
  62. self.fc6 = self.fc_layer(self.pool5, "fc6")
  63. #经过relu激活函数
  64. self.relu6 = tf.nn.relu(self.fc6)
  65. #第七层全连接
  66. self.fc7 = self.fc_layer(self.relu6, "fc7")
  67. self.relu7 = tf.nn.relu(self.fc7)
  68. #第八层全连接
  69. self.fc8 = self.fc_layer(self.relu7, "fc8")
  70. self.prob = tf.nn.softmax(self.fc8, name="prob")
  71. #得到全向传播时间
  72. end_time = time.time()
  73. print(("time consuming: %f" % (end_time-start_time)))
  74. #清空本次读取到的模型参数字典
  75. self.data_dict = None
  76. #定义卷积运算
  77. def conv_layer(self, x, name):
  78. #根据命名空间name找到对应卷积层的网络参数
  79. with tf.variable_scope(name):
  80. #读到该层的卷积核
  81. w = self.get_conv_filter(name)
  82. #卷积运算
  83. conv = tf.nn.conv2d(x, w, [1, 1, 1, 1], padding='SAME')
  84. #读到偏置项
  85. conv_biases = self.get_bias(name)
  86. #加上偏置,并做激活计算
  87. result = tf.nn.relu(tf.nn.bias_add(conv, conv_biases))
  88. return result
  89. #定义获取卷积核的参数
  90. def get_conv_filter(self, name):
  91. #根据命名空间从参数字典中获取对应的卷积核
  92. return tf.constant(self.data_dict[name][0], name="filter")
  93. #定义获取偏置项的参数
  94. def get_bias(self, name):
  95. #根据命名空间从参数字典中获取对应的偏置项
  96. return tf.constant(self.data_dict[name][1], name="biases")
  97. #定义最大池化操作
  98. def max_pool_2x2(self, x, name):
  99. return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME', name=name)
  100. #定义全连接层的全向传播操作
  101. def fc_layer(self, x, name):
  102. #根据命名空间name做全连接层的计算
  103. with tf.variable_scope(name):
  104. #获取该层的维度信息列表
  105. shape = x.get_shape().as_list()
  106. dim = 1
  107. for i in shape[1:]:
  108. #将每层的维度相乘
  109. dim *= i
  110. #改变特征图的形状,也就是将得到的多维特征做拉伸操作,只在进入第六层全连接层做该操作
  111. x = tf.reshape(x, [-1, dim])
  112. #读到权重值
  113. w = self.get_fc_weight(name)
  114. #读到偏置项值
  115. b = self.get_bias(name)
  116. #对该层输入做加权求和,再加上偏置
  117. result = tf.nn.bias_add(tf.matmul(x, w), b)
  118. return result
  119. #定义获取权重的函数
  120. def get_fc_weight(self, name):
  121. #根据命名空间name从参数字典中获取对应1的权重
  122. return tf.constant(self.data_dict[name][0], name="weights")

utils.py文件

读入图片,概率显示

  1. #!/usr/bin/python
  2. #coding:utf-8
  3. from skimage import io, transform
  4. import numpy as np
  5. import matplotlib.pyplot as plt
  6. import tensorflow as tf
  7. from pylab import mpl
  8. mpl.rcParams['font.sans-serif']=['SimHei'] # 正常显示中文标签
  9. mpl.rcParams['axes.unicode_minus']=False # 正常显示正负号
  10. def load_image(path):
  11. fig = plt.figure("Centre and Resize")
  12. #传入读入图片的参数路径
  13. img = io.imread(path)
  14. #将像素归一化处理到[0,1]
  15. img = img / 255.0
  16. #将该画布分为一行三列,把下面的图像放在画布的第一个位置
  17. ax0 = fig.add_subplot(131)
  18. #添加子标签
  19. ax0.set_xlabel(u'Original Picture')
  20. #添加展示该图像
  21. ax0.imshow(img)
  22. #找到该图像的最短边
  23. short_edge = min(img.shape[:2])
  24. #把图像的w和h分别减去最短边,并求平均
  25. y = (img.shape[0] - short_edge) / 2
  26. x = (img.shape[1] - short_edge) / 2
  27. #取出切分过的中心图像
  28. crop_img = img[y:y+short_edge, x:x+short_edge]
  29. #把下面的图像放在画布的第二个位置
  30. ax1 = fig.add_subplot(132)
  31. #添加子标签
  32. ax1.set_xlabel(u"Centre Picture")
  33. #添加展示该图像
  34. ax1.imshow(crop_img)
  35. #resize成固定的imagesize
  36. re_img = transform.resize(crop_img, (224, 224))
  37. #把下面的图像放在画布的第三个位置
  38. ax2 = fig.add_subplot(133)
  39. ax2.set_xlabel(u"Resize Picture")
  40. ax2.imshow(re_img)
  41. #转换为需要的输入形状
  42. img_ready = re_img.reshape((1, 224, 224, 3))
  43. return img_ready
  44. #定义百分比转换函数
  45. def percent(value):
  46. return '%.2f%%' % (value * 100)

Nclasses.py文件

含label字典
源码下载

vgg16.npy文件

包含了神经网络的全部参数
源码下载