使用K-近邻算法识别手写数字 - 《机器学习》

数字化的32*32的二进制图像矩阵、图像格式及命名方式：
img2vector函数
手写数字识别系统
预测结果：

数字化的32*32的二进制图像矩阵、图像格式及命名方式：

img2vector函数

将数字化的手写数字图片（3232）转化为一维向量（11024）。
_# 将图像格式化处理为一个向量 _def img2vector(filename): print("filename = ",filename) returnVect = np.zeros((1,1024)) _#将32 X 32的图像转成1 X 1024 的一维向量 _fr = open(filename) for i in range(32): lineStr = fr.readline() _#取第i行 _for j in range(32): _# 用第i行第j个数据对returnVect[]的第32*i+j的位置上的数据进行替换 _returnVect[0,32*i+j] = int(lineStr[i]) return returnVect _#返回处理后的向量矩阵，每个图像为一行(1 * 1024)_

手写数字识别系统

_# 手写数字识别系统 _def handwritingClassTest(): hwLabels = [] _#存放训练数据的类别 _trainingFileList = listdir("trainingDigits") _#以列表形式获取文件目录(训练集) _m = len(trainingFileList) trainingMat = np.zeros((m,1024)) _#每行都是一个手写图片转成的一维向量 # 对训练数据集进行处理 _for i in range(m): fileNameStr = trainingFileList[i] _#获取第i个文件的文件名 _fileStr = fileNameStr.split(".")[0] classNumStr = int(fileStr.split("_")[0]) _#提取数字标签 _hwLabels.append(classNumStr) trainingMat[i,:] = img2vector("trainingDigits/%s"%fileNameStr) _#转化为一维向量 _testFileList = listdir('testDigits') _#测试集 _errorCount = 0.0 _#初始化错误率 _mTest = len(testFileList) _#测试集数量 # 对测试数据集进行处理 _for i in range(mTest): fileNameStr = testFileList[i] fileStr = fileNameStr.split(".")[0] classNumStr = int(fileStr.split("_")[0]) vectorUnderTest = img2vector("testDigits/%s"%fileNameStr) _# 调用KNN.py中的classify0()函数测试数据进行预测 _classifierResult = knn.classify0(vectorUnderTest,trainingMat,hwLabels,k=5) print("预测的数字为：",classifierResult,"真实的数字为：",classNumStr) if(classifierResult != classNumStr): errorCount += 1 print("预测错误的个数为：",errorCount) print("错误率：",errorCount / float(mTest))

预测结果：

训练数据集为 1934 个训练样本，测试数据集为 946 个测试样本。K值 = 5时的训练结果：

同样的数据集下，K值 = 7时的训练结果：

同样的数据集下，K值 = 3时的训练结果：

k的取值在一定程度上对整个系统的判断正确率起着至关重要的作用。