9.1 NumPy

原文:NumPy

译者:飞龙

协议:CC BY-NC-SA 4.0

致谢:派生于 Olivier Grisel 分享的 scikit-learn 和 IPython 并行机器学习

  • NumPy 数组,dtype和形状
  • 常见数组操作
  • 原地修改形状和更新
  • 合并数组
  • 创建示例数据
  1. import numpy as np

NumPy 数组,dtype和形状

  1. a = np.array([1, 2, 3])
  2. print(a)
  3. print(a.shape)
  4. print(a.dtype)
  5. '''
  6. [1 2 3]
  7. (3,)
  8. int64
  9. '''
  10. b = np.array([[0, 2, 4], [1, 3, 5]])
  11. print(b)
  12. print(b.shape)
  13. print(b.dtype)
  14. '''
  15. [[0 2 4]
  16. [1 3 5]]
  17. (2, 3)
  18. int64
  19. '''
  20. np.zeros(5)
  21. # array([ 0., 0., 0., 0., 0.])
  22. np.ones(shape=(3, 4), dtype=np.int32)
  23. '''
  24. array([[1, 1, 1, 1],
  25. [1, 1, 1, 1],
  26. [1, 1, 1, 1]], dtype=int32)
  27. '''

常见数组操作

  1. c = b * 0.5
  2. print(c)
  3. print(c.shape)
  4. print(c.dtype)
  5. '''
  6. [[ 0. 1. 2. ]
  7. [ 0.5 1.5 2.5]]
  8. (2, 3)
  9. float64
  10. '''
  11. d = a + c
  12. print(d)
  13. '''
  14. [[ 1. 3. 5. ]
  15. [ 1.5 3.5 5.5]]
  16. '''
  17. d[0]
  18. # array([ 1., 3., 5.])
  19. d[0, 0]
  20. # 1.0
  21. d[:, 0]
  22. # array([ 1. , 1.5])
  23. d.sum()
  24. # 19.5
  25. d.mean()
  26. # 3.25
  27. d.sum(axis=0)
  28. # array([ 2.5, 6.5, 10.5])
  29. d.mean(axis=1)
  30. # array([ 3. , 3.5])

原地修改形状和更新

  1. e = np.arange(12)
  2. print(e)
  3. # [ 0 1 2 3 4 5 6 7 8 9 10 11]
  4. # f 是 e 的内容的视图
  5. f = e.reshape(3, 4)
  6. print(f)
  7. '''
  8. [[ 0 1 2 3]
  9. [ 4 5 6 7]
  10. [ 8 9 10 11]]
  11. '''
  12. # 将 e 从索引 5 开始的值设为 0
  13. e[5:] = 0
  14. print(e)
  15. # [0 1 2 3 4 0 0 0 0 0 0 0]
  16. # f 也更新了
  17. f
  18. '''
  19. array([[0, 1, 2, 3],
  20. [4, 0, 0, 0],
  21. [0, 0, 0, 0]])
  22. '''
  23. # OWNDATA 展示了 f 并没有自己的数据
  24. f.flags
  25. '''
  26. C_CONTIGUOUS : True
  27. F_CONTIGUOUS : False
  28. OWNDATA : False
  29. WRITEABLE : True
  30. ALIGNED : True
  31. UPDATEIFCOPY : False
  32. '''

合并数组

  1. a
  2. # array([1, 2, 3])
  3. b
  4. '''
  5. array([[0, 2, 4],
  6. [1, 3, 5]])
  7. '''
  8. d
  9. '''
  10. array([[ 1. , 3. , 5. ],
  11. [ 1.5, 3.5, 5.5]])
  12. '''
  13. np.concatenate([a, a, a])
  14. # array([1, 2, 3, 1, 2, 3, 1, 2, 3])
  15. # 广播在需要时自动完成
  16. np.vstack([a, b, d])
  17. '''
  18. array([[ 1. , 2. , 3. ],
  19. [ 0. , 2. , 4. ],
  20. [ 1. , 3. , 5. ],
  21. [ 1. , 3. , 5. ],
  22. [ 1.5, 3.5, 5.5]])
  23. '''
  24. # 在机器学习中,使用 hstack
  25. # 来扩充或者添加新的/交叉特征很有用
  26. np.hstack([b, d])
  27. '''
  28. array([[ 0. , 2. , 4. , 1. , 3. , 5. ],
  29. [ 1. , 3. , 5. , 1.5, 3.5, 5.5]])
  30. '''

创建样例数据

  1. %matplotlib inline
  2. import pylab as plt
  3. import seaborn
  4. seaborn.set()
  5. # 创建特定区间上的等间隔的数字
  6. x = np.linspace(0, 2, 10)
  7. plt.plot(x, 'o-');
  8. plt.show()

9.1.md - 图1

  1. # 创建样例数据,添加一些噪声
  2. x = np.random.uniform(1, 100, 1000)
  3. y = np.log(x) + np.random.normal(0, .3, 1000)
  4. plt.scatter(x, y)
  5. plt.show()

9.1.md - 图2