第二章端到端的机器学习项目

1.hist()方法
2.np.random.permutation()
3.zlib库
- 3.1crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32解释：
4.StratifiedShuffleSplit类—-分层抽样
5.plt.imshow()

1.hist()方法

可以直接Dataframe.hist(),这样可以绘制每个属性的直方图。

2.np.random.permutation()

随机排列组合
x : int or array_like
If x is an integer, randomly permute np.arange(x).
If x is an array, make a copy and shuffle the elements randomly.假如是多维数组，则只对行进行排序。
Returns
———-
out : ndarray
Permuted sequence or array range.

3.zlib库

参考链接
首先说明一下python zlib库的作用，zlib模块为需要数据压缩的程序提供了一系列函数，用于压缩和解压缩。要使用这些函数，首先应 import zlib。zlib 库详细使用可以参考http://www.zlib.net/manual.html 版本说明：由于兼容性和安全性的问题，推荐使用 1.1.4 及以上版本的zlib库。
crc32用于计算 data 的 CRC (循环冗余校验) 值。计算的结果是一个 32 位的整数。参数 value 是校验时的起始值，其默认值为 0。借助参数 value 可为分段的输入计算校验值。此算法没有加密强度，不应用于身份验证和数字签名。此算法的目的仅为验证数据的正确性，不适合作为通用散列算法。

3.1`crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32`解释：

crc32函数输出一个无符号的32位数字，代码测试CRC值是否低于测试比率乘以最大32位数字。
& 0xffffffff掩码只存在于ensure compatibility with Python 2 and 3。在Python2中，相同的函数可以返回一个有符号的整数，范围从-（2^31）到（2^31）-1，用0xffffffff掩码将值正规化为有符号。
因此，基本上，任何一种版本都会将标识符转换为整数，并使用哈希使该整数在一个范围内合理地均匀分布；对于MD5哈希，最后一个字节使值介于0和255之间，对于CRC32校验和，其值介于0和（2^32）-1之间。然后将这个整数与整个范围进行比较；如果它低于test_ratio * maximum截止点，则认为它被选中。

4.StratifiedShuffleSplit类—-分层抽样
分层随机分割交叉验证器可以将数据分割为训练集和测试集，不过它只提供训练集/测试集数据在原始数据集中的位置索引。由该类生成的交叉验证对象融合了StratifiedKFold和ShuffleSplit两个函数的功能，该对象返回分层随机折，对像通过对每一类保留一定比例的样本生成折。注意：同随机分割一样，分层随机分割不保证所有折都是不同的，即使对于大数据集也不例外。
原型为
class sklearn.model_selection.StratifiedShuffleSplit(n_splits=10,
test_size=’default’, train_size=None, random_state=None)
n_splits：整数，默认值为10。重新打乱分割的迭代次数
test_size：浮点数，None。分割后的测试集大小，默认为浮点数0.1（train_size没有被设置，否则为训练集大小的补集）
- 如果为浮点数，取值范围在0.0到1.0之间，表示分割后的测试集占总数据集的比例；
- 如果为整数，表示分割后的测试集含有的绝对样本数；
- 如果为None，分割后的测试集大小为训练集大小的补集
train_size：浮点数，整数或None。默认为None
- 如果为浮点数，取值范围在0.0到1.0之间，表示分割后的训练集占总数据集的比例；
- 如果为整数，表示分割后的训练集含有的绝对样本数；
- 如果为None，分割后的训练集大小为测试集大小的补集
random_state：一个整数或者一个RandomState实例，或者None
- 如果为整数，则它指定随机数生成器的种子
- 如果为RandomState实例，则指定随机数生成器
- 如果为None，则使用默认的随机数生成器np.random
groups：没有用，仅为兼容性保留

注意：随机交叉验证分割起每次调用split方法都可能会返回不同的分割结果，可以通过将参数random_state设置为一个整数使结果保持不变

5.plt.imshow()

具体用法参见：链接，参数详解

第二章 端到端的机器学习项目

1.hist()方法

2.np.random.permutation()

3.zlib库

3.1crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32解释：

4.StratifiedShuffleSplit类—-分层抽样

5.plt.imshow()

3.1`crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32`解释：