1.hist()方法

可以直接Dataframe.hist(),这样可以绘制每个属性的直方图。

2.np.random.permutation()

随机排列组合
x : int or array_like
If x is an integer, randomly permute np.arange(x).
If x is an array, make a copy and shuffle the elements randomly.假如是多维数组,则只对行进行排序。
Returns
———-
out : ndarray
Permuted sequence or array range.

3.zlib库

参考链接
首先说明一下python zlib库的作用,zlib模块为需要数据压缩的程序提供了一系列函数,用于压缩和解压缩。要使用这些函数,首先应 import zlib。zlib 库详细使用可以参考http://www.zlib.net/manual.html 版本说明:由于兼容性和安全性的问题,推荐使用 1.1.4 及以上版本的zlib库。
crc32用于计算 data 的 CRC (循环冗余校验) 值。计算的结果是一个 32 位的整数。参数 value 是校验时的起始值,其默认值为 0。借助参数 value 可为分段的输入计算校验值。此算法没有加密强度,不应用于身份验证和数字签名。此算法的目的仅为验证数据的正确性,不适合作为通用散列算法。

3.1crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32解释:

  • crc32函数输出一个无符号的32位数字,代码测试CRC值是否低于测试比率乘以最大32位数字。
  • & 0xffffffff掩码只存在于ensure compatibility with Python 2 and 3。在Python2中,相同的函数可以返回一个有符号的整数,范围从-(2^31)到(2^31)-1,用0xffffffff掩码将值正规化为有符号。
  • 因此,基本上,任何一种版本都会将标识符转换为整数,并使用哈希使该整数在一个范围内合理地均匀分布;对于MD5哈希,最后一个字节使值介于0和255之间,对于CRC32校验和,其值介于0和(2^32)-1之间。然后将这个整数与整个范围进行比较;如果它低于test_ratio * maximum截止点,则认为它被选中。

    4.StratifiedShuffleSplit类—-分层抽样

    分层随机分割交叉验证器可以将数据分割为训练集和测试集,不过它只提供训练集/测试集数据在原始数据集中的位置索引。由该类生成的交叉验证对象融合了StratifiedKFold和ShuffleSplit两个函数的功能,该对象返回分层随机折,对像通过对每一类保留一定比例的样本生成折。注意:同随机分割一样,分层随机分割不保证所有折都是不同的,即使对于大数据集也不例外。
    原型为
    class sklearn.model_selection.StratifiedShuffleSplit(n_splits=10,
    test_size=’default’, train_size=None, random_state=None)

  • n_splits:整数,默认值为10。重新打乱分割的迭代次数

  • test_size:浮点数,None。分割后的测试集大小,默认为浮点数0.1(train_size没有被设置,否则为训练集大小的补集)
    • 如果为浮点数,取值范围在0.0到1.0之间,表示分割后的测试集占总数据集的比例;
    • 如果为整数,表示分割后的测试集含有的绝对样本数;
    • 如果为None,分割后的测试集大小为训练集大小的补集
  • train_size:浮点数,整数或None。默认为None
    • 如果为浮点数,取值范围在0.0到1.0之间,表示分割后的训练集占总数据集的比例;
    • 如果为整数,表示分割后的训练集含有的绝对样本数;
    • 如果为None,分割后的训练集大小为测试集大小的补集
  • random_state:一个整数或者一个RandomState实例,或者None
    • 如果为整数,则它指定随机数生成器的种子
    • 如果为RandomState实例,则指定随机数生成器
    • 如果为None,则使用默认的随机数生成器np.random
  • groups:没有用,仅为兼容性保留

注意:随机交叉验证分割起每次调用split方法都可能会返回不同的分割结果,可以通过将参数random_state设置为一个整数使结果保持不变

5.plt.imshow()

具体用法参见:链接参数详解