Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等。

什么是摘要算法呢?摘要算法又称哈希算法、散列算法。它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。

摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest,目的是为了发现原始数据是否被人篡改过。

摘要算法之所以能指出数据是否被篡改过,就是因为摘要函数是一个单向函数,计算f(data)很容易,但通过digest反推data却非常困难。而且,对原始数据做一个bit的修改,都会导致计算出的摘要完全不同。

  1. import hashlib
  2. # MD5生成结果是固定的128 bit字节,通常用一个32位的16进制字符串表示。
  3. md5 = hashlib.md5()
  4. md5.update('how to use md5 in python hashlib?'.encode('utf-8'))
  5. print(md5.hexdigest())
  6. # SHA1的结果是160 bit字节,通常用一个40位的16进制字符串表示。
  7. # 比SHA1更安全的算法是SHA256和SHA512,不过越安全的算法不仅越慢,而且摘要长度更长。
  8. sha1 = hashlib.sha1()
  9. sha1.update('how to use sha1 in '.encode('utf-8'))
  10. sha1.update('python hashlib?'.encode('utf-8'))
  11. print(sha1.hexdigest())

有没有可能两个不同的数据通过某个摘要算法得到了相同的摘要?完全有可能,因为任何摘要算法都是把无限多的数据集合映射到一个有限的集合中,这种情况称为碰撞。

Source

https://www.liaoxuefeng.com/wiki/1016959663602400/1017686752491744