URL结构

为什么学它
url树结构非常重要,它是我们爬虫需要的一个策略,需要用深度优先或者广度优先方式来遍历网站的所有内容。scrapy默认就是一种深度优先算法,通过递归来实现。

编码

保存是将Unicode 转换 utf-8编码
读取是将utf-9 转换 Unicode编码
也就是python编程时,所有字符python都是默认处理成Unicode编码,
windows环境下, 是gb2312
linux环境下, 是utf8
image.png

decode

将其他编码的字符,转换成Unicode编码
下面案例中s初始化时在windows下是gb2312编码,temp就是将gb2312编码转成Unicode编码

  1. s = "python编码"
  2. temp = s.decode("gb2312")

encode

将Unicode编码转换成其他编码

  1. //方式1
  2. s = u"python编码"
  3. temp = s.encode("utf8")
  4. //方式2
  5. s.decode("gb2312").encode("utf8")