re xpath - 《Python》

# 返回括号中的内容,括号前后的内容起到定位和过滤的效果
re.findall("a(.*?)b"),"str") 
# 原始字符串r,待匹配字符串中有反斜杠,使用r能够忽视反斜杠的转义效果
r"str"
# 点号默认情况下匹配不到"\n"
"\s" 能够匹配空白字符,不仅仅包含空格,还有"\t|\r\n"

使用xpath helper或者是chrome中的copy xpath都是从element中提取的数据，但是爬虫获取的是url对应的响应，往往和elements不一样

# 获取文本
  'a/text()'  获取a下的文本
  'a//text()' 获取a下的所有标签的文本
  '//a[text()='下一页']' 选择文本为下一页三个字的a标签
# '@符号'
  'a/@href'
  '//ul[@id="detail-list"]'
# '//'
在xpath最前面表示从当前html中任意位置开始选择
'li//a' 表示的是li下任何一个标签