# 返回括号中的内容,括号前后的内容起到定位和过滤的效果
re.findall("a(.*?)b"),"str")
# 原始字符串r,待匹配字符串中有反斜杠,使用r能够忽视反斜杠的转义效果
r"str"
# 点号默认情况下匹配不到"\n"
"\s" 能够匹配空白字符,不仅仅包含空格,还有"\t|\r\n"
使用xpath helper或者是chrome中的copy xpath都是从element中提取的数据,但是爬虫获取的是url对应的响应,往往和elements不一样
# 获取文本
'a/text()' 获取a下的文本
'a//text()' 获取a下的所有标签的文本
'//a[text()='下一页']' 选择文本为下一页三个字的a标签
# '@符号'
'a/@href'
'//ul[@id="detail-list"]'
# '//'
在xpath最前面表示从当前html中任意位置开始选择
'li//a' 表示的是li下任何一个标签