# 返回括号中的内容,括号前后的内容起到定位和过滤的效果re.findall("a(.*?)b"),"str")# 原始字符串r,待匹配字符串中有反斜杠,使用r能够忽视反斜杠的转义效果r"str"# 点号默认情况下匹配不到"\n""\s" 能够匹配空白字符,不仅仅包含空格,还有"\t|\r\n"
使用xpath helper或者是chrome中的copy xpath都是从element中提取的数据,但是爬虫获取的是url对应的响应,往往和elements不一样
# 获取文本'a/text()' 获取a下的文本'a//text()' 获取a下的所有标签的文本'//a[text()='下一页']' 选择文本为下一页三个字的a标签# '@符号''a/@href''//ul[@id="detail-list"]'# '//'在xpath最前面表示从当前html中任意位置开始选择'li//a' 表示的是li下任何一个标签
