1. # 返回括号中的内容,括号前后的内容起到定位和过滤的效果
    2. re.findall("a(.*?)b"),"str")
    3. # 原始字符串r,待匹配字符串中有反斜杠,使用r能够忽视反斜杠的转义效果
    4. r"str"
    5. # 点号默认情况下匹配不到"\n"
    6. "\s" 能够匹配空白字符,不仅仅包含空格,还有"\t|\r\n"

    使用xpath helper或者是chrome中的copy xpath都是从element中提取的数据,但是爬虫获取的是url对应的响应,往往和elements不一样

    1. # 获取文本
    2. 'a/text()' 获取a下的文本
    3. 'a//text()' 获取a下的所有标签的文本
    4. '//a[text()='下一页']' 选择文本为下一页三个字的a标签
    5. # '@符号'
    6. 'a/@href'
    7. '//ul[@id="detail-list"]'
    8. # '//'
    9. xpath最前面表示从当前html中任意位置开始选择
    10. 'li//a' 表示的是li下任何一个标签