目标:掌握正则表达式匹配 html 代码的技巧

    一:正则表达式匹配 html 代码的技巧

    实例html代码如下(提取电影名、主演、上映时间):

    image.png


    正则表达式可以这么写!!

    对应的正则表达式:

    .?<a href=”/films/[0-9]+” title=”(.?)”.?

    \s+主演:(.?)\s+

    \s+

    上映时间:(.*?)



    书写正则的技巧:

    1:第一个包含类的标签一定要写出来(例如

    )这样正则可一下就找出来匹配的数据在那个标签类

    2:待匹配的数据要加上分组,一般都是这么写 (.*?),这样可被findall方法直接匹配出来

    3:待匹配数据的前一个标签一般要按照给出的写出来(也可以不写!)

    4:.*?正则表达式是一个很好的东西哦,一定要学会使用!!!

    5:因为加上了 re.S 参数,所以 . 可以匹配任何数据

    图示:**

    image.png