目标:掌握正则表达式匹配 html 代码的技巧
一:正则表达式匹配 html 代码的技巧
实例html代码如下(提取电影名、主演、上映时间):

正则表达式可以这么写!!
对应的正则表达式:
.?<a href=”/films/[0-9]+” title=”(.?)”.?
书写正则的技巧:
\s+主演:(.?)\s+
\s+上映时间:(.*?)
书写正则的技巧:
1:第一个包含类的标签一定要写出来(例如
)这样正则可一下就找出来匹配的数据在那个标签类
2:待匹配的数据要加上分组,一般都是这么写 (.*?),这样可被findall方法直接匹配出来
3:待匹配数据的前一个标签一般要按照给出的写出来(也可以不写!)
4:.*?正则表达式是一个很好的东西哦,一定要学会使用!!!
5:因为加上了 re.S 参数,所以 . 可以匹配任何数据
图示:**

