导入bs4模块,这需要一个BeautifulSoup的对象进行操作
这个对象需要一个以一个html文档作为基础
实例化对象
soup=Beautiful Soup(text,’lxml’) //text是从网页响应的文本
直接soup.标签名字可以得到标签的具体内容
可以调用soup.find(‘标签名字’),如果有多个标签需要在后面加上 属性值
还可以调用soup.find_all()方法找到所有的有相同标签名字的标签
select方法,soup.selecet(‘选择器’) //列如 ( .属性>下一个标签>下一个标签)[0]
选择器:
.是class=
>是里层的标签
在返回的列表中[]可以筛选是第几个
空格表示多个层级
获取标签中 的文本数据在对应的标签后面加
.text
.get_text() 前两个获取所有内容
.string 只能获得直系内容
获取标签的属性:
直接在标签后面加[属性]
