安装
字符串初始化
URL 初始化
文件初始化
这里items 查找出的就是 .list 这里面的内容
找 items 里面是 .list 也就是找 .list 里面的 li
选择第一个lis
选择第二个li
选择第二个li，这里不是从0开始，而是从1开始
选择大于第“3”个li的，也就第4和第五这里是从0开始计算
选择偶数的li 也就是第二和第四个
选择内容包括 second 的 li
- 更多伪类选择器方法（CSS3 选择器）
官方文档

非常适合会Jquery的用户，正则麻烦，BeautifulSoup难记，那就选择PyQuery。

安装

pip3 install pyquery

字符串初始化

html = '''
<div>
    <ul>
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2">second item</a></li>
         <li class="item-0 active"><a href="link3"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4">fourth item</a></li>
         <li class="item-0"><a href="link5">fifth item</a></li>
     </ul>
 </div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('li'))

如果要选择 id 就在前面加# 如果要选择 class 就在前面加 . 这里是选择 li 就直接写li就好了。

as 是一个通用做法，就是把上面的一长串取一个昵称为 pq

结果如下

URL 初始化

from pyquery import PyQuery as pq
doc = pq('http://www.52cons.com')
print(doc('head'))

在这里我们直接传入一个 URL 然后直接用 PyQuery 获取它的head。

结果如下

文件初始化

首先新建一个文件 demo.html 内容为 字符串初始化 里面html的内容。
这个文件要和 1.py 在相同目录内。 ``` from pyquery import PyQuery as pq doc = pq(filename=’demo.html’) print(doc(‘li’))

结果如下<br />![20170922150608488926427.png](http://7.feilongs.com/20170922150608488926427.png)
## 基本 CSS 选择器

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) print(doc(‘#container .list li’))


> 层级选择，不一定是父子关系，比如`li` 不一定是 `list`的子，也可以是孙或者更低级别都可以，只要是嵌套关系就可以。
运行结果<br />![20170922150608541411046.png](http://7.feilongs.com/20170922150608541411046.png)
### 查找元素
#### 子元素

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) items = doc(‘.list’)

这里items 查找出的就是 .list 这里面的内容

print(type(items)) print(items) lis = items.find(‘li’)

找 items 里面是 .list 也就是找 .list 里面的 li

print(type(lis)) print(lis)

结果如下<br />![20170922150608611340283.png](http://7.feilongs.com/20170922150608611340283.png)
##### 直接子元素查找    children

lis = items.children() print(type(lis)) print(lis)

##### 查找某个class的直接子元素

lis = items.children(‘.active’) print(lis)

#### 父元素  parent
> 每个元素只会有一个父元素，

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) items = doc(‘.list’) container = items.parent() print(type(container)) print(container)

结果如下<br />![20170922150608659356140.png](http://7.feilongs.com/20170922150608659356140.png)
#### 祖先元素   parents
> 父亲和 爷爷是嵌套的，他打印一次父亲，再打印一次包含父亲和叔叔的爷爷节点。

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) items = doc(‘.list’) container = items.parents() print(type(container)) print(container)


> 和父元素相差就是多了一个 `s`
结果如下<br />![20170922150608693110887.png](http://7.feilongs.com/20170922150608693110887.png)
#### 兄弟元素 siblings
> 兄弟节点不会打印本身

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) li = doc(‘.list .item-0.active’) print(li.siblings())

**注意：** `.item-0.active` 中间没有空格，意思是带 `.item-0` 和`.active` class 的标签。 这个 li 带两个 class<br />结果如下<br />![20170922150608733213647.png](http://7.feilongs.com/20170922150608733213647.png)
##### 查找带某class 的兄弟元素

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) li = doc(‘.list .item-0.active’) print(li.siblings(‘.active’)) #这里加个active

结果如下<br />![20170923150613426397085.png](http://7.feilongs.com/20170923150613426397085.png)
### 遍历
#### 单个元素

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) li = doc(‘.item-0.active’) print(li)

结果<br />![20170923150613453392968.png](http://7.feilongs.com/20170923150613453392968.png)
#### 多个元素（.items)
迭代，`.items`是一个方法，不是一个`class`

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) lis = doc(‘li’).items() print(type(lis)) for li in lis: print(li)

结果<br />![20170923150613487817922.png](http://7.feilongs.com/20170923150613487817922.png)
> 我们看到`lis`的类型是  generator, 这样就把所有的 li 都 **分别** 打印出来了。
## 获取信息
### 获取属性  .attr

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) a = doc(‘.item-0.active a’) print(a) print(a.attr(‘href’)) #方法一和方法二效果一样 print(a.attr.href) #方法二和方法一一样


> 打印同时包含class 为 .item-0和.active 的标签里面的 a 标签
结果如下<br />![20170924150622158671326.png](http://7.feilongs.com/20170924150622158671326.png)
### 获取文本 .text()

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) a = doc(‘.item-0.active a’) print(a) print(a.text())


> 注意 text 后面有括号
结果如下<br />![20170924150622173362641.png](http://7.feilongs.com/20170924150622173362641.png)
### 获取html .html()

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) li = doc(‘.item-0.active’) print(li) print(li.html())

结果如下<br />![20170924150622188463794.png](http://7.feilongs.com/20170924150622188463794.png)
## DOM操作
### removeClass     |   addClass

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) li = doc(‘.item-0.active’) print(li) li.removeClass(‘active’) print(li) li.addClass(‘active’) print(li)


> 首先打印li,然后 移除active标签并打印，然后又添加active并打印
结果如下<br />![20170924150622221388773.png](http://7.feilongs.com/20170924150622221388773.png)
### attr（属性） 、css
> 修改 或者 添加 属性 以及 CSS

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) li = doc(‘.item-0.active’) print(li) li.attr(‘name’,’link’) # 添加一个属性 name=”link” print(li) li.css(‘font-size’,’14px’) #添加一个css属性 print(li)

结果<br />![20170924150622250443279.png](http://7.feilongs.com/20170924150622250443279.png)
### remove()
这个用法比较频繁比如下面这个html, 我们只需要打印 Hello, World 但是如果我们使用 `.text`就会把 `p`标签里面的text 也打印出来，这个时候就需要删除`p`标签和里面的内容，再打印的话就可以只显示 **Hello, World** 了。

html = ‘’’

Hello, World

This is a paragraph.

‘’’

from pyquery import PyQuery as pq doc = pq(html) wrap = doc(‘.wrap’) print(wrap.text()) wrap.find(‘p’).remove() print(wrap.text())

结果如下<br />![20170924150622304686557.png](http://7.feilongs.com/20170924150622304686557.png)
### 其他DOM 方法
[http://pyquery.readthedocs.io/en/latest/api.html](http:_pyquery.readthedocs.io_en_latest_api)
### 伪类选择器

html = ‘’’

‘’’

from pyquery import PyQuery as pq doc = pq(html) li = doc(‘li:first-child’) print(li)

选择第一个lis

li = doc(‘li:last-child’) print(li)

选择第二个li

li = doc(‘li:nth-child(2)’) print(li)

选择第二个li，这里不是从0开始，而是从1开始

li = doc(‘li:gt(2)’) print(li)

选择大于第“3”个li的，也就第4和第五这里是从0开始计算

li = doc(‘li:nth-child(2n)’) print(li)

选择偶数的li 也就是第二和第四个

li = doc(‘li:contains(second)’) print(li)

选择内容包括 second 的 li

``` 结果

官方文档

http://pyquery.readthedocs.io/

PyQuery

安装

字符串初始化

URL 初始化

文件初始化

这里items 查找出的就是 .list 这里面的内容

找 items 里面是 .list 也就是找 .list 里面的 li

选择第一个lis

选择第二个li

选择第二个li，这里不是从0开始，而是从1开始

选择大于第“3”个li的，也就第4和第五 这里是从0开始计算

选择偶数的li 也就是 第二 和第四 个

选择 内容包括 second 的 li

更多 伪类选择器方法 （CSS3 选择器）

官方文档

选择大于第“3”个li的，也就第4和第五这里是从0开始计算

选择偶数的li 也就是第二和第四个

选择内容包括 second 的 li

更多伪类选择器方法（CSS3 选择器）