目标:
1:掌握为什么要用代理IP访问web服务器
2:掌握本机IP与出口IP的区别
3:掌握代理IP分类以及代理IP的网站
4:掌握利用requests库如何实现代理IP请求web服务器
一:为什么要用代理IP访问web服务器
答:如果利用自身IP频率过高的访问web服务器,网站一般都有反爬措施,会将自身的IP(出口IP)封掉,这是我们就提现出代理IP的重要性了
利用代理IP访问web服务器图示:

二:本机IP与出口IP的区别
本机IP:局域网内的IP地址,只能在局域网中使用(内网IP),在windows终端内通过 ipconfig 指令查看的 IP 即本机IP,需要上网的话会通过NET出口,分配出口IP进行上网

出口IP:外网IP,是你的计算机真正的IP地址(可以显示IP的具体地理位置)

三:代理IP分类以及代理IP的网站
高匿代理IP:通过高匿代理IP访问网站服务器,服务器不知道这是用户通过代理IP访问的(知道代理IP地址),不知道真实用户的IP
普通代理IP:通过普通代理IP访问网站服务器,服务器知道这是用户通过这个代理IP进行访问的(知道代理IP地址),但是不知道用户的真实IP
透明代理IP:通过透明代理IP访问网站服务器,服务器知道代理IP地址以及用户的真实IP地址
常用的免费代理IP网站:
快代理:快代理- 企业级代理云服务提供商 (kuaidaili.com)
66代理:免费代理ip服务器http代理最新ip代理免费ip提取网站国内外代理_66免费代理ip (66ip.cn)
四:利用requests库如何实现代理IP请求web服务器
实现参数:proxies
参数类型:字典
参数设置:
设置基本代理IP → proxies = {“协议类型”,“协议类型://代理IP地址:代理IP端口号”}
设置专享 | 私密 代理IP → proxies = {“协议类型”,“协议类型://用户名:密码@代理IP地址:代理IP端口号”}
实例(基本代理IP):proxies = {“http”:“http://123.51.56.124:8695”,
“https”:“https://123.51.56.124:8695”}
实例(独享 | 私密 代理IP):proxies = {“http”:“http://xxx:……@256.36.125.35:8695”,
| “https”:“https://xxx:……@256.36.125.35:8695”} | |
|---|---|
实现语法:html_data = requests.get(url=url , headers=headers , params=params , proxies=proxies )
注意事项:
1:为什么设置代理IP时要设置两个协议的(http|https),当访问网站类型为http时,就用http协议的代理IP进行访问!
2:私密代理以及独享代理或者基本代理都是可以花钱买的,私密代理以及独享代理使用时需要验证用户名和密码!
3:爬虫最常用的是私密代理!!
代码演示:
没设置代理IP

设置了代理IP

