1.计算机网络基础与http原理

1.1在浏览器地址栏输入一个URL后回车

1.2ip,端口,域名

19.HTTP全解-URL是什么

1.3http请求和响应

20.HTTP全解-请求和响应&node.js server

2.爬虫

2.1用java发起http请求

引入httpclient

搜索httpclient仓库,复制maven代码放入pom中
image.png
image.png

复制快速使用的代码,放到mian函数
image.png
image.png
image.png

调试httpclient,访问baidu

从快速使用中我们可以获得状态码和响应,获取响应的内容
image.png

2.2用java解析html提取内容

获取响应内容

image.png

由于使用了getContent方法后,获取的内容是inputstream类,所以需要把这个类转换为string来查看。搜索获得转换的代码。
image.png

选的第一个种,要先引入commons-io包
image.png

控制台获得string类型的响应内容
image.png

java解析html

搜索后发现jsoup可以解析html
image.png

引用jsoup
image.png

利用jsoup文档的例子来获取html
image.png

image.png