1.计算机网络基础与http原理
1.1在浏览器地址栏输入一个URL后回车
1.2ip,端口,域名
1.3http请求和响应
20.HTTP全解-请求和响应&node.js server
2.爬虫
2.1用java发起http请求
引入httpclient
搜索httpclient仓库,复制maven代码放入pom中
调试httpclient,访问baidu
2.2用java解析html提取内容
获取响应内容
由于使用了getContent方法后,获取的内容是inputstream类,所以需要把这个类转换为string来查看。搜索获得转换的代码。
选的第一个种,要先引入commons-io包
java解析html
搜索后发现jsoup可以解析html
引用jsoup
利用jsoup文档的例子来获取html