http协议 - 与HTTP相关的各种概念 - 《知识库》

1.互联网上绝大部分资源都使用 HTTP 协议传输；
2.浏览器是 HTTP 协议里的请求方，即 User Agent；
3.服务器是 HTTP 协议里的应答方，常用的有 Apache 和 Nginx；
4.CDN：位于浏览器和服务器之间，主要起到缓存加速的作用；
5.爬虫：爬虫是另一类 User Agent，是自动访问网络资源的程序。

1.互联网的正式名称是 Internet，里面存储着无穷无尽的信息资源，我们通常所说的“上网”实际上访问的只是互联网的一个子集“万维网”（World Wide Web），它基于 HTTP 协议，传输 HTML 等超文本资源，能力也就被限制在 HTTP 协议之内。互联网上还有许多万维网之外的资源，例如常用的电子邮件、BT 和 Magnet 点对点下载、FTP 文件下载、SSH 安全登录、各种即时通信服务等等，它们需要用各自的专有协议来访问。

2.不过由于 HTTP 协议非常灵活、易于扩展，而且“超文本”的表述能力很强，所以很多其他原本不属于 HTTP 的资源也可以“包装”成 HTTP 来访问，这就是我们为什么能够总看到各种“网页应用”——例如“微信网页版”“邮箱网页版”——的原因。

1.互联网上绝大部分资源都使用 HTTP 协议传输；

2.浏览器是 HTTP 协议里的请求方，即 User Agent；

3.服务器是 HTTP 协议里的应答方，常用的有 Apache 和 Nginx；

4.CDN：位于浏览器和服务器之间，主要起到缓存加速的作用；

“内容分发网络”。它应用了 HTTP 协议里的缓存和代理技术，代替源站响应客户端的请求。

CDN 有什么好处呢？简单来说，它可以缓存源站的数据，让浏览器的请求不用“千里迢迢”地到达源站服务器，直接在“半路”就可以获取响应。如果 CDN 的调度算法很优秀，更可以找到离用户最近的节点，大幅度缩短响应时间。

5.爬虫：爬虫是另一类 User Agent，是自动访问网络资源的程序。

爬虫也有不好的一面，它会过度消耗网络资源，占用服务器和带宽，影响网站对真实数据的分析，甚至导致敏感信息泄漏。所以，又出现了“反爬虫”技术，通过各种手段来限制爬虫。其中一项就是“君子协定”robots.txt，约定哪些该爬，哪些不该爬。无论是“爬虫”还是“反爬虫”，用到的基本技术都是两个，一个是 HTTP，另一个就是 HTML。

与HTTP相关的各种概念

1.互联网上绝大部分资源都使用 HTTP 协议传输；

2.浏览器是 HTTP 协议里的请求方，即 User Agent；

3.服务器是 HTTP 协议里的应答方，常用的有 Apache 和 Nginx；

4.CDN： 位于浏览器和服务器之间，主要起到缓存加速的作用；

5.爬虫：爬虫是另一类 User Agent，是自动访问网络资源的程序。

4.CDN：位于浏览器和服务器之间，主要起到缓存加速的作用；