文章目录
HTTP——超文本传输协议
超文本传输协议(Hypertext Transfer Protocol,HTTP)是应用层协议。HTTP 是一种请求、响应式的协议,即一个客户端与服务器建立连接后,向服务器发送一个请求;服务器接到请求后,给予相应的响应信息。
Ⅰ HTTP 请求报文:
HTTP 请求报文由
请求行
、
请求头
、
空行
和
请求体
4 个部分组成:
1 请求行
请求行由方法字段、URL 字段 和HTTP 协议版本字段 3 个部分组成,他们之间使用空格隔开。常用的 HTTP 请求方法有 GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT;
-
GET
:当客户端要从服务器中读取某个资源时,使用GET 方法。GET 方法要求服务器将URL 定位的资源放在响应报文的数据部分,回送给客户端,
即向服务器请求某个资源
。使用GET 方法时,请求参数和对应的值附加在 URL后面,利用一个问号(“?”)代表URL 的结尾与请求参数的开始,传递参数长度受限制。例如,
/index.jsp?id=100&op=bind。
-
POST
:当客户端给服务器提供信息较多时可以使用POST 方法,POST
方法向服务器提交数据,比如完成表单数据的提交,将数据提交给服务器处理。GET 一般用于获取/查询资源信息,
POST会附带用户数据,一般用于更新资源信息
。POST 方法将请求参数封装在HTTP 请求数据中,以名称/值的形式出现,可以传输大量数据;
2 请求头
请求头部由键值对组成,每行一对,关键字和值用英文冒号
“:”
分隔。请求头部通知服务器有关于客户端请求的信息,典型的请求头有:
-
User-Agent
:产生请求的浏览器类型; -
Accept
:客户端可识别的响应内容类型列表;星号
“ * ”
用于按范围将类型分组,用
“ */* ”
指示可接受全部类型,用
“type/* ”
指示可接受 type 类型的所有子类型; -
Accept-Language
:客户端可接受的自然语言; -
Accept-Encoding
:客户端可接受的编码压缩格式; -
Accept-Charset
:可接受的应答的字符集; -
Host
:请求的主机名,允许多个域名同处一个IP 地址,即虚拟主机; -
connection
:连接方式(
close 或 keepalive
); -
Cookie
:存储于客户端扩展字段,向同一域名的服务端发送属于该域的cookie;
-
Range
:浏览器(比如 Flashget 多线程下载时)告诉 WEB 服务器自己想取对象的哪部分。例如:Range:bytes=1173546 (HTTP1.1之后)
3 空行
空行:最后一个请求头之后是一个空行,发送回车符和换行符,通知服务器请求头部分结束;
4 请求体
请求体:请求体不在 GET 方法中使用,而是在POST 方法中使用。POST 方法适用于需要客户填写表单的场合。与请求体相关的是请求体类型
Content-Type
和请求体长度
Content-Length;
5 请求实例
(1)不带请求体:
GET /-L-Wsjip0QIZ8tyhnq/v.gif?mod=superman%3Aps&submod=log HTTP/1.1
Host: sp0.baidu.com
Connection: keep-alive
Pragma: no-cache
Cache-Control: no-cache
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36
Accept: image/webp,image/apng,image/*,*/*;q=0.8
Sec-Fetch-Site: same-site
Sec-Fetch-Mode: no-cors
Sec-Fetch-Dest: image
Referer: https://www.baidu.com/?tn=02003390_5_hao_pg
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9
Cookie: BIDUPSID=82A2B317C25805BA546D9B6F0618C19E; BAIDUID=5F43684B7C3EB87889FC25789BC81675
(2)带请求体:
POST /inbound HTTP/1.1
Host: 39.97.228.125:8080
Connection: keep-alive
Content-Length: 78
Pragma: no-cache
Cache-Control: no-cache
Upgrade-Insecure-Requests: 1
Origin: http://39.97.228.125:8080
Content-Type: application/x-www-form-urlencoded
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Referer: http://39.97.228.125:8080/inbound.html
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9
Cookie: JSESSIONID=3E01C8D84A6B6B04BE3185AB3D56CF23
name=%E6%B0%B4&stock=66&introduce=%E7%94%9C&unit=%E7%93%B6&price=2&discount=99
Ⅱ HTTP 响应报文
HTTP 响应报文由状态行、响应头、空行 和 响应体 4 个部分组成,如下图所示:
1 状态行:
状态行由 HTTP 协议版本字段、状态码和状态码的原因短语 3 个部分组成,他们之间使用空格隔开;
状态码由三位数字组成,第一位数字表示响应的类型,常用的状态码有五大类如下所示:
- 1xx:表示服务器已接收了客户端请求,客户端可继续发送请求;
- 2xx:表示服务器已成功接收到请求并进行处理;
- 3xx:表示服务器要求客户端重定向;
- 4xx:表示客户端的请求有非法内容;
- 5xx:表示服务器未能正常处理客户端的请求而出现意外错误;
状态码原因短语有如下取值:
- 200 OK:表示客户端请求成功;
- 400 Bad Request:表示客户端请求有语法错误,不能被服务器所理解;
- 401 Unauthonzed:表示请求未经授权,该状态代码必须与 WWW-Authenticate 报头域一起使用;
- 403 Forbidden:表示服务器收到请求,但是拒绝提供服务,通常会在响应正文中给出不提供服务的原因;
- 404 Not Found:请求的资源不存在,例如,输入了错误的URL;
- 500 Internal Server Error:表示服务器发生不可预期的错误,导致无法完成客户端的请求;
- 503 Service Unavailable:表示服务器当前不能够处理客户端的请求,在一段时间之后,服务器可能会恢复正常;
2 响应头部:
响应头可能包括:
Location
:Location响应报头域用于重定向接受者到一个新的位置。例如:客户端所请求的页面已不存在原先的位置,为了让客户端重定向到这个页面新的位置,服务器端可以发回Location响应报头后使用重定向语句,让客户端去访问新的域名所对应的服务器上的资源;
Server
:Server 响应报头域包含了服务器用来处理请求的软件信息及其版本。它和 User-Agent 请求报头域是相对应的,前者发送服务器端软件的信息,后者发送客户端软件(浏览器)和操作系统的信息。
Vary
:指示不可缓存的请求头列表;
Connection
:连接方式(close/ keepalive);
- 对于请求来说:close(告诉 WEB服务器或者代理服务器,在完成本次请求的响应后,断开连接,不等待本次连接的后续请求了)。keepalive(告诉WEB服务器或者代理服务器,在完成本次请求的响应后,保持连接,等待本次连接的后续请求);
- 对于响应来说:close(连接已经关闭); keepalive(连接保持着,在等待本次连接的后续请求);
Keep-Alive
:如果浏览器请求保持连接,则该头部表明WEB 服务器希望保持连接多长时间(秒);例如:Keep-Alive:300;
WWW-Authenticate
:WWW-Authenticate响应报头必须被包含在401 (未授权的)响应消息中,这个报头域和前面讲到的Authorization 请求报头域是相关的,当客户端收到 401 响应消息,就要决定是否请求服务器对其进行验证。如果要求服务器对其进行验证,就可以发送一个包含了Authorization 报头域的请求;
Content-Range
:用于指定整个实体中的一部分的插入位置,他也指示了整个实体的长度。在服务器向客户返回一个部分响应,它必须描述响应覆盖的范围和整个实体长度。例如,传送头500个字节次字段的形式:Content-Range:bytes0- 499/1234。(HTTP1.1之后)
3 空行:
最后一个响应头部之后是一个空行,发送回车符和换行符,通知服务器响应头结束。
4 响应体:
服务器返回给客户端的文本信息;
5 响应实例
HTTP/1.1 302
Location: browse.html
Content-Type: text/html;charset=utf-8
Content-Length: 0
Date: Wed, 12 Aug 2020 01:29:59 GMT
Keep-Alive: timeout=20
Connection: keep-alive
HTTP/1.1 200 OK
Cache-Control: private
Connection: keep-alive
Content-Encoding: gzip
Content-Type: text/html;charset=utf-8
Date: Wed, 12 Aug 2020 01:51:27 GMT
Expires: Wed, 12 Aug 2020 01:51:27 GMT
Server: BWS/1.0
Vary: Accept-Encoding
Content-Length: 52
Ⅲ HTTP原理
HTTP 协议采用请求/响应模型。客户端向服务器发送一个请求报文,服务器以一个状态作为响应。
1 HTTP 请求/响应的步骤:
-
客户端连接到web服务器
:HTTP 客户端与web服务器建立一个 TCP 连接; -
客户端向服务器发起 HTTP 请求
:通过已建立的TCP 连接,客户端向服务器发送一个请求报文; -
服务器接收 HTTP 请求并返回 HTTP 响应
:服务器解析请求,定位请求资源,服务器将资源副本写到 TCP 连接,由客户端读取; -
释放 TCP 连接
:若connection 模式为close,则服务器主动关闭TCP 连接,客户端被动关闭连接,释放TCP连接; 若connection 模式为keepalive,则该连接会保持一段时间,在该时间内可以继续接收请求; -
客户端浏览器解析HTML内容
:客户端将服务器响应的 html 文本解析并显示;
2 在浏览器地址栏键入URL,按下回车之后会经历以下流程:
(1)浏览器向 DNS 服务器发起请求,解析URL 中域名所对应的 IP 地址;
(2)解析出 IP 地址后,根据该 IP 地址和默认端口 80,和服务器建立 TCP 连接;
(3)浏览器发出HTTP 请求;
(4)服务器对浏览器请求作出响应,并把对应的 html 文本发送给浏览器;
(5)释放 TCP 连接;
(6)浏览器渲染 html 文本并显示内容;
3 HTTP 无状态性
HTTP 协议是无状态的(stateless)。也就是说,同一个客户端第二次访问同一个服务器上的页面时,服务器无法知道这个客户端曾经访问过,服务器也无法分辨不同的客户端。HTTP 的无状态特性简化了服务器的设计,使服务器更
容易支持大量并发的HTTP 请求
。
4 HTTP1.1 持久连接
HTTP1.0 使用的是非持久连接,主要缺点是客户端必须为每一个待请求的对象建立并维护一个新的连接,即每请求一个文档就要有两倍RTT 的开销。因为同一个页面可能存在多个对象,所以非持久连接可能使一个页面的下载变得十分缓慢,而且这种短连接增加了网络传输的负担。
HTTP1.1 使用持久连接keepalive,所谓持久连接,就是服务器在发送响应后仍然在一段时间内保持这条连接,允许在同一个连接中存在多次数据请求和响应,即在持久连接情况下,服务器在发送完响应后并不关闭TCP 连接,而客户端可以通过这个连接继续请求其他对象。
注:
RTT(Round Trip Time):一个连接的往返时间,即数据发送时刻到接收到确认的时刻的差值;