1 原理
1.1 简介
Http协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:WorldWide Web )服务器传输超文本到本地浏览器的传送协议。
HTTP是一个基于TCP/IP通信协议来传递数据(HTML文件, 图片文件, 查询结果等)。
http的工作原理
HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。
Web服务器有:Apache服务器,IIS服务器(Internet Information Services)等。
Web服务器根据接收到的请求后,向客户端发送响应信息。
HTTP默认端口号为80,但是你也可以改为8080或者其他端口
http的注意事项
- http是无连接的
无连接的含义是限制每次连接只处理一个请求,服务器处理完客户的请求,并收到客户的应答后,即断开连接,采用这种方式可以节省传输时间
- http是媒体独立的
这意味着,只要客户端和服务器知道如何处理数据内容,任何数据都可以通过HTTP发送,客户端以及服务器指定使用适合的MIME-type内容类型
- http是无状态的
HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。
Http协议通信流程
1.2消息结构
HTTP是基于客户端/服务端(C/S)的架构模型,通过一个可靠的链接来交换信息,是一个无状态的请求/响应协议。
一个HTTP”客户端”是一个应用程序(Web浏览器或其他任何客户端),通过连接到服务器达到向服务器发送一个或多个HTTP的请求的目的。
一个HTTP”服务器”同样也是一个应用程序(通常是一个Web服务,如Apache Web服务器或IIS服务器等),通过接收客户端的请求并向客户端发送HTTP响应数据。
HTTP使用统一资源标识符(Uniform Resource Identifiers, URI)来传输数据和建立连接。
一旦建立连接后,数据消息就通过类似Internet邮件所使用的格式[RFC5322]和多用途Internet邮件扩展(MIME)[RFC2045]来传送。
客户端请求消息
客户端发送一个HTTP请求到服务器的请求消息包括以下格式:请求行(request line)请求头部(header)、空行和请求数据四个部分组成,下图给出了请求报文的一般格式
服务端响应消息
Http响应也由四个部分组成,分别是:状态行,消息报头,空行和响应正文
1.3请求方法
根据HTTP标准,HTTP请求可以使用多种请求方法。
HTTP1.0定义了三种请求方法: GET, POST 和 HEAD方法。
HTTP1.1新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。
序号 |
方法 |
描述 |
1 |
GET |
请求指定的页面信息,并返回实体主体 |
2 |
HEAD |
类型GET请求,只不过返回的响应没有具体的内容,用于获取报头 |
3 |
POST |
向指定资源提交数据并进行数据处理(例如提交表单或者上传文件),数据被包含在请求体中。POST请求可能导致新的资源的建立和/或已有资源的修改 |
4 |
PUT |
从客户端向服务器传送的数据取代指定的文档的内容 |
5 |
DELETE |
请求服务器删除指定的页面 |
6 |
CONNECT |
HTTP/1.1 协议中预留给能将连接改为管道方式的代理服务器 |
7 |
OPINIONS |
允许客户端查看服务端的性能 |
8 |
TRACE |
回显服务器收到的请求,主要用于测试或诊断 |
1.4 响应头信息
应答头 |
说明 |
Allow |
服务器支持哪些请求方法 |
Content-Encoding |
文档的编码方法,只有在解码之后才可以得到Content-Type头指定的内容类型,利用gzip压缩文档能够显著减少HTML文档的下载时间 |
Content-Length |
表示内容长度,只有当浏览器使用持久http连接时才需要这个数据 |
Content-Type |
表示后面的文档属于什么MIME类型,Servlet默认为text/plain,但通常需要显式地指定为text/html |
Date |
当前的GMT时间 |
Expires |
在什么时候应该认为文档已经过期,从而不再缓存 |
Last-Modified |
文档的最后改动时间 |
Location |
表示客户应当到哪里提取文档 |
Refresh |
表示浏览器应该在多少时间刷新文档,以秒计算 |
Server |
服务器名字,Servlet一般不设置这个值,而是由Web服务器自己设置 |
Set-Cookie |
设置和页面关联的Cookie |
WWW-Authenticate |
客户应该在Authorization头中提供什么类型的授权信息?在包含401(Unauthorized)状态行的应答中这个头是必需的 |
1.5 状态码
1. HTTP状态码介绍
当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前,此网页所在的服务器会返回一个包含HTTP状态码的信息头(serverheader)用以响应浏览器的请求。
HTTP状态码的英文为HTTP Status Code。
下面是常见的HTTP状态码:
200 – 请求成功
301 – 资源(网页等)被永久转移到其它URL
404 – 请求的资源(网页等)不存在
500 – 内部服务器错误
2. http状态码分类
分类 |
分类描述 |
1** |
信息,服务器收到请求,需要请求者继续操作 |
2** |
成功,操作被成功接收并处理 |
3** |
重定向,需要进一步的操作以完成 |
4** |
客户端错误 |
5** |
服务器错误。服务器在处理请求的时候发生了错误 |
3. http状态码列表
状态 |
状态码英文名称 |
中文描述 |
100 |
Continue |
继续,客户端应继续其请求 |
101 |
Switching Protocols |
切换协议。服务器根据客户端的请求切换协议,只能切换到更高级的协议,例如切换到HTTP的高版本协议 |
200 |
Ok |
请求成功,一般用于GET与POST请求 |
201 |
Created |
已创建成功请求并创建了新的资源 |
202 |
Accepted |
已接受,已经接受请求,但未处理完成 |
203 |
Non-Authoritative Information |
非授权信息,请求成功,但返回的信息meta信息不在原始的服务器,而是一个副本 |
204 |
No Content |
无内容,服务器成功处理,但未返回内容,在未更新网页的情况下,可确保浏览器继续显示当前文档 |
205 |
ResetContent |
重置内容,服务器处理成功,用户终端(例如:浏览器)应重置文档视图。可通过此返回码清除浏览器的表单域 |
206 |
Partial Content |
部分内容,服务器成功处理了部分GET请求 |
300 |
Multiple Choices |
多种选择。请求的资源可包括多个位置,相应可返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择 |
301 |
Moved Permanently |
永久移动,请求的资源已被永久的移动到新URI,返回信息会包括新的URI,浏览器会自动定向到新URI。今后任何新的请求都应使用新的URI代替 |
302 |
Found |
临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URI |
303 |
See Other |
查看其他地址,与301类似,使用GET和POST请求查看 |
304 |
Not Modified |
未修改。所请求的资源未修改,服务器返回此状态码时,不会返回任何资源。客户端通常会缓存访问过的资源,通过提供一个头信息指出客户端希望只返回在指定日期之后修改的资源 |
305 |
Use Proxy |
使用代理,所请求的资源必须通过代理访问 |
306 |
Unused |
已经废弃的HTTP状态码 |
307 |
Temporary Reddirect |
临时重定向,与302类似,使用GET请求重定向 |
400 |
Bad Request |
客户端请求的语法错误,服务端无法理解 |
401 |
Unauthorized |
请求要求用户的身份认证 |
402 |
Payment Required |
保留,将来使用 |
403 |
Forbidden |
服务器理解请求客户端的请求,但是拒绝执行此请求 |
404 |
Not Found |
服务器无法根据客户端的请求找到资源(网页)。通过此代码,网站设计人员可设置”您所请求的资源无法找到”的个性页面 |
405 |
Method Not Allowed |
客户端请求的方法被禁止 |
406 |
Not Acceptable |
服务器无法根据客户端的请求的内容特性完成请求 |
407 |
Proxy Authentication Required |
请求要求代理的身份认证,与401类似,但请求者应当使用代理进行授权 |
408 |
Request Time-out |
服务器等待客户端发送的请求时间过长,超时 |
409 |
Conflict |
服务器完成客户端的PUT请求时可能返回此代码,服务器处理请求时发生了冲突 |
410 |
Gone |
客户端请求的资源已经不存在。410不同于404,如果资源以前有现在被永久删除了可使用410代码,网站设计人员可通过301代码指定资源的新位置 |
411 |
Length Required |
服务器无法处理客户端发送的不带Content-Length的请求信息 |
412 |
Precondition Failed |
客户端请求信息的先决条件错误 |
413 |
Request Entity Too Large |
由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息 |
414 |
Request-URI Too Large |
请求的URI过长(URI通常为网址),服务器无法处理 |
415 |
Unsupported Media Type |
服务器无法处理请求附带的媒体格式 |
416 |
Requested range not satisfiable |
服务器无法满足Expect的请求头信息 |
500 |
Internal Server Error |
服务器内部错误,无法完成请求 |
501 |
Not Implemented |
服务器不支持请求的功能,无法完成请求 |
502 |
Bad Gateway |
充当网关或代理的服务器,从远端服务器接收到了一个无效的请求 |
503 |
Service Unavailable |
由于超载或系统维护,服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中 |
504 |
Gateway Time-out |
充当网关或代理的服务器,未及时从远端服务器获取请求 |
505 |
HTTP Version not supported |
服务器不支持请求的HTTP协议的版本,无法完成处理 |
2 Restful
2.1 定义
RESTful架构,就是目前最流行的一种互联网软件架构。它结构清晰、符合标准、易于理解、扩展方便,所以正得到越来越多网站的采用。
REST这个词,是Roy Thomas Fielding在他2000年的博士论文中提出的。Fielding将他对互联网软件的架构原则,定名为REST,即Representational State Transfer的缩写。
2.2 理解
资源(Resources)
REST的名称”表现层状态转化”中,省略了主语。”表现层”其实指的是”资源”(Resources)的”表现层”。
所谓”资源”,就是网络上的一个实体,或者说是网络上的一个具体信息。它可以是一段文本、一张图片、一首歌曲、一种服务,总之就是一个具体的实在。你可以用一个URI(统一资源定位符)指向它,每种资源对应一个特定的URI。要获取这个资源,访问它的URI就可以,因此URI就成了每一个资源的地址或独一无二的识别符。
表现层(Representation)
资源是一种信息实体,它可以有多种外在表现形式,把资源具体呈现出来的形式,叫做它的表现层(Representation)
比如,文本可以用txt格式表现,也可以用HTML格式、XML格式、JSON格式表现,甚至可以采用二进制格式;图片可以用JPG格式表现,也可以用PNG格式表现。
URI只代表资源的实体,不代表它的形式。严格地说,有些网址最后的”.html”后缀名是不必要的,因为这个后缀名表示格式,属于”表现层”范畴,而URI应该只代表”资源”的位置。它的具体表现形式,应该在HTTP请求的头信息中用Accept和Content-Type字段指定,这两个字段才是对”表现层”的描述。
状态转化(State Transfer)
访问一个网站,就代表了客户端和服务器的一个互动过程,在这个过程中,势必涉及到数据和状态的变化;互联网通信协议HTTP协议,是一个无状态协议。这意味着,所有的状态都保存在服务器端。因此,如果客户端想要操作服务器,必须通过某种手段,让服务器端发生”状态转化”(State Transfer)。而这种转化是建立在表现层之上的,所以就是”表现层状态转化”。
客户端用到的手段,只能是HTTP协议。具体来说,就是HTTP协议里面,四个表示操作方式的动词:GET、POST、PUT、DELETE。它们分别对应四种基本操作:GET用来获取资源,POST用来新建资源(也可以用于更新资源),PUT用来更新资源,DELETE用来删除资源。
综述
l 每一个URI代表一个资源
l 客户端和服务器之间,传递这种资源的某种表现层
l 客户端通过四个HTTP动词,对服务器端资源进行操作,实现表现层状态转化
3 三次握手四次挥手
Tcp/ip是一种面向连接的,可靠的、基于字节流的传输层通信协议,tcp在OSI七层模型的第四层-传输层
在进行数据传输之前使用三次握手协议建立连接,大体的过程是客户端发出syn连接请求后,服务端接收请求后应答SYN+ACK,客户端收到服务端应答后应答ACK,这种建立连接的方法可以防止产生错误的连接,防止已失效的连接请求报文段突然又传送到了服务端
TCP三次握手的图示
1. 客户端发送SYN标志位为1,Sequence Number 为x的连接请求报文段,然后客户端进入SYN_SEND状态,等待服务器的确认响应
2. 服务器收到客户端的连接请求,对这个SYN报文段进行确认,然后发送AcknowledgmentNumber为x+1(Sequence Number+1),SYN标志位和ACK标志位均为1,Sequence Number为y的报文段给客户端,此时服务器进入SYN_RECV状态
3. 客户端收到服务器的SYN+ACK报文段,确认ACK后,发送AcknowledgmentNumner为y+1,SYN标志为0,ACK标志为1的报文段,发送完成后,客户端和服务端都进入ESTABLISHED状态,完成tcp三次握手,客户端和服务端成功建立连接,可以传输数据
当数据传送完成后,为了正确完整的完成数据传输,需要经过四次挥手断开连接。TCP四次挥过程图示如下:
TCP四次挥手过程描述如下:
1. 客户端发送Sequence Number为x+2,AcknowledgmentNumber为y+1的FIN报文段,客户端进入FIN_WAIT_1状态,即告诉服务端没有数据需要传输了,请求关闭连接;
2. 服务端收到客户端的FIN报文段后,向客户端应答一个AcknowledgmentNumber为SequenceNumber+1的ACK报文段,即应答客户端你的请求我收到了,但是我还没准备好,请等待我的关闭请求。客户端收到后进入FIN_WAIT_2状态;
3. 服务端完成数据传输后向客户端发送Sequence Number为y+1的FIN报文段,请求关闭连接,服务器进入LAST_ACK状态;
4. 客户端收到服务端的FIN报文段后,向服务端应答一个AcknowledgmentNumber为SequenceNumber+1的ACK报文段,然后客户端进入TIME_WAIT状态;服务端收到客户端的ACK报文段后关闭连接进入CLOSED状态,客户端等待2MSL后依然没有收到回复,则证明服务端已正常关闭,客户端此时关闭连接进入CLOSED状态。