HTTP协议笔记

引言

HTTP是一个面向对象的基于请求与响应的应用层协议,适用于分布式的超媒体信息系统.
HTTP的主要特点:

  • 支持客户/服务器模式
  • 简单快捷
  • 可以传输任意类型的数据对象(传输类型由Content-Type加以标记)
  • 无连接(每次连接只处理一个请求)HTTP/1.1种给出一种持续连接的机制
  • 无状态(对于事务处理没有记忆能力)

关于URL

HTTP URL的格式如下:

http://host[:”port”][abs_path]

http代表通过HTTP协议来定位网络资源;host表示合法的Internet主机域名或者IP地址;port指定一个端口号,为空则使用默认端口80;abs_path指定请求的资源的位置;若URL中没有给出abs_path,那么它作为请求URL时,必须以”/”的形式给出,通常这个工作浏览器会自动完成.


请求篇

HTTP请求由三个部分构成: 请求行, 消息报头, 请求正文

请求行格式如下: Method Request-URL HTTP-Version CRLF
其中Method表示请求方法;Request-URL为一个统一资源标识符;HTTP-Version表示请求的HTTP协议版本;CRLF表示回车换行(即”\r\n”)
请求方法(所有方法都为大写)有多种:

  • GET //请求获取Request-URL所标识的资源
  • POST //在Request-URL所标识的资源后附加新的数据,常用于提交表单
  • HEAD //请求获取由Request-URL所标识的资源的响应消息报头,不必传输整个资源内容
  • PUT //请求服务器存储一个资源,并用Request-URL作为其标识
  • DELETE //请求服务器删除Request-URL所标识的资源
  • TRACE //请求服务器回送收到的请求信息,主要用于测试或诊断
  • CONNECT //保留将来使用
  • OPTIONS //请求查询服务器的性能,或者查询与资源相关的选项和需求

响应篇

在接收和解释请求消息后,服务器返回一个HTTP响应消息.
HTTP响应由三部分组成: 状态行, 消息报头, 响应正文

状态行格式如下: HTTP-Version Status-Code Reason-Phrase CRLF
其中HTTP-Version表示服务器HTTP协议的版本;Status-Code表示服务器发回的响应状态代码;Reason-Phrase表示状态码的文本描述
状态码由三位数字构成,第一个数字定义了响应的类别,且有五种可能取值:

  • 1xx: 指示信息–表示请求已接收,继续处理
  • 2xx: 成功–表示请求已被成功接收,理解,接受
  • 3xx: 重定向–要完成请求必须进行更进一步的操作
  • 4xx: 客户端错误–请求有语法错误或请求无法实现
  • 5xx: 服务器端错误–服务器未能实现合法的请求

常见的状态码:

  • 200 OK //客户端请求成功
  • 400 Bad Request //客户端请求有语法错误,不能被服务器理解
  • 401 Unauthorized //请求未经授权,这个状态码必须和WWW-Authenticate报头域一起使用
  • 403 Forbidden //服务器收到请求,但是拒绝提供服务
  • 404 Not Found //请求资源不存在(eg: 输入了错误的URL)
  • 500 Internal Server Error //服务器发生不可预期的错误
  • 503 Server Unavailable //服务器当前不能处理客户端的请求,一段时间后可能恢复正常

消息报头篇

HTTP消息由客户端到服务器的请求和服务器到客户端响应组成.
请求消息和响应消息都是由开始行(对于请求消息来说,就是请求行;对于响应消息来说,就是状态行),消息报头(可选),空行(CRLF),消息正文(可选)组成.

HTTP消息报头包括普通报头, 请求报头, 响应报头, 实体报头.
每一个报头域都是由 名字+":"+空格+值 组成,消息报头域的名字是大小无关的

  1. 普通报头
    在普通报头中,有少数报头域用于所有的请求和响应消息,但并不用于被传输的实体,只用于传输的消息.
    eg: Cache-Control
    用于指定缓存指令,为单向且独立的(一个消息的缓存指令不会影响另一个消息处理的缓存指令)(HTTP/1.0中类似的报头域为Pragma)
    请求时缓存指令包括: no-cache(用于指示请求或响应消息不能缓存),no-store,max-age…
    响应时缓存指令包括: public, private, no-cache, no-store, no-transform…
    eg: 为了指示浏览器不要缓存页面,服务器的响应报头可以加上: Cache-Control: no-cache

    Date: 表示消息产生的日期和时间
    Connection: 用于指定连接的选项.例如指定”close”,通知服务器在响应后关闭连接.

  2. 请求报头
    请求报头允许客户端向服务器端传递请求的附加信息以及客户端自身的信息
    常用的请求报头:
    Accept: 用于指定客户端接收哪些类型的信息.
    eg: Accept: image/gif 表明客户端希望接受GIF图像格式的资源;Accept: text/html 表明客户端希望接受html文本.
    Accept-Charset: 用于指定客户端接收的字符集.(若不设置表明任何字符集都可以接受)
    eg: Accept-Charset: iso-8859-1,gb2312
    Accept-Encoding: 用于指定可接受的内容编码.(若不设置表明客户端对各种内容编码都可以接受)
    eg: Accept-Encoding: gzip.deflate
    Accept-Language: 用于指定一种自然语言.(若不设置表明各种语言都可以接受)
    eg: Accept-Language: zh-cn
    Authorization: 用于证明客户端有权查看某个资源.当浏览器访问一个页面时,如果收到服务器的响应代码401(未授权),可以发送一个包含Authorization请求报头域的请求,要求服务器对其进行验证.
    Host: 用于指定被请求资源的Internet主机和端口号,通常从HTTP URL中提取.(发送请求时,改报头域是必须的)
    eg: Host: www.baidu.com(:指定端口号)
    User-Agent: 将客户端的操作系统,浏览器和其他属性告诉服务器.非必需.

  3. 响应报头
    响应报头允许服务器传递不能放在状态行中的附加响应信息,以及关于服务器的信息和对Request-URL所标识的资源进行下一步访问的信息.
    常用的响应报头:
    Location: 用于重定向接受者到一个新的位置.常用在更换域名的时候.
    Server: 包含服务器用来处理请求的软件信息.与User-Agent请求报头域是相对应的.
    WWW-Authenticate: 该响应报头域必须包含在401(未授权)响应信息中,客户端收到401响应消息的时候,并发送Authorization报头域请求服务器对其进行验证时,服务端响应报头域就包含该报头域.

  4. 实体报头
    请求和响应消息都可以传送一个实体.一个实体由实体报头域和实体正文组成,但并不是说实体报头域和实体正文要在一起发送,可以只发送实体报头域.实体报头定义了关于实体正文(eg: 有无实体正文)和请求所标识的资源的元信息.
    常用的实体报头:
    Content-Encoding: 用作媒体类型的修饰符,它的值指示了已经被应用到实体正文的附加内容的编码,因而要获得Content-Type报头域中所引用的媒体类型,必须采用相应的解码机制.
    eg: Content-Encoding: gzip
    Content-Language: 描述了资源所用的自然语言.没有设置改域则认为实体内容将提供给所有的语言阅读者.
    eg: Content-Language: da
    Content-Length: 用于指明实体正文的长度,以字节方式存储的十进制数字来表示.
    Content-Type: 指明发送给接受者的实体正文的媒体类型.
    eg: Content-Type: text/html;charset=ISO-8859-1
    Last-Modified: 用于指示资源的最后修改日期和时间.
    Expires: 响应过期的日期和时间.为了让代理服务器或浏览器在一段时间后更新缓存中的页面,我们可以使用Expires实体报头域指定页面过期的时间.HTTP/1.1的客户端和缓存必须将其他非法的日期格式(包括0)
    eg: Expires: Thu,15 Sep 2006 16:23:12 GMT