网络爬虫系列课程-TCP/IP协议族的基本知识

网络爬虫系列课程-TCP/IP协议族的基本知识

想要学习HTTP协议知识么?怎么讨论TCP/IP协议族了?

别急着学习HTTP协议,如果你没有计算机网络的基本知识功底,还是乖乖的继续往下学习,否则举步维艰描述的就是将来的你。

一名游走于江湖的虫师,怎么能对计算机网络毫无所知?匪夷所思!匪夷所思!啊!

理解协议分层原因

理解计算机网络的第一个知识点是 网络通信模型分层的产生原因 ,我们要从两个故事开始:

故事一:单层结构通信

玛利亚两个人是邻居并且都有同样的兴趣爱好,两人语言不通,玛利亚只会说西班牙语只会说英语,但是都学习过手语,因此两人可以通过手语面对面的交流想法和观点。

故事二:多层结构通信

由于工作原因,搬离了另外的城市居住,两人分开前很伤心,但是送给玛利亚一个翻译机,可以将西班牙语的文字翻译成密码,也可以将密码翻译成西班牙语文字,
自己也有一个翻译机,可以将英语文字翻译成密码,也可以将密码翻译成英文文字,两人通过邮局将文字转换成的密码内容传递给对方,再通过翻译机来解密获得自己认识的文字内容,
这样两人又可以互相通信了。

网络协议分层

计算机网络的通信就如同玛利亚之间的通信一样,需要跨越很多物理硬件的差异才能与另外一台主机通信。

一种新技术的诞生,通常需要提前制定好实现的标准规范,这样才能保证不同的人实现的结果就有一致性,比如通信模型,这种一致性的好处就是虽然实现方式不同,但是结果是二者可以互相正确通信。
试想一下,我们生活中的电源插座、USB插座或者手机充电接口都是同样的道理。

再比如苹果手机的充电接口和Android的充电接口的不一致,其实是有意为之,带来的结果不兼容!不兼容!不兼容! , 生活中遇见不兼容的问题是多磨让人头疼的事情!看看下面这些USB接口吧。

USB_types_2.jpg

为了解决不兼容等一切网络通信问题,达到让所有计算机可以在网络中相互通信, 一个叫做OSI模型的网络通信模型诞生了,这个模型是由国际标准化组织(ISO)召集了大约全世界四分之三的国家代表参与下共同制定的(1984年发布了著名的ISO/IEC 7498标准)。

当时的网络通信参考模型并不是只有一种,在OSI参考模型之前已经有了TCP/IP参考模型(也被称为互联网协议套件或TCP/IP协议族)。

根据维基百科资料,1983年1月1日,互联网前身ARPA网中的通信方式换成了TCPIP模型,并且在现在的互联网中经受住了竞争的考研也就是说TCPIP模型OSI参考模型指定前就已经被实现并应用了,而且通信模型相对更加容易实现。
最终历史并没有给OSI模型表现的机会,OSI参考模型只是作为学习研究的参考模型。

TCP/IP协议族

翻一翻《计算机网络》书中的这张图,大家可以参考了解下。

OSI模型: 七层协议栈
TCPIP模型: 四层协议栈
教科书模型: 五层协议栈,这是结合了二者模型的学习参考模型。《TCPIP协议栈》教材也是按照五层讲解每层协议的。

TCP/IP协议栈

TCP/IP协议栈的体系结构(以五层为例)

七层OSI结构为理论学习使用,四层结构为现在计算机实际应用结构,而五层体系结构为教科使用

  • 物理层:直接对接网络物理硬件(例如:网线、光纤等),保证数字信号与电信号在物理硬件上的正确传输。
  • 数据链路层:负责相邻节点之间的点对点帧(frame)数据传输,通信的地址为物理网卡的MAC地址,例如家用的Hub集线器就是工作在这一层。
  • 网络层:负责为分组交换网络上的不同主机提供通信服务,使用的IP协议将IP数据报传输到目标主机上,IP地址的目的是识别主机的网络位置。例如路由器也是工作在这一层的。
  • 传输层: 知道主机位置了,那是什么应用服务之间在通信呢,传输层就是为两个主机之间进程通信提供服务的。服务的标识为端口号,协议主要包含TCPUDP协议。例如网络硬件负载均衡设备是工作在这一层完成服务的负载均衡的。
  • 应用层: 知道两个主机是哪个进程在通信了还不够,还要知道他们是使用什么协议在通信的,这个协议的实现就是应用层提供的服务,比如 HTTP、FTP、SSH、SMTP 等等协议。

主机之间的网络通信依赖于每一层的协议,这一系列的协议就是按照TCP/IP协议族中协议规范实现的。

下图为实际两台主机之间的网络交互过程描述:

主机之间的网络交互过程

下图为Wireshark工具下分析消息包的层次结构(每层都对应着一种协议格式):

Wireshark工具下分析消息包的层次结构

数据通过这种协议栈的层层包裹与解析,可以清晰无误的传达需要传达的数据,不会因为协议在中途解析识别错误而丢失的情况,如果数据因为某种原因无法传达到目的地,也会有对应的协议保证可以及时发现汇报。

RFC文档

每一种协议的实现都是有个标准规范,比如我们都要实现一个FTP协议,那么大家都按同一个标准规范来做才能保证不同人的实现功能保证一致,彼此才能正确通信。

每种协议都对应着一个或多个RFC规范文档,例如: FTP协议规范文档有RFC959RFC1579RFC2228等。

HTTP协议规范文档有RFC2616RFC7540

想要阅读RFC文档内容可以从这里下载获取:RFC文档下载地址

我们也可以通过查看 RFC索引文档 了解搜索关键词找到与之相关的所有的RFC文档简要信息。

转载本文时请注明出处及本文链接地址网络爬虫系列课程-TCP/IP协议族的基本知识

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注