一文让你秒懂互联网TCP/IP协议的深层含义

Drony · 发表于 2018-9-21 15:44:05

区块链涉及到的技术很多，从互联网底层到不明觉厉的密码学，可是往往关注币价者多而研究技术的人少。牛市的时候，大家为了炒币也会努力学习，熊市的时候，反正也没啥事，我觉得可以更加努力学习。作为一个文科生，我当然会有很多理科生看起来觉得很白痴的问题。作为一个记者，我不难找到业内懂的人用人话给我解释，而且他们往往不会当面嫌弃我。

在接触区块链的时候，你可能会发现经常有人会说到协议，偶尔还会有人说到 TCP/IP 协议。乍听之下不明觉厉，但转念一想这似乎真的已经是最普遍而且我们每天都在用的 “协议” 了。还会有人拿区块链跟互联网相比，而互联网的底层是 TCP/IP 协议；还听到过徐明星说过区块链是将会是金融的 TCP/IP 协议；加上以太坊的架构中网络层的资料也非常少。所以我想了解一下。这次的学习笔记主要是依靠网上公开资料的整理，很多段落可能是 copy 自不同的解释文章，真的是所谓的 “笔记” 了。

什么是 TCP/IP 协议

首先，协议，可以理解为是一套统一的规则，就像行业标准。由于互联网主要的功能是传输信息，所以其协议一般是管理系统之间如何相互通信的规则。
用邮政和物流等线下的“运输协议”来理解，我们以前写信的时候都需要写邮编、寄信人、收信人和地址，在途中邮政也有自身的标准，比如不同地区的邮递员收集特定地区的邮件，然后汇集分发；物流行业也有集装箱、铁轨等。
在互联网通信中，“如何探测到通信目标、由哪一边先发起通信、使用哪种语言进行通信、怎样结束通信等规则都需要事先确定。不同的硬件、操作系统之间的通信，所有的这一切都需要一种规则。”
TCP/IP 协议的全称是 Transmission Control Protocol and Internet Protocol。TCP 和 IP 分别是两种协议；同时TCP/IP 协议可以指互联网传输过程中用到的一组协议族和互联网模型，因为 TCP 和 IP 在其中比较重要，所以以它们来命名。
由于通信中涉及到的步骤和用到的软硬件很多，因此会被划分成不同的层次。TCP/IP 模型有四个抽象的层次，描述了总体的设计大纲，并实现了网络通信的具体协议。
这个模型中不同的协议有着不同的“分工”，掌握所需要的信息，并且根据特定信息完成它的工作，其实跟现实生活中工作流程差不多。再用上面邮政和寄快递的例子，由于存在分工，你问收件的快递员你的快递单到哪是他肯定是不知道的，他只负责把你的快件送到快递集散点。
对于用户而言，可以把 TCP/IP 协议理解成快递公司，用户只需要寄件和签收，怎么把快件从 A 运到 B 手上，就是快递公司的事了。再次借用知乎哦吼的话：“TCP/IP 也是网络通信里的物流公司，应用程序只要把需要传输的数据提交给 TCP/IP，TCP/IP 就可以把数据打包发到目的地，至于里面的传输细节应用程序也可以不关心，这样应用程序就可以从最底层的传输细节里解放出来，把更多的注意力放在应用程序数据本身的处理。”
接下来我们可以开始来了解一下这家快递公司内部的各个重要角色。
TCP/IP 各层协议的职能

这家公司大概可以分成四个部门，也就是 TCP/IP 协议族按层次分别分为应用层、传输层、网络层和网络接口层（数据链路层+物理层）。

先来个英文版

再来个萌萌哒中文版
上面这幅图其实很形象地表现了整个数据传输的过程，我们在微信上发一句话看似很简单，其实每一步都经过了从上层到底层，再从底层到上层应用的过程。比如小熊在微信上给小明发了一句消息，直到小明收到这个消息，其实就经过了上述过程。
微信所在的是应用层，它按照特定格式把数据打包好，加上收寄件人和双方地址、自己的 “记号”（以便到了小明那边知道这条消息是要给微信的）等等，给到传输层；传输层的 TCP 协议会把文件切成更小的碎片，确保数据包都被安全传输；网络（互连）层的 IP 协议会找到最佳路径；这个消息会通过光纤、WiFi 等网络发过去。到达目的地之后，被打散的数据会经过重组，传输层也会从记号知道这是给微信的。
上面这个过程其实已经聊到 TCP 协议和 IP 协议的主要作用，这两个分别是传输层和网络互连层最主要的协议，因此这个模型以它们来命名。具体过程中会有很多其他协议，传不同的数据时，应用层会有不同的协议处理。感兴趣的宝宝可以继续跟我一起了解细节。

互联网中信息以数据包的单位传输，不同的协议层对数据包有不同的称谓，在传输层叫做段 (segment)，在网络层叫做数据报 (datagram)，在链路层叫做帧 (frame)。

发送端在层与层之间传输数据时，每经过一层时必定会被打上一个该层所属的首部信息，这种把数据信息包装起来的做法称为封装（encapsulate）。数据封装成帧后发到传输介质上，到达目的主机后每层协议再剥掉相应的首部，最后将应用层数据交给应用程序处理。我会从最底层开始讲起。
网络接口层常见协议： Ethernet 802.3、Token Ring 802.5、X.25、Frame relay、HDLC、PPP ATM等。
又叫网络访问层（数据连接 + 物理层），负责从上层接收 IP 数据包并通过网络发送，或者从网络上接收物理帧，抽出 IP 数据包，交给 IP 层。这层包括主机连接到物理网络所需要的硬件以及传送数据的协议。比如路由、NIC（Network Interface Card，网络适配器，即网卡），及光纤等物理可见部分；这层的协议取决于所使用的物理网络。如果物理网络是 LAN，那么通常使用的是以太网（802.3）协议以及它的变体，如果使用的是 WAN，常用的则是点对点协议（PPP）以及帧中继等协议。
其中比较出名的是以太网协议。“两台电脑（主机）之间是通过网卡来进行发送和接收数据的。每个网卡都有一个独特的地址，也就是 MAC 地址。以太网数据以帧为单位，包括标头和数据部分。以太网在子网内以广播的形式发送数据。光有 MAC 地址并不能让两台主机之间相互通信，如果两台主机不在同一个子网，以太网协议就没辙了。这就要通过网络层来区分每台主机所在的网络是哪个子网。如果在同一个子网，就用广播发送数据，否则就用路由发送。这就导致了网络层的诞生。”（来自极光推送）

网络访问层

常见协议：IP(Internet Protocol)、ICMP、ARP(Address Resolution Protocol)、RARP(Reverse ARP)。 IP 是网络层的核心，通过路由选择将下一条 IP 封装后交给接口层。 ICMP 是网络层的补充，可以回送报文。用来检测网络是否通畅。
网络层的主要任务简而言之就是“给每个数据包确定路线”。这个主机可能在同一个网络或者外部网络，因此需要先区分主机是不是在同一个子网。
这层就是 IP 协议所在的地方。就像我们写信的时候需要有一个地址，在网络世界中也需要一个地址，这个网络地址就是 IP 地址。

IP 地址是门牌号，而 IP 协议负责计算并找到指定门牌，快递小哥每天出门前要做的事就是 IP 协议的天职：分拣包裹、规划路径。其实，三五个节点的小型网络内部通信完全不必使用 IP 协议，因为这些节点之间本来就能两两互通，但会有个问题：节点数变多后，网速就会瘫痪，因为带宽耗尽。（带宽指固定时间内能传递的数据包，有点像马路宽度。）
因此，后来一片网络拆分成很多子网络（sub networks），每片子网络交给一台路由器统管。子网络中的节点间可以单独通信，不需要 IP 协议，但由于带宽限制，如果你想和本网络外的节点沟通时，就得使用一个设备：路由器。世界上大多数的路由器被几家大运营商掌管。

如上图，节点 1 和 2 同属一个子网，可基于内部通信协议沟通，而 1 和 5 间的联络必须基于 IP 协议，通过路由器 1 和 2 之间的路径交流。
把 IP 协议的逻辑推广到整个互联网，最终，连接我们手机客户端和腾讯服务器的是无数个路由器。

把大网络切小的好处显而易见：节约带宽、抬高网速，同时一只路由器挂了不影响其他节点间的通信，这就是 IP 协议的作用。

这层还有一些 “协助”IP 协议工作的协议，比如 ARP 和 RARP。要保证数据确实传送到对方主机，除了 IP 地址之外还需要 MAC 地址（Media Access Control Address）。Mac 地址又称物理地址，跟网卡一一对应，对于一台主机来说是唯一且不可变的。IP 地址则是会根据你所在网络的不同改变的。
上述两个协议的作用简单而言就是：用 IP 地址找 Mac 地址；以及用 Mac 地址找 IP 地址。具体的作用请看下面两段：

“ARP（地址解析协议）基本功能就是通过目标设备的 IP 地址，查询目标设备的 MAC 地址，以保证通信的顺利进行。以太网中的数据帧从一个主机到达网内的另一台主机是根据48位的以太网地址（硬件地址）来确定接口的，而不是根据 32 位的 IP 地址。内核必须知道目的端的硬件地址才能发送数据。P2P 的连接是不需要 ARP 的。
RARP（反向地址转换协议）允许局域网的物理机器从网关服务器的 ARP 表或者缓存上请求其 IP 地址。局域网网关路由器中存有一个表以映射 MAC 和与其对应的 IP 地址。当设置一台新的机器时，其 RARP 客户机程序需要向路由器上的 RARP 服务器请求相应的 IP 地址。假设在路由表中已经设置了一个记录，RARP 服务器将会返回 IP 地址给机器。”

看完之后你可能跟我有一样的疑惑，既然都是靠物理地址找主机，为啥还需要 IP 地址？51CTO 和 CSDN 这两篇文章可以解答这个问题：

MAC 地址结构是酱紫的：一共有 48bit，分为两部分，前 24bit 是厂商代码，后 24bit 是厂家自己分配的。假如我们认为 MAC 地址可以区分不同的网络的话，那只能是使用厂商代码来区分不同的网络，显然同品牌网卡不代表在同一个网络。
最早这个世界上的电脑没这么多的时候，是没有路由这个东西存在的，主机都在一张网里，所以确实是直接通过 mac 地址通信的。最初的链路层协议是和 ip 地址无关的，没有网络层方面的设定，只有物理层和链路层，最初也只有集线器，没有交换机路由器，服务器之间传输数据全靠 mac 地址。在没有 ip 地址之前，mac 地址已经在使用了。现在到处都在用的二层交换机，就是根据 mac 地址转发数据。mac 地址的设计不携带设备在网络中的位置信息，想要通过 mac 地址通信，我们得在所有的设备上维护一张很大的表，记录所有 mac 地址路由在当前位置的的下一跳，这显然是不合理的。

再次用《图解 HTTP》里面萌萌哒图解释一下这个过程：

MAC 地址就像电脑的个人身份证，IP 地址就像电脑所在的屋子，屋子里可以住着很多人，局域网关路由就像登记人口的街道办公室。
传输层

有了 IP 协议，就可以在两个主机之间发送数据了，接下来的问题在于每台主机都有不同的应用，如何区分哪个数据包属于哪个程序？这就是传输层的作用。传输层的主要任务是确保分割的单元在另一端正确地到达，它建立端口到端口的连接。网络层建立主机到主机的连接，只要有主机和端口，就能确定数据包属于哪个程序的。同时它也负责接收应用层的数据，然后把它们分成更小的单元（标头和数据部分在网络层的数据部分），传输到网络层。
这里提到的端口不是硬件端口，而是软件端口，端口有点向外界信息进入电脑的门，不同的信息通过这些门传给不同应用程序。

“ip 能锁定一台物理机器，对应着一张网卡，外界发来的数据包网卡都会接收。但是问题来了，网卡给程序提供了接口，你监听一下我，要是有消息来了，我就转发给你。这样应用程序就能收到数据了。但是问题来了，程序 A 和程序 B 都需要监听网卡接发数据，网卡说那我把接到的数据都发给你两，你们自己看着办吧。好，小 A 小 B 都接受了。但是又来了 CDEF......，不行了，每个包都被发到了所有应用程序，每个应用程序都累得不行，最终垮了。
好，那网卡说我给你们加个表示吧，我们之间可以用一个号码来作为标识，我和小 A 之间就用 1 来标识，如果外界发给 1 号标识的数据我就转发给你，你监听我的时候得告诉我你监听的时 1，我就转发 1 的数据包给你。好了其他的 BCD... 都自己弄一个标识号，只要不重复就行。这样大家都省事了。
最后设计到安全，一个标识号只能被一个应用程序监听，因为如果小 A 程序和小 B 同时监听一个标识号号，那就坏了，我传的数据都被 AB 接到，这样数据安全性就没办法保证了。”

这一层主要有两个协议：TCP 和 UDP。
TCP是一种面向连接的、可靠的、基于字节流的传输层通信协议。UDP（用户数据报协议）是一种无连接的传输层协议，提供面向事务的简单不可靠信息传送服务。
这两句话虽然看起来也是让人懵逼，但大概能让人 get 到一个可靠一个没那么可靠。没错这就是两者的区别。
TCP 协议提到的所谓字节流服务（Byte Stream Service）是指，为了方便传输，将大块数据分割成以报文段（segment）为单位的数据包进行管理。而可靠的传输服务是指，能够把数据准确可靠地传给对方。简单来说就是，它把数据切成一个个数据包，从第一只数据包开始传，传送成功就翻倍，发现失败就地爬起来，从绊倒的那只数据包重新开始，周而复始。（以下内容来自知乎用户陈宝佳和小明）：

图片来自《图解HTTP》

为了准确无误地将数据送达目标处，在收发数据前，必须和对方建立可靠的连接。TCP 协议采用了三次握手（three-way handshaking）策略。握手过程中使用了 TCP 的标志（flag） &mdash;&mdash; SYN（synchronize）和 ACK（acknowledgement）：
第一次握手：客户端发送 syn 包 (syn=j) 到服务器，并进入 SYN_SEND 状态，等待服务器确认;
第二次握手：服务器收到 syn 包，必须确认客户的 SYN(ack=j+1)，同时自己也发送一个 SYN 包(syn=k)，即 SYN+ACK 包，此时服务器进入 SYN_RECV 状态;
第三次握手：客户端收到服务器的 SYN+ACK 包，向服务器发送确认包 ACK(ack=k+1)，此包发送完毕，客户端和服务器进入 ESTABLISHED 状态，完成三次握手。
注意：握手过程中传送的包里不包含数据，三次握手完毕后，客户端与服务器才正式开始传送数据。除了上述三次握手，TCP 协议还有其他各种手段来保证通信的可靠性。
理想状态下，TCP 连接一旦建立，在通信双方中的任何一方主动关闭连接之前，TCP 连接都将被一直保持下去。
断开连接时服务器和客户端均可以主动发起断开 TCP 连接的请求，断开过程需要经过“四次握手”。

至于 UDP 协议，传送数据前并不与对方建立连接，对接收到的数据也不发送确认信号，发送端不知道数据是否会正确接收，当然也不用重发，所以说 UDP 是无连接的、不可靠的一种数据传输协议。UDP 传输的信息包最小只有 8 个字节，TCP 则是 20 个字节。这样的好处是，UDP 对系统资源要求更低，开销更小，数据传输速率更高，因为不必进行收发数据的确认，所以 UDP 的实时性更好。他还表示 MSN 采用 TCP 传输协议传文件，QQ 传输文件采用 UDP，所以后者更快。

我在学校的时候，有师兄教过我用 “ping” 命令来测试两台主机之间 TCP/IP 通信是否正常。依然是据上面那个知乎大神解释，“其实 ping 命令的原理就是向对方主机发送 UDP 数据包，然后对方主机确认收到数据包，如果数据包是否到达的消息及时反馈回来，那么网络就是通的。ping 命令是使用 IP 和网络控制信息协议 (ICMP)，因而没有涉及到任何传输协议(UDP/TCP) 和应用程序。它发送 icmp 回送请求消息给目的主机。ICMP 协议规定：目的主机必须返回 ICMP 回送应答消息给源主机。如果源主机在一定时间内收到应答，则认为主机可达。”

应用层

应用层是互联网程序与其他程序通信所使用的层，也是离用户“最近”的一层。
比如说访问网页，肯定要用到 HTTP，前面肯定会有"HTTP://"，这就是 HTTP 协议（超文本传输协议）（或者加上了"HTTPS://"，这是安全的超文本传输协议）。1982 年春，美国国防部宣布 TCP/IP 作为军用网络的通信标准。1989 年，Timothy Berners-Lee 研发出了超文本传输协议 HTTP，之后，互联网上可以传输的不仅只有文字，还有包括图片等各种多媒体的网页。
我们通常访问一个网页的的时候更习惯打域名，比如 https://www.badidu.com，而不会直接打 IP（看我上面 ping 命令的截图，你会看到百度的 IP），因为这样更好记，可是电脑就不是这么想的，所以就需要 DNS（域名系统）。DNS 用于通过域名查找 IP 地址，或逆向从 IP 地址反查域名的服务。
如果要发邮件，就要用到SMTP（简单邮件传输协议）；还有 FTP（文件传输协议），用于 Internet 上的控制文件的双向传输，同时也是一个应用程序；还有 Telnet，Internet 远程登陆服务的标准协议和主要方式，能用户可以在一台电脑上远程控制另一台电脑（你在 QQ 中大概用过）。

这一层的主要任务是将接收到的数据包按照协议解读成各种类型的数据，并将要发送的数据打包进传输层。主要协议有：HTTP、FTP、SMTP、Telnet、NFS、RIP 等等。
文章来源于网络

一文让你秒懂互联网TCP/IP协议的深层含义

站长推荐 /2