TCP流量给谁用了?

袁永泽、涂海波、唐锡南


        1、引言


        TCP是互联网的基础协议之一,其上承接了大多数的网络应用,例如:网页浏览,微信聊天,邮件通讯等。说它是互联网上最重要的基础通讯协议一点也不为过。互联网上既有芸芸众生的正常网民,也有大隐于世的高级“黑客”。互联网上的流量是被谁用了呢?到底被“好人“用得多?还是被”坏人”用得多呢?


        互联网上的流量如果被用来传送正常应用我们称之为“好”流量;如果被用来攻击别人或刺探别人的信息,就叫做“坏”流量。那么为什么计算“好、坏”流量这么难呢?原来跟现实世界一样,区分“好人、坏人“不是一件简单的事。



图表 1  各级内存的延迟

        企业和单位的数据中心现在广泛地使用万兆网络(10Gbps), 在这个网络上每秒可以传送14,800,000个64字节的最小报文。在这样的高速网络下每个报文的处理时间就只有67纳秒(10-9s)。图表 1列出了某款Intel CPU各级内存的延迟。可以看出,访问一次内存都需要68纳秒。也就是说访问一次内存就需要识别出“好”流量还是“坏”流量,这么抠苛的条件对系统计算能力是一个极大的考验。目前只有在DPI(Deep Packet Inspection)领域拥有世界领先的并行技术(Parallel Processing)的公司才有能力在万兆流量下处理10,000,000(千万)级别的TCP连接。


        南京云利来的iTAP(Intelligent TAP)是一个类似超级计算机的高速地网络流量分析器,它拥有处理40Gbps网络流量的处理能力,能实时地针对每一条TCP流分析,计算出这条流的主要特征,例如:
        • TCP三次握手的完成情况:客户端只发了一个SYN扫描报文就结束了。
        • TCP传送中的质量: 重传率有多高?
        • TCP的结束状态:是不是被RST异常终结了?
        • TCP的连接大小:传送了多少字节?
        • TCP的连接质量:连接的延迟是多少?

        刻画每条TCP流(TCP per-flow)的元数据是区分“好、坏”流量的关键,它们会被送到大数据分析平台iMAP(intelligent Metadata Analytic Platform)得到进一步地分析,从而计算出一段时间内“好、坏”流量的比例。


        2、TCP流量成分分析


        网络上的“坏”流量主要有如下几种:
        1.刺探别人情报的流量: 主要是看别人的TCP端口(门)是否打开了?
        2.对别人攻击的流量:例如发起分布式拒绝攻击(DDoS)。
        3.对别人渗透的流量:侵入别人的网络准备干“坏事“。
        4.偷别人数据的流量:盗取别人的数据。

        本文就以分析第一种“坏”流量为例,说明大数据分析技术在网路流量成分计算中的应用。



图表 2  TCP 当天流量和过去7天流量的同比图

        图表 2显示了某单位两个小时之内以TCP连接数计算的流量和过去7天同段时间内TCP流量的同比图。图中0d代表着今天,-1d代表着昨天,-2d代表着前天,于此类推。每种颜色代表不同天的TCP流量。这些流量是根据采集的TCP元数据计算得出的。元数据的量级在每天几亿条,磁盘空间大约每天1TByte。 因此需要一个强大的数据平台来支撑TCP流量分析,尤其是需要强大计算能力才能做出这种流量分析的同比图。大数据分析平台iMAP就是为此而生的。


        从TCP流量当天和过去七天同比图可以看出有很多“波峰”的大流量,代表着其流量和其它天的相同时间段相比是最高的(峰值)。一般来说,同一时间段内TCP的流量遵循一定的统计规律,不会有太大地变化。这些变化无常的流量到底是什么原因造成的呢?

图表 3  当天和其它七天TCP扫描流量的同比图

        图表 3显示了当前两个小时针对他人的TCP扫描流量和过去7天扫描流量的同比图。可以发现图表 2和图表 3这两张图在整体上很相似,尤其是高位的波峰有多处相似处。例如:三天前的流量有多个高峰(紫色),而最高点出现在两天前的15时15分左右(黄色)。由此可以推断:不同天的流量变化主要是由TCP扫描流量引起的。


图表 4  除去扫描流量的TCP当天干净流量和过去7天干净流量的同比图

        图表 4显示了除去扫描流量后两个小时TCP“干净”流量和过去七天内干净流量的同比图。可以看出流量变化大体相似,没有明显地“大”的波峰了。

        通过iMAP大数据分析,我们可以得出在某些时刻TCP流量中有很多“坏”的流量。这些坏流量有可能在总流量中占相当大的成分,决定着流量的走势。


图表 5  好、坏流量相对比例

         图表 5列出了当前两个小时“好、坏”流量的对比。从图中可以看出坏流量接近总流量的50%,其影响还是相当大的。


图表 6  内、外网发起的扫描流量对比

         iMAP平台还有强大地IP地址过滤的功能,能区分一个IP地址是内网地址还是外网地址。通过使用类似IP路由器高速转发算法(IP Forwarding)的过滤功能来进一步地区分扫描流量是由外边发起的,还是由内部发起的。如果是由内部发起的,那么内部的安全隐患就非常地严重了。

         图表 6给出了内、外网扫描流量的对比图,竟然有大于40%的内网扫描流量的存在,它表示内部有不少机器已经被入侵了,正在发起大量的扫描报文,刺探其它电脑的TCP大门是否打开了?需要花大力气清理这类内网的安全隐患了。



        3、总结



         高效的TCP流量分析器iTAP为TCP流量大数据分析提供了可靠、干净的数据,强大地iMAP大数据分析平台提供了对TCP流的过滤、聚合、归类、对比的分析能力,再通过大数据可视化技术,各类流量的分析结果就可以直观、生动地展现出来了。

         通过大数据分析我们得知:TCP流的峰值变化可能是“坏”流量引起的,这些坏流量一旦侵入一个企业(单位)内部,有可能随时发起网络扫描、感染、攻击等危害动作,从而既浪费了大量的TCP有效资源(高达50%),又对正常的网络应用形成冲击。迫切需要对TCP流量的进行实时监控,用以准确地掌握内网的安全态势。

         在TCP大流量的压力下,一个大数据分析平台需要具备存储、搜索几十亿条TCP元数据的能力。只有在这样的平台上,才能有效地进行对TCP流量中异常事件的实时分析,高效地实现对网络安全隐患的自动报警、快速定位、历史回溯等功能。







© 2013-2019 IDO-NET All rights reserved.