1
在网络变更过程中,
我们遇到了什么挑战?
随着千行百业数字化转型的逐步深入,各种各样的数字化新业务,新需求如雨后春笋般涌现,这也迫切要求网络策略能够快速变更和调整以适应业务需求的快速变化。然而,数字化时代,企业网络的规模复杂度远超想象,无线网络用户指数级增长,有线网络端口数以万计,“单点配置,影响全局”,网络变更对于业务的影响的评估也越来越困难,使之成为近年来网络故障/事故的主要根因之一。
根据国内某知名企业IT部门提供的数据,平均每月有30次左右的网络变更操作,由于网络变更失误导致的故障占比就高达43%,变更失败引发的业务中断,影响就更大。此外,金融行业客户反映他们平时网络运维都是围绕着变更场景做的,普遍认为70%以上的网络故障都是由变更引入。
同时,由于网络变更与业务成功直接相关,成功地变更除了要开通新的业务还要保证原有业务不发生故障,不引入新的问题。因此网络运维人员对网络的变更操作也变得越来越谨慎,经常需要在变更前进行方案设计评审,变更的影响评估,并且在变更实施后进行拨测,流量监控,手工检查表项,甚至人工现场连续保障2~3天等方式来检查变更后的网络是否符合预期。
确保网络能够快速,零差错变更,提升配置校验效率,成为网络变更过程中的关键挑战。
2
为什么传统的校验手段无法解决?
根据Dimensional Research对315名网络运维专家的调查,网络变更主要依赖人工检查和对报文进行镜像和抓包分析这两类传统运维手段来进行配置校验和问题定位。这两种手段的缺陷在于:
01
检验不准确,潜在问题难预防
传统配置校验手段只能依赖于真实的探测报文或者网络当前的活跃流量,对于潜在的路由和安全问题,只能后知后觉,在故障发生之后才出现异常,难以主动预防。而且使用ping,traceroute/tracert等命令发送探针报文,由于网络中存在的访问控制或安全策略,有可能阻断特定协议特定端口号的业务,无法通过探针报文检查出问题,导致校验结果不可靠,不准确,潜在问题难预防。
02
校验不全面,难以全网全量覆盖
传统人工校验本质上是采样分析,只要采样就有局限性和随机性,不可能做到全网全量覆盖。比如通过人工检查只能进行简单的单点连通性验证,面对网络中可能承载的成千上万成笛卡尔积的应用互访关系,无法有效穷举;而对校验对象进行报文镜像和抓包时,也不可能对所有业务报文做出1:1的镜像,校验过程很难覆盖完整的网络互访意图。
03
测试和故障定位时间长
传统人工校验缺乏可视化的路径信息和不可达根因,定位耗时。在不可达时逐个设备手工检查表项和配置,只在小型网络中可行,对于有上百台设备,上百万条表项的网络无异于大海捞针,往往会出现“变更1分钟,校验4小时”的情况。
3
什么是华为的智能校验技术?
华为CloudCampus(全无线智能云园区网络)与超过2000家大中型企业的网络创新实践,推出园区网络自动驾驶解决方案,旨在通过数字孪生,AI等技术构建智能校验,帮助企业园区网络突破人工校验的效率瓶颈。
智能校验让运维人员在iMaster NCE-Campus进行网络校验意图定义,如单点可达性验证,终端接入仿真验证,全子网互访验证等确定校验的规则和策略;然后,对网络设备的真实配置,转发表项以及网络拓扑等全面全量的信息进行数据采集,构建出忠实反映真实网络结构和转发行为的虚拟数学模型,为物理网络构建数字孪生映射。并使用数据面校验(DPV:data plane verification)技术,对网络进行严格的意图验证和闭环,高效校验网络问题。
4
智能校验技术能做什么,
能带来什么收益?
分钟级构建网络快照,配置变更快速法发现
运维人员可以通过iMaster NCE-Campus以只读的形式采集网络中设备的数据,并进行数据面建模,最终形成快照,5分钟即可完成500网元,超过15万路由表项,5万VLAN的数学建模,构建网络快照。快照可以理解为是某个时间点下网络的一个“镜像”,是智能校验方案的基础。运维人员可以对不同时间点的快照进行对比,通过对比快速发现网络在两个时间点下的设备差异、配置文件差异、接口链路状态差异和IP路由差异,为网络问题的快速定位提供有效的辅助信息。
100%全量互访关系覆盖,子网互通性一目了然
基于快照,可以通过矩阵形式呈现子网互通性验证结果,支持TCP/UDP/ICMP等多种协议的报文验证,展示所有网络的可达性信息和多路径连通信息,全网业务网段间的连通性情况一目了然。支持端到端的路径分析能力。校验返回结果直观可视化,包含转发路径,精确到协议号,端口号的可达/不可达报文空间,故障定位效率显著提升。
终端接入精准验证,用户权限安全可信
智能校验提供了终端接入验证的能力,网络管理员可以在快照中模拟一个接入终端,实时精准模拟校验终端接入权限是否精准,使网络安全可信。
5
智能校验要解决哪些技术难题?
❖ 网络设备成百上千,拓扑/转发模型复杂,如何做到全面准确的数学建模?
面对成百上千的网络设备,复杂的组网拓扑,以及二层三层,overlay,underlay等多层网络转发模型,如何做到全面全量的数学建模?
❖ 网络连接建模,物理拓扑100%数学建模
智能校验以数字孪生技术将复杂的物理网络抽象为数学的点线面的属性,依据从设备上采集到的信息,抽象出一个和现实网络在报文转发行为上等价等效的虚拟的数字孪生的网络模型,比如将网络设备,接口,二三层网络,Overlay和Underlay转发路径等全量信息虚拟化数字化的等价类,用数学的方法完成物理网络100%数字孪生映射。
❖ 报文头空间建模,转发行为100%数学建模
网络中报文的转发行为主要由报文头部信息所决定,譬如IP转发行为由目的IP字段所决定,安全过滤,访问控制的策略则与五元组强相关,真实的设备只能处理具体的报文,单看IPv4协议的目的IP就有种组合,如果再考虑五元组甚至更多字段的话,组合数量极其庞大。因此针对具体报文的采样检查很难对转发行为做出严谨和全量的覆盖。
智能校验借鉴了网络设备的报文匹配技术和学术界网络验证研究领域的思想,将一个具体的报文头当做一个N维空间中的一个点,这样就可以将原始的IP前缀转发表等价转换为一个报文等价类的转发表,构建一个全量的报文头空间:每个等价类用一个整数标识,每个设备的接口上记录能够从此转发出去的等价类集合。这样我们可以通过高效的数学算法和数据结构使得每个网络功能节点一次性处理一个集合的报文,比如说目的IP都属于某个网段的报文,突破了传统采样检查的限制,能够更高效更广泛地验证不同组合形式的报文头部,做到全网全量级别的校验。
❖ 转发路径复杂多变,如何做到严谨快速的可达性验证?
验证报文的转发行为,就需要重视于现实网络设备对报文的处理流程和转发机制。
智能校验紧扣网元设备对报文的处理行为,并通过形式化方法中的符号执行技术,符号化的模拟报文转发行为。如下图网络中,左边是依据所有转发表将全量报文空间划分为{1,2,3,4,5,6},六个报文等价类,每个等价类对应一个报文空间。右侧所示的则是一颗以A.1接口为根的可达树,能够穷举所有可能的报文转发路径和最终目的地,并使用高效图搜索算法和诸多更复杂的优化手段,能够在极短时间内完成全网全量的环路和黑洞检测以及大批量的可达性验证。