网络安全检测|网络安全服务|网络安全扫描-香港墨客投资移动版

主页 > 业界资讯 > Routers配置

软件定义数据中心L1层全光交换解决方案

  ICC讯  人工智能计算领域的领导者NVIDIA公司,在OFC 2023会议上发表的“Software-defined, programmable L1 dataplane: demonstration of fabric hardware resilience using optical switches”论文中,介绍了其最新的工作成果,提出了一种用于数据中心网络的可编程光纤结构设计,利用HUBER+SUHNER Polatis矩阵光开关将SDN扩展到L1。并在其HPC/ML测试台上进行了实验,利用可编程网络自动从硬件或软件故障中进行故障切换。

  文章概述

  软件定义的控制平面彻底改变了网络。应用程序可以按需求配置网络,即使需要与其他负载共享网络资源。如今,网络基础设施的深度编程可深入到第2层(L2),例如InfiniBand(IB)子网管理器(SM)是软件定义控制器的最低级别。这意味着网络的可编程性无法作用于物理基础设施布线,通常来讲物理基础设施在部署后是固定的。我们通过引入一种工作流程,即将软件定义的控制能力扩展到L1,来消除这一限制。软件定义的物理层将网络布线从刚性基础设施转换为可编程资源,允许在网络运行时进行物理拓扑更改。这为各种过去不可行的、新的网络操作奠定了基础,但同时带来了新的影响:需要在网络堆栈的更高级别处理。

  基于光开关的实现的在网络运行时的L1可编程性使得几个新应用得以实现。第一个也是我们当前评估的重点,是针对网络结构(交换机、收发器和/或服务器)中的硬件故障和软件故障提供弹性。失效对计算集群的利用率和效率的影响在整个行业都很明显,这使创建弹性网络变得非常重要。业务关键型应用程序需要保证持续可用性:停机意味着收入损失、客户流失以及公司声誉受损。L1可编程性的另一个潜在应用是根据应用程序需求修改网络的物理拓扑,例如在胖树的叶交换机之间创建环面/网格,以减少对延迟敏感的应用程序的通信时间。或在超额订阅的网络中,根据需要将带宽分配给网络的各个部分,以根据物理拓扑提供不同的QoS。L1可编程性还可以在物理层中应用隔离,断开多个租户之间的网元,或隔离已被识别为潜在威胁的主机。我们的PoC基于IB架构,但同样适用于NVLINK和以太网。

  由于无法更改物理连接,当前的故障恢复解决方案侧重于通过调整转发配置来尽可能排除故障路径。例如在IB网络中的软件特性有SHIELD和利用替代路径的自适应路由。这些协议有两个显着的局限性。首先,它们只能在存在替代路径的情况下使用;叶交换机上的故障(将断开服务器与网络的连接)或服务器上的故障无法通过这种方式缓解。其次,他们无法恢复集群的全部性能。另一种增强弹性的方法是添加冗余硬件来备份整个或部分网络(例如,Dual ToR)。这种方法的缺点是需要更多的硬件,资源未得到充分利用。

  弹性系统的可重构结构

  我们利用光开关来实现L1可编程数据平面。光开关可对光路进行重定位,光路的I/O排列由电接口定义控制。如图1a所示,通过在给定网络拓扑的交换层之间引入光开关,实现了点对点光纤连接排列的可编程更改。图1a显示了针对小规模二级(叶脊架构)胖树中的弹性应用的网络架构。在网络中增加了冗余交换机(RS–冗余脊交换机和RL–冗余叶交换机)和冗余服务器。冗余设备与主网络元件一并连接到光开关的可用端口。当检测到设备故障时,对应的光开关会执行修正配置:断开故障设备与网络的连接,用冗余设备替换。该设计允许可编程的弹性程度(主设备和冗余设备的比率)根据系统要求而变化。此外,该体系结构可以隔离安全威胁,最大限度地减少维护期间的停机时间,同时作为通用的可编程数据平面。

  我们设计并实现了相应的控制平面软件,可以看作L1数据平面控制的SDN堆栈扩展。设计了图形化后端来反映物理网络拓扑结构(包括光交换部件),为控制器逻辑提供所需的系统建模支持。随后,引入了一组概念和算法,允许SDN L1控制器识别给定部署的不同拓扑可能性,执行物理拓扑变化,并向L2层控制器发出信号以适应物理网络的变化。图1(b和c)显示了系统控制回路,紫色的SDN L1(光纤结构管理器-OFM)是执行物理更改并向L2(在IB的情况下是子网管理器)发送通知的软件。同样地,可以扩展L2来请求物理拓扑更改。故障检测机制(超出当前工作范围)通知OFM需要更换设备。OFM计算并强制执行相应的光学连接,例如,在Leaf交换机故障的情况下,图1a中的RL1将其替换。随后,网络控制器将RL1囊括在网络中。该工作流程能够在几秒钟内将网络容量恢复到100%。此外,如本文下几节所讨论,我们正在进行防止设备故障导致的应用程序崩溃的工作。

图1:  a)弹性体系结构概述 b)控制回路流程图和 c)软件概述

  试验台说明

(责任编辑:admin)