网络安全检测|网络安全服务|网络安全扫描-香港墨客投资移动版

主页 > 业界资讯 > Routers配置

软件定义数据中心L1层全光交换解决方案(2)

  为了验证网络弹性,所有小规模POD连接中都配置了一个光开关,并在叶层和脊层各添加了一个冗余的IB交换机,以替换失效的叶交换机或脊交换机。测试台由4台DGX服务器和14台IB量子交换机组成:其中8台作为叶交换机,4台作为脊交换机。两个额外的IB交换机作为冗余设备:一个冗余叶交换机(RL,如图1a所示)和一个冗余脊交换机(RS)。我们使用现成的L1光开关【POLATIS】。光链路则选择了200 Gb/s CWDM可插拔光模块,其显着减少了所需的光开关端口,且有足够的链路预算来支持光开关的损耗。DGX具有8个IB接口(8个通道),每个通道连接到不同的Leaf交换机。叶交换机与脊交换机完全连接,即没有超额负载。所有连接都接入光开关,以进行各种实验;当前评估重点关注IB交换机的更换。

  实验程序和结果

  我们进行了交换机失效模拟,触发SDN L1控制器搜索物理拓扑以减轻故障。冗余交换机接管了物理拓扑中故障交换机的角色,IB子网管理器接收到拓扑更改通知,该通知指示其修复L2网络配置。通过适当地处理IB传输超时,运行中的应用程序可以在网络更改后恢复运行。

  图2显示了我们对UCX和NCCL集体通信库的测试结果。在该测试场景中,进行了IB交换机故障模拟。图表显示了实验中涉及的一个DGX的IB界面上的带宽(y轴)随时间(x轴)的变化,对于all-to-all和all-reduce的微基准测试。基准测试在4个DGX之间和接口之间产生相同的流量。我们运行微基准测试,模拟故障,并监控随着时间的推移应用程序的性能和状态。在Spine故障期间,由于活动链路的减少,系统的容量会降低,但应用程序有可替代路径可用,不会崩溃。启用弹性方案后,可以在几秒钟内恢复群集的全部性能(Spine故障切换)。在Leaf层发生故障(Leaf failover)的情况下,应用程序崩溃,受影响的IB接口将保持离线状态,直到问题解决。启用弹性方案后,应用程序在中断几秒钟(目前约为7秒,但有待优化)仍能继续运行,系统的全部容量也能够恢复。

图2:在启用弹性解决方案的情况下,演示微基准的BW恢复:a)在左侧OSU上,全部到全部,b)在右侧NCCL上,全部减少。显示所有链路随时间变化的带宽:黄色部分显示Tx带宽,而紫色部分显示Rx带宽。一个DGX的所有链路的图都重叠。

  结论

  我们提出了一个系统设计和工作流程,结合起来实现了L1的可编程性。构建了一个HPC/ML测试台,并通过模拟交换机故障场景来评估弹性应用。通过添加光交换网络和冗余设备,可在几秒钟内自动恢复全部容量;此外,可以避免在叶级故障期间发生的应用程序崩溃。在未来的工作中,我们计划提供成本分析和其他实验的详细结果,包括其他应用。

OFC 2023 HUBER+SUHNER Polatis展位现场视频


  凌云光自2001年起即关注光交换技术、产品与应用的推广,2015年正式与全球光交换厂家HUBER+SUHNER Polatis公司建立战略合作伙伴关系,共同开创光交换应用的新时代。

  HUBER+SUHNER Polatis 提供低损耗的全光交换解决方案,用于远程光纤层配置、保护、监控、重新配置和测试。基于可靠的、经过现场验证的 DirectLight光学矩阵开关技术,Polatis 动态光纤交叉连接可从8x8扩展到 576x576端口,并实现完全透明的连接,具有低损耗和无背反射,完全独立于波长、功率或数据速率。动态光交叉连接是实现软件定义的光网络基础设施自动化和虚拟化的关键要素。Polatis 支持RESTCONF和NETCONF,可轻松与 OpenDaylight 等流行的 SDN 控制器集成,还与前沿的传输 SDN 供应商合作,以支持新兴标准并确保我们的客户受益于可靠的 SDN 解决方案。

(责任编辑:admin)