面向分布式AI的智能网卡低延迟Fabric技术

发布时间:2020-10-22 作者:熊先奎, 袁进辉, 宋庆春 阅读量:

 

 

面向分布式AI的智能网卡低延迟Fabric技术
 
熊先奎1, 袁进辉2, 宋庆春3
(1. 中兴通讯股份有限公司,中国 深圳 518057;2. 北京一流科技有限公司,中国 北京 100083;3. 国际高性能计算和人工智能咨询委员会,美国 森尼韦尔 94085 )
 
摘要:系统阐述了在分布式人工智能计算负载中使用低延迟Fabric技术出现的问题,包括虚拟化环境支撑、通信原语抽象化、网络拥塞控制等方面。针对这些问题,提出了使用基于可编程智能网卡的解决思路。
关键词:分布式人工智能;智能网卡;RDMA


Low Latency Fabric Technology of Smart NIC for Distributed AI
 
XIONG Xiankui1, YUAN Jinhui2, SONG Qingchun3
(1. ZTE Corporation, Shenzhen 518057, China; 2. Beijing Oneflow Technology Co., Ltd, Beijing 100083, China; 3. HPC-AI Advisory Council, Sunnyvale 94085, America )
 
Abstract:Some issues of using low latency fabric technology for distributed artificial intelligence workload are systematically discussed, including virtualization environment support, communication primitive abstraction, network congestion control etc. In view of these problems, a programmable smart NIC solution is proposed.
Keywords: distributed artificial intelligence; smart NIC; remote direct memory access

 

 

在线PDF浏览: PDF