# AI时代网络的演进:从需求到创新随着大模型时代的到来,网络已成为AI系统中的关键一环。本文将从原理出发,探讨网络为何成为AI时代的"C位",并讨论未来网络侧的创新与投资机会。## 网络需求的来源1. 模型体积日益庞大,单卡算力上限与模型规模差距拉大,需要多服务器集群解决训练问题。2. 网络不仅用于传输数据,更多用于同步显卡间的模型参数,对网络密度和容量提出更高要求。3. 训练耗时与计算速率密切相关,而计算速率取决于单设备速率、设备数量和多设备并行效率。网络对后两项起关键作用。4. 多卡训练中,每次计算后都需进行参数对齐,对网络传输和交换提出高要求。5. 大模型训练持续数月,网络故障可能导致巨大损失,对系统稳定性要求极高。## 网络创新方向1. 通信介质更迭:光、铜与硅三大介质各有优势,正向LPO、LRO、硅光等降本方向发展。2. 网络协议竞争:节点内通信协议与显卡绑定,节点间通信以IB和以太网为主。 3. 网络架构变化:从叶脊架构向Dragonfly架构、rail-only架构等方向演进,以适应超大集群需求。## 投资建议1. 关注通信系统核心环节:中际旭创、新易盛、天孚通信等。2. 关注通信系统创新环节:长飞光纤、太辰光、盛科通信等。3. 重点关注降本创新、开放生态和算力规模的平衡。4. 跟踪新技术动态,把握由此带来的元器件需求变化。网络系统工程是由众多环节共同创新和努力完成的,其投资机会更加明确可循。在把握核心环节的同时,也要积极关注创新带来的新机遇。
AI时代网络演进:从需求到创新 解析大模型时代网络关键角色
AI时代网络的演进:从需求到创新
随着大模型时代的到来,网络已成为AI系统中的关键一环。本文将从原理出发,探讨网络为何成为AI时代的"C位",并讨论未来网络侧的创新与投资机会。
网络需求的来源
模型体积日益庞大,单卡算力上限与模型规模差距拉大,需要多服务器集群解决训练问题。
网络不仅用于传输数据,更多用于同步显卡间的模型参数,对网络密度和容量提出更高要求。
训练耗时与计算速率密切相关,而计算速率取决于单设备速率、设备数量和多设备并行效率。网络对后两项起关键作用。
多卡训练中,每次计算后都需进行参数对齐,对网络传输和交换提出高要求。
大模型训练持续数月,网络故障可能导致巨大损失,对系统稳定性要求极高。
网络创新方向
通信介质更迭:光、铜与硅三大介质各有优势,正向LPO、LRO、硅光等降本方向发展。
网络协议竞争:节点内通信协议与显卡绑定,节点间通信以IB和以太网为主。
网络架构变化:从叶脊架构向Dragonfly架构、rail-only架构等方向演进,以适应超大集群需求。
投资建议
关注通信系统核心环节:中际旭创、新易盛、天孚通信等。
关注通信系统创新环节:长飞光纤、太辰光、盛科通信等。
重点关注降本创新、开放生态和算力规模的平衡。
跟踪新技术动态,把握由此带来的元器件需求变化。
网络系统工程是由众多环节共同创新和努力完成的,其投资机会更加明确可循。在把握核心环节的同时,也要积极关注创新带来的新机遇。