光学器件在人工智能集群中不断演变的作用
近期,市场研究机构LightCounting (以下简称LC)发布了主题为“人工智能光学”的新报告。报告指出人工智能在眨眼之间就已崭露头角。LC 的首份《人工智能光学》报告强调了人工智能如何改变计算机架构和网络,而光学在其中发挥着关键作用。LC的人工智能预测侧重于光学。但是,该机构称如果再加上一条预测,那就是:光学不仅将在人工智能系统的发展中发挥重要作用,而且人工智能将越来越多地在晶体管、芯片和系统层面为这些系统的设计做出贡献。
整个行业的创新速度各不相同。新应用的开发速度很快。其中大多数会失败,但也有一些会成功,似乎一夜之间就能改变世界。软件和人工智能算法的创新速度之快超出了我们的想象。至少在外部观察者看来是这样,但专家们可能不这么认为。
硬件领域的创新则是一个更为渐进却又无情的过程。光连接也不例外,对此有可靠的数据参考。硅光子技术的应用花了十年时间,都在等待这项技术带来真正颠覆性的解决方案,如可靠的协同封装光学技术。毫无疑问,这种情况将在本十年末出现,但本报告的预测重点是部署在人工智能集群中的可插拔光模块--这是当前和未来五年光连接的主要解决方案。
目前,90% 以上部署在人工智能集群中的光模块用于 InfiniBand 和以太网连接。如下图所示,NVLink 连接到 GPU 所需的带宽是以太网和 InfiniBand 的 4 倍。人工智能集群设计的另一个瓶颈是 GPU 可用的高带宽内存(HBM)有限,这也是带宽提高 3 倍的另一个因素。
事实证明,光交换机可以用来扩展和重新配置其人工智能集群并以此提高集群性能,同时最大限度地降低成本和功耗。该研究机构预计,在未来 3-5 年内,将有更多公司采用这项技术。
人工智能集群中应用的光学需求规模是 2023 年的一个惊喜,同时ChatGTP 在 2022 年底成为头条新闻的时机尤为重要。对即将到来的经济衰退的担忧和收入增长下降的初步迹象迫使所有领先的云计算公司削减开支,包括对数据中心的投资和光模块的采购。2024-2025 年的强劲增长毋庸置疑。
大型网络设备制造商业务的增长是影响 2023-2025 年光模块销量的主要因素。人工智能集群的新设计需要更多的光模块。以前的所有系统都只使用 InfiniBand 网络进行光连接,而且这些系统大多是 AOC。基于 NDR(400G)InfiniBand 的最新系统使用可插拔的 400/800G SR4/SR8 和 DR4/DR8 光模块,而不是 AOC。该公司还于 2022 年 3 月发布了专为 800G 光连接设计的 NVLink 机箱交换机。该公司目前正在内部测试光纤 NVLink,但这些解决方案应在 2024 年底前提供给最终用户。如果需要更长的时间,LC称将不得不降低对 2025-2029 年的预测。
本报告首次对大型网络设备制造商提供的光模块进行了预测,并将其与 AI 集群中使用的其他光模块进行了比较。该制造商设计的光模块具有更严格的误码率规范,以最大限度地减少传输误差。这并不妨碍客户使用第三方光学器件,但不能保证系统性能。LC预计,终端用户最终将过渡到使用第三方光学器件,以节省成本,但这将是一个逐步过渡的过程。
来源:https://www.lightcounting.com/login
新博客
微信公众号