芯片资讯
- 发布日期:2024-02-11 10:46 点击次数:174
Mark是AMD公司的首席技术官 Papermaster制定了未来两年的发展计划。
在过去的几年里,随着摩尔定律的逐渐放缓,以及需要更高的功率来支持更高的处理性能,半导体设备的热量变得越来越严重。
正因为如此,芯片制造商必须在芯片的设计和制造方法上发挥创造力,以确保能效能够控制在合理的水平,即使总功率增加。AMD首席技术官Mark在一次采访中 Papermaster说,对于芯片设计师来说,仅仅将更多的晶体管包装到芯片中并不意味着一切都准备好了。
“现在我们不能继续如此粗糙地解决它。。。在摩尔定律时代,新的工艺节点使我们能够在不增加能耗的情况下,不断包装更多性能更高的晶体管。。。但那段美好的时光已经结束了。”
这也是AMD多年来一直在探索和解决的问题。为此,该公司于2021年启动了30×。;到2025年,计算效率将比2020年的基准提高30倍。
虽然这些努力给计算能力的可持续性带来了明显的优势,但AMD提高芯片每瓦性能的措施更多的是出于自身的生存。
正如AMD首席执行官苏子峰在今年早些时候的ISSC主题演讲中明确指出的那样,考虑到目前的技术发展速度,虽然ZetaFLOP(100亿次)超级计算机肯定可以在未来十年内实现,但必须严格控制其运行功率,以实现真正的可用性。据她估计,该设备的运行功率可能超过500兆瓦。
随着AMD最后期限的临近,其芯片业务取得了重大进展。然而,还有很长的路要走,因为到目前为止,它的性能只有13.5倍。
从先进的封装技术入手
Papermaster解释说,这是一个亟待解决和极其复杂的问题,没有单一的解决方案可供参考。“我们正处于计算能力和能耗呈指数增长的曲线之上。我们必须考虑遏制这条曲线的方法。”
在起步阶段,AMD一直强调通用、加速和特定领域计算能力的灵活组合,希望将CPU结合起来、GPU、联合FPGA和加速器等IP解决问题。
AMD还大力投资于各种技术,包括小芯片和先进的包装方案,希望突破现代半导体制造技术的极限。
AMD优化能效的主要思路之一是将计算与I/O和内存分开,然后使用最佳处理技术。其中一些元素比其他元素更适合随着工艺的缩小而扩展。正因为如此,AMDEpyc 4 在计算芯片中,CPU只使用5纳米节点,HGSEMI,华冠半导体,国产芯片,电子元器件采购平台而I/O芯片使用6纳米节点。
该方法还可以在行进包装技术的支持下进一步发展,从而将单个产品的晶体管密度提高到掩模板的极限以上。上周AMD发布的MI300系列加速器属于这一结果。该芯片采用APU和GPU设计,由多达13个小芯片组装(8个高带宽内存堆栈),然后使用高性能芯片连接在一起。
说到MI300A(这里「A」AMD实际上开发了一个名为Smart的代表APU) 根据工作负载在芯片中的24个Zen,Shift技术 4核心和6CDNA 3 动态分配GPU芯片之间的功率。
然而,性能越强,热量越大的趋势是不可逆转的。
然而,上述方法仍然不能改变摩尔定律逐渐失败的事实。将更多的计算能力插入单个包装仍然会带来更高的功耗。只能说,目前的技术有助于从数据移动的角度控制负载,减少损失。
他解释说:“集成度越高,串行器反序列化器上消耗的电力就越少——这里浪费的能量实际上相当可观……但更大的创新已经准备好了。”
即便如此,芯片本体热量的增加也给热管理带来了挑战。根据之前的报告,热管理正成为数据中心运营商的头号问题,尤其是那些想要大规模部署人工智能基础设施的运营商。
但Papermaster认为,这些挑战并非不可克服,而是代表了下一代热管理和数据中心基础设施的发展机遇。
他解释说:“在建立数据中心时,投资更先进的冷却技术将变得更具成本效益。对于运营商来说,保持领先优势,使用新的可再生能源,为数据中心选择更合适的地理位置将是值得的。在我看来,先进的冷却、改进导热材料、增强系统散热等方面都有新的发展空间。”
通过这些技术,Papermaster预计AMD和其他半导体制造商可以更高地推动系统的总功耗。“无论如何,我认为我们还没有挖掘出所有的潜力。”
软件层面也不乏机遇
Papermaster除了提高架构、封装和系统水平外,还特别强调了提高软件质量所带来的其它机会。
他强调,“下一个前沿领域是通过软件栈建立更深入的合作伙伴关系。我们已经开始与领先的人工智能从业者密切合作...包括微软、甲骨文、Lamini等厂商,我们在Mosaic ML项目的各种探索。这些合作伙伴关系让我们深入了解可以与软件解决方案提供商和社区参与者合作进行哪些优化。”
上周ROCM 6.随着软件平台的推出,我们可以看到AMD在通过软件改进促进更高效率方面取得了一些进展。AMD还表示,仅凭对底层软件框架的优化,他们就成功地使用了VLLM、HIP Graph和Flash Attention等大语言模型的性能提高到1.3倍到2.6倍左右。
ROCm 6、MI300系列加速器通过组合进一步改进架构设计 与5加MI250相比,前者正在运行Llama 2 当推理载荷为700亿参数模型时,可将延迟降低到8分之一。
- 联想推出全新高级驾驶辅助系统2024-02-13
- DRAM的存储容量是这样计算的2024-02-12
- 首批CPU、操作系统及数据库通过权威安全可靠测评2024-02-10
- 什么是ARM芯片架构的指令集2024-02-09
- Microchip推出首批车规级芯片10BASE2024-02-09
- STM32对于应届毕业生和刚入门的工程师来说有什么优势?2024-02-07