GenAI的瓶颈...并不是GPU
每个人都会认为解决了GPU问题就能解决GenAI的重要发展难题。事实并非如此。在这第一部分的讨论中,我将解释限制GenAI研发的迫在眉睫的因素,它同时会影响我们赖以生存的环境。
今年三月,亚马逊以6.5亿美元从Talen收购了其首个核能数据中心——Cumulus Data Assets。这个位于宾夕法尼亚州的数据中心由2.5 GW Susquehanna核电站供电并直接连接。
这次收购标志着核能数据中心时代的开始,进而也意味着核能计算资源的兴起。虽然这并不完全出人意料,但核能数据中心的概念一直在云服务提供商的关注列表上。实际上,早在2023年,Green Energy Partners就计划在弗吉尼亚州的Surry核电站供电下建立一个拥有30个数据中心的园区。同样在2023年,Standard Power计划在俄亥俄州和宾夕法尼亚州建设两个总计2GW的先进核能设施,以为附近的数据中心提供清洁能源。
本文仅代表个人观点
为什么选择核能数据中心?为什么是现在?
根据国际能源署(IEA)的数据,到2026年,全球数据中心(包括加密货币)对电力的需求可能会翻倍。2022年,全球数据中心的总能耗(不包括加密货币)达到340 TWh,占全球总电力需求的1-1.5%。以加利福尼亚的全年用电量280 TWh为例,这个数字可见一斑。美国的情况也类似:2022年,美国数据中心的总用电量为17 GW,预计到2030年将达到35 GW。同年,美国约有2700个数据中心,这一数字预计将在2024年翻倍至5400个。
这种急剧增长的电力需求主要是由我们尖端技术(包括人工智能)所需的计算能力大幅提升所驱动。超大规模结构数据中心托管着计算机和相关硬件设备。这些大规模的计算机为我们使用的技术产品提供动力,支持文件共享、生产力应用、人工智能和机器学习等。特别是对于大型语言模型(LLMs),如果没有数据中心几乎不可能训练部署和托管模型。然而,根据美国能源部(DOE)的数据,数据中心也被认为是能耗最高的建筑类型之一,每平方米的能耗比一般商业办公楼高出10-50倍。
“人工智能的未来取决于能源突破。”
这就是为什么萨姆·阿尔特曼(Sam Altman)今年早些时候说,人工智能的未来取决于能源突破。
关于GPT-4的传言称OpenAI使用了25000块NVIDIA A100 GPU,用了100天训练了这个庞大的1.7万亿参数的模型,耗资1亿美元。仅这个训练过程就消耗了50 GWh的电能。需要注意的是,这个能源消耗仅涉及一个GPT-4模型的训练;像Llama-3(约4600亿参数)、Grok-1(3140亿参数)以及正在开发中的其他大型模型也消耗非常大的电能。
AI研究人员们追求真正的智能道路上,最早且最“可行”的方法就是加大模型规模。从2018年的第一个BERT模型(约1.1亿参数)到2023年的最新GPT-4(1.7万亿参数)——历史经验表明较大的模型往往表现出更高的“智能”。在这种“蛮力”现象的推动下,我们不会出乎意料地看到GPT-5、Llama-4等模型的规模翻倍、翻三倍甚至翻四倍。
不仅仅是模型在变大,基础模型研发机构也在不断增加。自GPT-3首次发布以来,市场上涌现了一系列模型,包括Meta的Llama、Mistral AI的Mistral、X的Grok、Google的Gemini和Microsoft的MAI等。
不错,你发现了。我们有更多人和企业在致力于大型语言模型(LLM)研究,而每个LLM的规模也在不断增大。那么,这对我们的能源系统意味着什么呢?
全球或美国的电力系统是否真的能够持续支持日益增长的电能需求?
无需猜测,我们已经有了答案。
亚利桑那公共服务公司(Arizona Public Service)已经难以满足数据中心不断增长的需求,而德克萨斯州在夏季已经徘徊在电力短缺的边缘,也面临着同样的挑战。弗吉尼亚州提议扩大燃煤发电和输电线路,因为现有的发电设施已无法满足数据中心不断增长的需求。
电力短缺不是暂时性的问题;需求增长的速度远远超过了我们建设新发电厂的能力。根据国际能源署(IEA)的数据,到2026年,预计新增的400 TWh电力需求将需要全球建设约400座天然气发电厂——仅仅在2年内,假设每年平均产量为1 TWh的天然气发电站。
数据中心人工智能计算的电力消耗在基准情景下将增加0.5%全球温室气体排放量,在悲观展望下则增加0.7-1%。
我们也来计算一下温室气体(GHG)排放。假设美国平均电网碳强度为390 kgCO2/MWh,这将导致额外排放150百万吨二氧化碳——相当于美国2022年年度温室气体排放的2.5%,以及全球年度温室气体排放的约0.5%。作为参考,从2021年到2022年,全球年度温室气体排放增加了约1.5%。这无疑对人类的节能减排计划施加了巨大压力,并引发了关于气候和技术上的讨论。
这个估计甚至还是偏向乐观的。实际上,全球电网的碳强度可能不如美国的平均水平那样清洁。电力短缺迫使电网变得更“脏”。以弗吉尼亚州改造煤电厂为例:当当前的天然气发电厂无法满足高峰需求时,他们只能依赖于碳排放更高的煤炭发电厂。而这种权衡在电网运营中非常常见。如果高峰时间段变得更加频繁,那么推迟煤电厂的退役势在必行。因此,更悲观的展望可能意味着全球温室气体排放每年增加0.7-1%。
乐观和悲观的场景
上述讨论基于两个假设:(1)未来的人工智能研究能源需求以线性或者指数即增加,以及(2)我们现有的电网系统不管以何种方式都可以满足这些需求。
理想的情景是:
AI的进步不如预期那样能源密集:增加模型体量并不是实现人类语言理解的唯一途径;规模较小的算法可能提供更节能的解决方案。此外,我们可能可以更早地接近并克服预期的训练和算法瓶颈。
人类成功地扩大了电力基础设施,最好是以更环保的方式。例如,开始开发核电厂,或者研发使用其他更多的可再生能源(如电池系统)。
不太理想的情景是:
技术优先于气候和可持续性的考虑:在追求真正智能和生产力工具时,我们可能会牺牲我们居住的环境。
电网发展未能满足电力需求:由于电力短缺导致施工延误,限制了计算能力,进一步阻碍了人工智能研究的发展。尽管前几年数据中心数量激增,专家们预计受到供电影响,其建设速度放缓。
我们如何确保人类最终会实现理想的场景?
在下一期的文章里,我将从需求和供应的角度探讨潜在的解决方案和假设。这也是解决能源危机的常见框架。敬请关注!