破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍
【新智元导读】ChatGPT能耗惊人,该怎么解?谷歌DeepMind新算法JEST问世,让LLM训练的迭代次数降低13倍,计算量减少10倍,或将重塑AI未来。
ChatGPT早已成为世界耗能大户:一天用掉超50万度电,相当于1.7万个美国家庭的用电量!
然而,大模型对能源的吞噬,远不仅如此。
国际能源署(IEA)预测,从2022年到2026年,数据中心的用电量将翻一番。
图源备注:图片由AI生成,图片授权服务商Midjourney
随着AI计算需求的膨胀,还需要用水来冷却计算系统。研究称,微软用水量从2021年到22年飙升了34%,ChatGPT每处理5-50个提示就会消耗接近半升水。
针对这种现状,我们有更好的解决策略吗?
最近,谷歌DeepMind研究团队提出了一种加快AI训练的新方法——多模态对比学习与联合示例选择(JEST),大大减少了所需的计算资源和时间。
JEST以13倍更少的迭代次数,以及10倍更少的计算量,超越了最先进的模型!
论文地址:https://arxiv.org/pdf/2406.17711
预训练的参考模型,已经学习了什么样的数据是有「优质的」或「有用的」。然后通过模型,来引导数据选择那些精心筛选过的小型数据集。
这一发现揭示了,数据筛选水平可以作为评判Scaling Law的一个新维度。
网友激动表示,「我没想到这么快就会发生。模型能够自主选择训练数据的能力是巨大的,因为它使训练变得显著更容易,你不再需要猜测什么是高质量的训练数据,你有一个能够『理解』什么样的数据对自身学习最有价值的模型」。
前谷歌、苹果软件工程师称赞道,这项研究非常令人印象深刻。
从「超级batch」中筛选数据
无论是语言、视觉还是多模态模型,数据质量是预训练性能的重要驱动因素。比如Phi-3、Gemma2等模型的成功让我们看到了,更少、更高质量的数据有可能实现更强大的性能。
要筛选出高质量的数据,数据管道的建立就成为重要的工作。现有的方法大体可以分为两种:1)手动管理2)基于模型的数据管理,用正在训练模型的特征选择高质量数据。
前者成本高昂且难以扩展,后者则有望为多模态LLM实现Scaling Law。
然而,现有方法忽略了一个事实。
如果仅在单个数据点的层面进行筛选,就没有考虑到数据集以及batch的总体组成。毕竟,训练数据是以batch为单位,数据点之间的依赖性不可忽视。
许多计算机视觉的研究都曾表明,hard negatives(表达空间中相近但标签不同的样本)相比可被平凡解的数据簇,能提供更有效的学习信号。
那么如何让模型以batch为单位筛选数据呢?
论文提出的JEST算法正是要解决这个问题,原理很好理解:就是直接从「超级batch」中筛选出「子batch」。
技术介绍
用数学语言来描述这个问题,就是从大小为B的「超级batch」
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【汉字塘怎么组词】“塘”是一个常见的汉字,通常与水有关,常用于表示人工或自然形成的水池、水洼等。在日常...浏览全文>>
-
【汉字酵怎么读】在日常生活中,我们经常会遇到一些不太常见的汉字,比如“酵”。很多人对这个字的发音和含义...浏览全文>>
-
【汉字姣怎么组词姣怎么组词】“姣”是一个较为少见的汉字,读音为 jiāo,在汉语中多用于形容女子容貌美丽。...浏览全文>>
-
【汉字降可以组什么词】“降”是一个常见的汉字,读音为“jiàng”,在汉语中有着丰富的含义和用法。它既可以...浏览全文>>
-
【汉字见怎么组词】在汉语学习中,“见”是一个非常常见的汉字,它不仅在日常生活中频繁出现,而且在词语搭配...浏览全文>>
-
【汉字囝怎么读】在日常生活中,我们常常会遇到一些不常见的汉字,这些字不仅写法奇特,读音也让人感到困惑。...浏览全文>>
-
【汉字假组词语】“汉字假组词语”这一说法在传统汉语学习中并不常见,通常我们所接触的是“汉字”和“词语”...浏览全文>>
-
【海南旅游景点大全】海南,作为中国最南端的热带海岛省份,以其独特的自然风光、丰富的文化底蕴和宜人的气候...浏览全文>>
-
【海南旅游攻略】海南,作为中国最南端的省份,以其独特的热带风光、丰富的自然景观和多样的文化风情吸引了无...浏览全文>>
-
【海拉尔旅游攻略必玩的景点】海拉尔是内蒙古自治区呼伦贝尔市的行政中心,被誉为“中国最美的草原之一”,四...浏览全文>>