首页 >> 综合头条 >

IBM 推出高效 LLM 基准测试方法,计算成本降低99%

2024-06-04 10:41:02 来源: 用户: 

站长之家(ChinaZ.com)6月4日 消息:IBM 研究发布了一项突破性的 LLM(大型语言模型)基准测试方法,承诺将计算成本降低高达99%。传统的基准测试,如斯坦福的 HELM,需要耗费超过一天的时间,并且成本高达1万美元,这对开发人员和研究人员来说是一个昂贵的过程。随着 LLMs 能力的增强,基准测试的过程变得更加严格,需要大量的计算能力和时间。

IBM 的创新方法源自以色列的 IBM 研究实验室,由 Leshem Choshen 领导的团队开发了一种新方法,大幅降低基准测试的成本。他们并非运行全尺寸基准测试,而是设计了一个使用原始基准测试规模的1% 的 “微型” 版本。令人惊讶的是,这些微型基准测试已被证明几乎同样有效,可以在98% 的准确度内估计出全尺寸测试的性能。

该团队利用人工智能从完整基准测试中选择最具代表性的问题,包含在微小版本中。这种选择性方法确保较小的基准测试仍然高度预测整体模型性能,消除了不贡献有意义评估的冗余或无关紧要的问题。

IBM 的高效方法引起了 AI 社区的关注,尤其是在2023年 NeurIPS 的高效 LLM 比赛中。面临使用有限计算资源评估大量模型的挑战,组织者与 IBM 合作实施了一个名为 Flash HELM 的简化基准测试。这种高效方法使他们能够迅速淘汰表现较差的模型,并将计算资源集中在最有前途的候选模型上,从而进行及时和具有成本效益的评估。

Flash HELM 的成功展示了 IBM 高效基准测试方法的潜力,促使其在 IBM 的 watsonx 平台上评估所有 LLMs。成本节约可观;例如,在像 HELM 这样的基准测试中评估 Granite13B 模型可能耗费高达1000个 GPU 小时,但使用高效基准测试方法显著降低了这些成本。

高效基准测试不仅降低成本,还通过允许更快速地迭代和测试新算法来加速创新。IBM 研究人员,包括 Youssef Mroueh 在内,指出这些方法使得更快速、更经济的评估成为可能,促进了更加灵活的发展过程。

这一概念已经超出了 IBM 的范畴。斯坦福实施了 Efficient-HELM,这是其传统基准测试的简化版本,为开发人员提供了选择示例数量和希望分配的计算资源量的灵活性。这一做法强调了一个新兴共识,即更大的基准测试不一定意味着更好的评估。

“大型基准测试不一定通过变得更大而增加价值,”Choshen 说。“这是我们的见解,我们希望它能够引领更快速、更经济的 LLM 性能评估方法。”

IBM 的高效基准测试方法代表了人工智能领域的重大进步,为评估先进语言模型所需的不断增加的成本和资源需求提供了实际解决方案。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章
  • 【汉字塘怎么组词】“塘”是一个常见的汉字,通常与水有关,常用于表示人工或自然形成的水池、水洼等。在日常...浏览全文>>
  • 【汉字酵怎么读】在日常生活中,我们经常会遇到一些不太常见的汉字,比如“酵”。很多人对这个字的发音和含义...浏览全文>>
  • 【汉字姣怎么组词姣怎么组词】“姣”是一个较为少见的汉字,读音为 jiāo,在汉语中多用于形容女子容貌美丽。...浏览全文>>
  • 【汉字降可以组什么词】“降”是一个常见的汉字,读音为“jiàng”,在汉语中有着丰富的含义和用法。它既可以...浏览全文>>
  • 【汉字见怎么组词】在汉语学习中,“见”是一个非常常见的汉字,它不仅在日常生活中频繁出现,而且在词语搭配...浏览全文>>
  • 【汉字囝怎么读】在日常生活中,我们常常会遇到一些不常见的汉字,这些字不仅写法奇特,读音也让人感到困惑。...浏览全文>>
  • 【汉字假组词语】“汉字假组词语”这一说法在传统汉语学习中并不常见,通常我们所接触的是“汉字”和“词语”...浏览全文>>
  • 【海南旅游景点大全】海南,作为中国最南端的热带海岛省份,以其独特的自然风光、丰富的文化底蕴和宜人的气候...浏览全文>>
  • 【海南旅游攻略】海南,作为中国最南端的省份,以其独特的热带风光、丰富的自然景观和多样的文化风情吸引了无...浏览全文>>
  • 【海拉尔旅游攻略必玩的景点】海拉尔是内蒙古自治区呼伦贝尔市的行政中心,被誉为“中国最美的草原之一”,四...浏览全文>>