首页 >> 综合头条 >

比OpenAI的Whisper快50%，最新开源语音模型

2024-08-04 09:00:11 来源：用户：

生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa，推理效率比OpenAI开源的Whisper快50%。

aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法，允许模型在每个推理步骤中预测多个token，同时不会损失性能和识别准确率。

开源地址:https://github.com/aiola-lab/whisper-medusa

huggingface:https://huggingface.co/aiola/whisper-medusa-v1

传统的Transformer架构在生成序列时，是遵循逐个token的顺序预测过程。这意味着在生成新序列时，模型每次只能预测下一个token，然后将这个预测的token加入到序列中，再基于更新后的序列预测下一个token。

这虽然能够确保生成序列的连贯性和上下文相关性，但也有一个非常明显的缺陷——极大限制了模型的推理效率。

此外，由于每次只能处理一个 token ，模型难以捕捉到数据中的长程依赖关系，可能会忽略一些重要的全局信息，从而影响模型的整体性能和准确性。

而Whisper-Medusa使用了10头的多注意力机制，能各自独立地计算注意力分布并行地处理输入，然后将各自的输出通过拼接的方式组合起来，形成一个多维度的向量。

随后向量被送入全连接层进行进一步的处理，以生成最终的token预测。这种并行的数据处理方式不仅加快了模型的推理效率，还增加了模型的表达能力，因为每个注意力头都可以专注于序列的不同子集，捕捉到更丰富的上下文信息。

为了使多头注意力机制在Whisper-Medusa模型中更高效地运行，aiOla采用了弱监督的方法，在训练过程中冻结了原Whisper模型的主要组件，使用该模型生成的音频转录作为伪标签来训练额外的token预测模块。

使得模型即便没有大量手动人工标注数据的情况下，依然能够学习到有效的语音识别模式。

此外在训练过程中，Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。一方面，模型需要确保预测的token序列与实际转录尽可能一致;

另一方面，通过多头注意力机制的并行预测，模型被鼓励在保证精度的前提下，尽可能地加快预测效率。

aiOla使用了学习率调度、梯度裁剪、正则化等多种方法，确保模型在训练过程中能够稳定收敛，同时避免过拟合性。

业务场景方面， Whisper-Medusa能理解100多种语言，用户可以开发音频转录、识别等多种应用，适用于翻译、金融、旅游、物流、仓储等行业。

aiOla表示，未来会将Whisper-Medusa的多注意力机制扩展至20个头，其推理效率将再次获得大幅度提升。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

分享：

相关阅读

赛诺菲暂停在国内供应销售流感疫苗，未发现安全有效性问题

2014年以来1.5亿农业转移人口进城落户

财政部：1-7月国有企业利润总额25701.5亿元，同比下降2%

深成指、创业板指均跌超1%

去掉物理按键！小米真全面屏旗舰曝光：重现MIX荣光

光伏概念股震荡走低，大全能源跌超10%

上汽工业集团公司换帅完成工商变更

8月27日人民币对美元中间价调贬110个基点

像母语一样看外语网站，用这一个翻译插件就够了。

全球基金继续买入印尼股票

军工股早盘下挫，高凌信息、华如科技跌超10%

食品饮料等消费股震荡走低，欢乐家跌超10%

银河证券：关注人形机器人的投资机会

三星开始为高通汽车半导体提供LPDDR4X

生物疫苗板块震荡走高，华兰疫苗涨停

苹果官宣首席财务官换人：帕瑞克成新一任CFO

最新文章

好听的女生网名qq

【好听的女生网名qq】在QQ等社交平台上，一个好听的女生网名不仅能体现个人风格，还能让人印象深刻。选择一个...浏览全文>>

好听的女生昵称大全

【好听的女生昵称大全】在社交平台、游戏账号或日常聊天中，一个好听又独特的昵称不仅能展现个人风格，还能让...浏览全文>>

好听的女生名字网名

【好听的女生名字网名】在当今网络社交日益频繁的时代，一个好听的女生名字或网名，往往能让人印象深刻。无论...浏览全文>>

好听的昵称两个字

【好听的昵称两个字】在当今社交平台上，一个好听的昵称不仅能让人印象深刻，还能体现个人的风格和气质。尤其...浏览全文>>

好听的昵称简单大气女

【好听的昵称简单大气女】在当今网络社交日益频繁的时代，一个好听又不失个性的昵称，往往能让人在众多用户中...浏览全文>>

汉字塘怎么组词

【汉字塘怎么组词】“塘”是一个常见的汉字，通常与水有关，常用于表示人工或自然形成的水池、水洼等。在日常...浏览全文>>

汉字酵怎么读

【汉字酵怎么读】在日常生活中，我们经常会遇到一些不太常见的汉字，比如“酵”。很多人对这个字的发音和含义...浏览全文>>

汉字姣怎么组词姣怎么组词

【汉字姣怎么组词姣怎么组词】“姣”是一个较为少见的汉字，读音为 jiāo，在汉语中多用于形容女子容貌美丽。...浏览全文>>

汉字降可以组什么词

【汉字降可以组什么词】“降”是一个常见的汉字，读音为“jiàng”，在汉语中有着丰富的含义和用法。它既可以...浏览全文>>

汉字见怎么组词

【汉字见怎么组词】在汉语学习中，“见”是一个非常常见的汉字，它不仅在日常生活中频繁出现，而且在词语搭配...浏览全文>>

大家爱看

好听的女生网名qq

汉字降可以组什么词

海南旅游攻略

海阔天空原唱是谁

国家助学金简介

国家助学金补助申请书

国家中心城市包括哪些城市

广东十大不建议买的瓷砖

广东省总人口数量

关于新年喜庆的古诗

频道推荐

好听的昵称简单大气女

汉字塘怎么组词

国家重点保护的野生动物分为

广东夏天煲什么汤好

广东舞蹈戏剧职业学院的介绍

广东水果特产有哪几种

广东省中山市的邮政编码是多少

关于灯笼的诗句

关于蛋白质的基本组成单位

感谢领导的短信

站长推荐

好听的昵称两个字

汉字囝怎么读

汉字假组词语

海拉尔旅游攻略必玩的景点

海阔天空谐音歌词

海阔天空是谁唱的

国家助学贷款含义

国家重视黑人问题吗

关于梦想的成语

关于梦见死老鼠解释

关于大张伟的简介

关于大禹治水的资料

盖是什么意思

该咋查看电脑序列号

东三省指哪三省

东三省是哪三个省

大灰凉粉的做法和配方

大红方印与红方印1755

大红灯笼高高挂电影讲的什么故事

茶文化的美文佳作