商务服务
比OpenAI的Whisper快50%,最新开源语音模型
2024-08-18 07:52

声明:本文来自于微信公众号 AIGC开放社区 作者:AIGC开放社区,授权转载发布。

比OpenAI的Whisper快50%,最新开源语音模型

生成式AI初创公司aiOla在官网开源了语音模型Whisper-Medusa,推理效率比OpenAI开源的Whisper快50%。

aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法,允许模型在每个推理步骤中预测多个token,同时不会损失性能和识别准确率。

开源地址:https://github.com/aiola-lab/whisper-medusa

huggingface:https://huggingface.co/aiola/whisper-medusa-v1

传统的Transformer架构在生成序列时,是遵循逐个token的顺序预测过程。这意味着在生成新序列时,模型每次只能预测下一个token,然后将这个预测的token加入到序列中,再基于更新后的序列预测下一个token。

这虽然能够确保生成序列的连贯性和上下文相关性,但也有一个非常明显的缺陷——极大限制了模型的推理效率

此外,由于每次只能处理一个 token ,模型难以捕捉到数据中的长程依赖关系,可能会忽略一些重要的全局信息,从而影响模型的整体性能和准确性。

Whisper-Medusa使用了10头的多注意力机制, 能各自独立地计算注意力分布并行地处理输入,然后将各自的输出通过拼接的方式组合起来,形成一个多维度的向量。

随后向量被送入全连接层进行进一步的处理,以生成最终的token预测。这种并行的数据处理方式不仅加快了模型的推理效率,还增加了模型的表达能力,因为每个注意力头都可以专注于序列的不同子集,捕捉到更丰富的上下文信息。

为了使多头注意力机制在Whisper-Medusa模型中更高效地运行,aiOla采用了弱监督的方法,在训练过程中冻结了原Whisper模型的主要组件,使用该模型生成的音频转录作为伪标签来训练额外的token预测模块

使得模型即便没有大量手动人工标注数据的情况下,依然能够学习到有效的语音识别模式。

此外在训练过程中,Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。一方面,模型需要确保预测的token序列与实际转录尽可能一致;

另一方面,通过多头注意力机制的并行预测,模型被鼓励在保证精度的前提下,尽可能地加快预测效率。

aiOla使用了学习率调度、梯度裁剪、正则化等多种方法,确保模型在训练过程中能够稳定收敛,同时避免过拟合性。

业务场景方面, Whisper-Medusa能理解100多种语言,用户可以开发音频转录、识别等多种应用,适用于翻译、金融、旅游、物流、仓储等行业。

aiOla表示,未来会将Whisper-Medusa的多注意力机制扩展至20个头,其推理效率将再次获得大幅度提升。

    以上就是本篇文章【比OpenAI的Whisper快50%,最新开源语音模型】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.glev.cn/news/7026.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 歌乐夫资讯移动站 http://sicmodule.glev.cn/mobile/ , 查看更多   
最新新闻
京东怎么入驻?京东入驻流程步骤及费用详解
京东怎么入驻?现在京东是中国两大电子商务巨头之一。在电子商务平台上有自己的地位。许多企业都想在京东入驻。那么如何在京东入
DeepSeek崛起到底谁将受益 各行业板块受益显著
在DeepSeek横空出世后,外资对中国股票的热情持续升温。本周四,香港恒生科技指数盘中一度上涨超过4%,显示出市场的信心。尽管尾
AI智能问答最具体的介绍在这里!
AI智能问答是一种基于人工智能技术的问答系统,它可以通过分析和理解用户提出的问题,然后从大量的知识库、文档或数据中提取相关
八字算.命平台搭建(现成案例,源码,APP)
八字算.命平台搭建(现成案例,源码,APP),八字算.命软件开发,八字算.命小程序开发,溜懿绺丷,八字算.命系统开发,八字算.命
央视热播剧《我的阿勒泰》爆火,马伊琍背后的女人,果然藏不住了
电视剧《我的阿勒泰》火了。广袤无际的大地,策马奔腾的草原,勾勒出一幅壮丽的北疆风光。来源:《我的阿勒泰》随着剧集的热播,
国民硬汉任程伟:成名后“只换房子不换老婆”,一位贤妻两个女儿,人生足矣
作者:天山月鸳尾蓝 编辑:李津来源:婚姻与家庭杂志前段时间,以铁路工人为题材的年代大片《铁马豪情的日子》得到了不少观众的
深度对比:DeepSeek、豆包、文心一言与通义千问的AI优势与挑战
二、商业化策略的灵活性在商业化策略上,DeepSeek则展现出更大的灵活性。例如,其发布了DeepSeek-MoE、DeepSeek-Coder等开放模型
中国AI黑马DeepSeek,如何搅动全球科技圈?
2025 年春节期间,一款来自中国的 AI 应用 DeepSeek 犹如一颗璀璨的新星,在全球范围内掀起了一阵狂热的浪潮。它以惊人的速度席
ai在线写作,推荐4个智能文案写作工具!
在数字化时代,内容创作已经成为了一种无处不在的需求。无论是企业宣传、个人表达还是知识分享,高质量的文案都扮演着至关重要的
AI如何彻底改变你的工作与学习方式?
在当今快节奏的生活中,工作与学习的压力似乎只增不减。你是否曾因繁重的任务感到焦虑,或在信息爆炸的环境中迷失方向?根据最新