OpenAI 开源语音识别模型 Whisper-华威派

> 自媒体 > AI人工智能 > OpenAI 开源语音识别模型 Whisper

OpenAI 开源语音识别模型 Whisper

来源：开源中国OSC

2023-08-20

214

管理

出品|开源中国

拥有 GTP-3 语言模型，并为 GitHub Copilot 提供技术支持的人工智能公司 OpenAI 近日开源了 Whisper 自动语音识别系统，Open AI 强调 Whisper 的语音识别能力已达到人类水准。

Whisper 执行操作的大致过程：

输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图，然后传递到编码器。解码器经过训练以预测相应的文字说明，并与特殊的标记进行混合，这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。

相比目前市面上的其他现有方法，它们通常使用较小的、更紧密配对的「音频 - 文本」训练数据集，或使用广泛但无监督的音频预训练集。因为 Whisper 是在一个大型和多样化的数据集上训练的，而没有针对任何特定的数据集进行微调，虽然它没有击败专攻 LibriSpeech 性能的模型（著名的语音识别基准测试），然而在许多不同的数据集上测量 Whisper 的 Zero-shot（不需要对新数据集重新训练，就能得到很好的结果）性能时，研究人员发现它比那些模型要稳健得多，犯的错误要少 50%。

目前 Whisper 有 9 种模型（分为纯英文和多语言），其中四种只有英文版本，开发者可以根据需求在速度和准确性之间进行权衡，以下是现有模型的大小，及其内存要求和相对速度：

OpenAI 希望 Whisper 的高准确性和易用性可以让开发者在更广泛的应用中加入语音识别功能，尤其是用来协助改善无障碍工具。

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

堪称游戏 AI“养蛊”！OpenAI 发布大型多智能体游戏环境

2023-08-20 18:29

硬核观察 | 硬核观察 #1011 OpenAI 呼吁像监管原子能一样监管超级智能

2023-08-20 18:27

相关文章

账号、帐号傻傻分不清？平台该治治了……

惊呆！GPT-4“越狱”计划曝光，引诱人类帮助

GPT-4 超级插件，突破10万token限制，一次性搞定50页PDF！..

Chat-GPT 4.0于本周发布，颠覆你的想象！

今日带你了解ChatGpt的含义 gpt

陶哲轩自曝用了「满血」GPT4：人类对信息技术的期待全部需要校准..

GPT-4 API免费用？？OpenAI：律师函警告，快删了

【ChatGPT4.0】有了它，我写这篇1000多字的文章耗时不到5分钟..

与元宇宙相比，为什么ChatGPT更值得投资？

关于作者

兰花草(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

8个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索