设为首页收藏本站

开启辅助访问切换到窄版

爱开源网»首页 › AIGC › AI工具分享 › python语音辨认whisper

python语音辨认whisper

978 |

0 | 2023-8-16 16:31:17 | 显示全部楼层 |阅读模式

一、配景

迩来想提取一些视频的字幕，语音文案，研究了一波
二、whisper语音辨认

Whisper 是一种通用的语音辨认模子。它在差别音频的大型数据集上举行训练，也是一个多使命模子，可以执行多语言语音辨认以及语音翻译和语言辨认。
stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代码发布，生成更正确的阶段时间切换，并在无须额外推介的情况下得到申领

安装
1. pip install openai-whisper
2. pip install stable-ts
复制代码
SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speedtiny39 Mtiny.entiny~1 GB~32xbase74 Mbase.enbase~1 GB~16xsmall244 Msmall.ensmall~2 GB~6xmedium769 Mmedium.enmedium~5 GB~2xlarge1550 MN/Alarge~10 GB1x

三、示例

模子越大，越正确，相应话费的时间越长
自带语言辨认功能，language最好加上，下面歌曲辨认为英语，加后为中文
stable_whisper 是 whisper 进化版即 python的这个包stable-ts

import whisper
import stable_whisper as whisper
class WhisperTranscriber(object):
def __init__(self, model_name):
self.model = whisper.load_model(model_name)
def whisper_transcribe(self, audio_path):
audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')
return audio['text']
if __name__ == '__main__':
transcriber = WhisperTranscriber("base")
text = transcriber.whisper_transcribe("257853511.mp3")
print(text)

复制代码

可能是伴奏声音过大，你猜出来这是什么歌了吗？

stable_whisper 别的用法、生成字幕

import stable_whisper
model = stable_whisper.load_model('base')
results = model.transcribe('257853511.mp3', fp16=False, language='Chinese')
stable_whisper.results_to_sentence_srt(results, 'audio')
stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')

复制代码

四、封装工具

buzz https://github.com/chidiwilliams/buzz

如果遇到简繁转换可以石下面
pip install zhconv
zh-cn 大陆简体
zh-hant 繁體
from zhconv import convert
convert('Python是一种动态的、面向对象的脚本语言', 'zh-hant')
'Python是一種動態的、面向對象的腳本語言'

复制代码

来源：https://blog.csdn.net/a6864657/article/details/129210784
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

回复

使用道具举报

返回列表发新帖

彼此的天堂

23 主题	0 回帖	69 积分

Rank: 2

积分: 69

回复楼主返回列表

图文推荐

非绿色-黑鳍自动换角色组队吃药自动没疲劳刷金: 2024-09-21

绿色-剑灵怀旧完整主线（10月更新）有韩服: 2024-09-12

非绿色-定制AI全自动黑鳍V1.2: 2024-09-14

剑灵三系精修端星术咒3鬼3 T2 饰品属性外观: 2023-08-16

Unity 超级马里奥: 2023-08-22

热门排行