[英]How to get complete fundamental (f0) frequency extraction with python lib librosa.pyin?
我在语音音频剪辑上运行 librosa.pyin,它似乎并没有从录音的第一部分中提取所有基础知识 (f0)。
librosa 文档: https ://librosa.org/doc/main/generated/librosa.pyin.html
高级:22050
fmin=librosa.note_to_hz('C0')
fmax=librosa.note_to_hz('C7')
f0, voiced_flag, voiced_probs = librosa.pyin(y,
fmin=fmin,
fmax=fmax,
pad_mode='constant',
n_thresholds = 10,
max_transition_rate = 100,
sr=sr)
原始音频:
具有基音、起始音和起始强度的频谱图,但第一部分没有提取任何基音。
音频文件链接:https ://jasonmhead.com/wp-content/uploads/2022/12/quick_fox.wav
times = librosa.times_like(o_env, sr=sr)
onset_frames = librosa.onset.onset_detect(onset_envelope=o_env, sr=sr)
功率谱图的另一个视图:
我尝试压缩音频,但这似乎不起作用。
关于我可以调整哪些参数或可以进行音频预处理以从所有单词中提取基音的任何建议?
什么类型的事情会影响基音提取的成功?
TL;DR似乎都是关于参数调整的。
以下是我在示例中得到的一些结果,最好在单独的选项卡中打开它: 底部的图显示了示例文件的音标(好吧,有点)。 我自己得出的一些结论:
一些实验:
这就是我的想法。 希望能帮助到你。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.