[英]“Speaker Recognition and Segmentation” [closed]
寻找可将媒体文件处理为“谁说什么,什么时候说”的代码,换句话说就是“按演讲者划分的演讲者”,以及每个演讲的时间安排。 失败的答案:做任何手动工作来处理媒体文件。
您可以使用Kaldi的扬声器二值化功能,设置起来不容易,但效果很好。
还有许多其他库-LIUM,bob等。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.