-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathdata_1_plan
30 lines (22 loc) · 2.55 KB
/
data_1_plan
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
100天计划:
每一天都是一个新的开始,每一天也是过去的结束
2019年11月4日:第一天
1:vad算法(webrtc里面vad模块)
第一篇博客:https://blog.csdn.net/shichaog/article/details/52399354/
关键词:漏检率、虚检率、
VAD(Voice Activity Detection)算法的作用是检测语音,在远场语音交互场景中,VAD面临着两个难题:
1. 可以成功检测到最低能量的语音(灵敏度)。
2. 如何在多噪环境下成功检测(漏检率和虚检率)。
漏检反应的是原本是语音但是没有检测出来,而虚检率反应的是不是语音信号而被检测成语音信号的概率。相对而言漏检是不可接受的,而虚检可以通过后端的ASR和NLP算法进一步过滤,但是虚检会带来系统资源利用率上升,随之系统的功耗和发热会进一步增加,而这会上升为可移动和随声携带设备的一个难题。
标准差:是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
数学期望:(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,。它反映随机变量平均取值的大小。
连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数一般以小写标记。
连续型随机变量是指如果随机变量X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任一点的随机变量。例如,一批电子元件的寿命、实际中常遇到的测量误差等都是连续型随机变量。
webrtc采用最高频率是4KHz的原因是,webRTC中程序将输入(48KHz,32HKz,16KHz)都下采样到8KHz,这样根据奎斯特频率定理,有用的频谱就是4KHz以下。
高通滤波器疑问还是有的:(没看明白高通滤波器那里)
高通滤波器的作用有两点:1.滤除直流分量,2提升高频成分(人耳对3.5KHz最为敏感):
第二篇博客:https://blog.csdn.net/book_bbyuan/article/details/78944630
里面有好多公式
第三篇博客:https://blog.csdn.net/yetyongjin/article/details/81027468
vad移植
第四篇博客:https://www.cnblogs.com/dylancao/p/7663755.html