论文原文:https://www.sciencedirect.com/science/article/pii/S0167639320302466 发表时间:2020-9-1

很多疾病都会对患者的语言表达能力产生影响,比如帕金森、唇裂等。这些疾病导致患者说话过程中相对于正常人来说更易表现出口齿不清、语调混乱等。所以,通过对语言特征的提取和分析,可以将患者和正常人进行区分。

本文采取的方法

通过编码器和解码器来进行特征提取,以 DNN,SVM 作为特征分类器。编码器事实上就是一个特征提取器,也可以将其看做一个数据压缩器。解码器以编码器特征为输入,从特征还原输入数据。同时训练编码器和解码器,更能够提取到能够充分表征输入数据的特征。

数据

这里的数据涉及到两个部分:一部分是训练 Encoder-Decoder 的数据,另一部分是进行分类的数据。
其中 CIEMPIESS corpus was used to train the convolutional and recurrent autoencoders.
进行分类的 CLP Data 和 PD Data 来自另外两个数据库。

数据预处理

从一维的语音信号中得到 Mel 频谱,以 Mel 谱图作为后续网络的输入。(将一维信号转为了二维,结合了时域和频域的信息)

编码器和解码器

基于 CNN 的编码解码器和基于 RNN 的编码解码器。
image.png

CNN 编码解码器

image.png

类似于图像分割的架构:首先不断进行卷积,增加 channel 数量的同时,降低 feature map 的 size;在得到特征向量 Parallel Representation Learning for the Classification of Pathological Speech - 图3 之后,不断进行反卷积(上采样)恢复分辨率,最终得到原图的估计。

CNN 编码器

  1. class CAEenc(nn.Module):
  2. def __init__(self, dim=256, nc=1):
  3. super().__init__()
  4. self.conv1=nn.Conv2d(nc, 16, kernel_size=3, stride=1, padding=1, bias=False)
  5. self.bn1 = nn.BatchNorm2d(16)
  6. self.pool=nn.MaxPool2d((2, 2))
  7. self.conv2=nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1, bias=False)
  8. self.bn2 = nn.BatchNorm2d(32)
  9. self.conv3=nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1, bias=False)
  10. self.bn3 = nn.BatchNorm2d(64)
  11. self.conv4=nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1, bias=False)
  12. self.bn4 = nn.BatchNorm2d(128)
  13. self.linear = nn.Linear(128*8*7, dim)
  14. def forward(self, x):
  15. x =F.leaky_relu((self.bn1(self.pool(self.conv1(x)))))
  16. x =F.leaky_relu((self.bn2(self.pool(self.conv2(x)))))
  17. x =F.leaky_relu((self.bn3(self.pool(self.conv3(x)))))
  18. x =F.leaky_relu((self.bn4(self.pool(self.conv4(x)))))
  19. x = x.view(x.size(0), -1)
  20. x = self.linear(x)
  21. return x

CNN 解码器

  1. class CAEdec(nn.Module):
  2. def __init__(self, dim=256, nc=1):
  3. super().__init__()
  4. self.conv1=nn.ConvTranspose2d(128, 64, kernel_size=3, stride=1, padding=(1,0), bias=False)
  5. self.bn1 = nn.BatchNorm2d(64)
  6. self.conv2=nn.ConvTranspose2d(64, 32, kernel_size=3, stride=1, padding=1, bias=False)
  7. self.bn2 = nn.BatchNorm2d(32)
  8. self.conv3=nn.ConvTranspose2d(32, 16, kernel_size=3, stride=1, padding=1, bias=False)
  9. self.bn3 = nn.BatchNorm2d(16)
  10. self.conv4=nn.ConvTranspose2d(16, nc, kernel_size=3, stride=1, padding=1, bias=False)
  11. self.linear = nn.Linear(dim,128*8*7)
  12. def forward(self, x):
  13. x = self.linear(x)
  14. x = x.view(x.size(0), 128, 8, 7)
  15. x = F.interpolate(x, scale_factor=2)
  16. x =F.leaky_relu((self.bn1(self.conv1(x))))
  17. x = F.interpolate(x, scale_factor=2)
  18. x =F.leaky_relu((self.bn2(self.conv2(x))))
  19. x = F.interpolate(x, scale_factor=2)
  20. x =F.leaky_relu((self.bn3(self.conv3(x))))
  21. x = F.interpolate(x, scale_factor=2)
  22. x =F.sigmoid((self.conv4(x)))
  23. return x[:,:,:,0:-2]

上采样函数采用的默认的“最近邻插值”方法。

RNN 编码解码器

image.png

利用 LSTM 进行特征提取时,将 last time step 的输出 以及 隐藏层状态 进行 cat 之后通过一个全连接层之后的 Parallel Representation Learning for the Classification of Pathological Speech - 图5 作为特征。

RNN 编码器

  1. class RAEenc(nn.Module):
  2. def __init__(self, dim=32):
  3. # input: batch * nc(1) * input_size(128) * seq_len(126)
  4. super().__init__()
  5. self.lstm1=nn.LSTM(128, 64, batch_first=True, bidirectional=True)
  6. self.linear = nn.Linear(256, dim)
  7. def forward(self, x):
  8. x=x[:,0,:,:]
  9. x=x.permute(0,2,1) # batch * seq_len * input_size
  10. x,(hn,cn)=self.lstm1(x)
  11. #print(hn.size()) # hn: b * (nl * nd) * hs
  12. hn=hn.permute(1,0,2) # hn: b * hs(64) * 2 cn: b * hs(64) * 2 x: b * seq_len * hs(64) * 2
  13. #print(hn.size())
  14. x=x[:,-1,:]
  15. hn=hn.contiguous().view(hn.size(0),-1)
  16. x = x.view(x.size(0), -1)
  17. x2=torch.cat((x,hn),1)
  18. x = F.leaky_relu(self.linear(x2))

就是一个 LSTM 加一个线性层

RNN 解码器

  1. class RAEdec(nn.Module):
  2. def __init__(self, dim=32, seq_len=126):
  3. super().__init__()
  4. self.lstm = nn.LSTM(dim, 128, batch_first=True, num_layers=2)
  5. self.seq_len=seq_len
  6. def forward(self, x):
  7. x = torch.cat([x] * self.seq_len, 1).view(x.size(0), self.seq_len, x.size(1))
  8. x, (h,c)=self.lstm(x)
  9. x=x.permute(0,2,1)
  10. x=x.view(x.size(0), 1, x.size(1), x.size(2))
  11. return x

编码器输出的特征重复 126 次(与输入数据对应:126 个 time steps) 通过一个 LSTM 进行一个维度变换,将 32 维向量变为 128 维。再结合 126 个 time step 的输出,组合成原来的 Mel 频谱图。

编码器和解码器的训练

image.png

每一行表示的指定频率的信号随时间的分布情况;每一列表示的是每一个时刻不同频率信号的分布情况。 所以每一行产生的 error 是每一种频率信号的恢复的误差。

以 MSE 函数为损失函数,来度量输入数据和恢复数据之间的误差。训练目标:最小化原始数据和恢复数据之间的误差 Parallel Representation Learning for the Classification of Pathological Speech - 图7 特征 h 能够充分表征原始数据。

  1. if valid_loss <= valid_loss_min:
  2. print('Validation loss decreased ({:.6f} --> {:.6f}). Saving model ...'.format(
  3. valid_loss_min,
  4. valid_loss))
  5. torch.save(model.state_dict(), PATH+'/'+str(BOTTLE_SIZE)+'_CAE.pt')

保存的模型,是在验证集上表现最好的结果。(我认为这种方式在样本量比较少的的情况下是不可取的;不具有代表性)

实验结果

重构误差分析

CAE 重构误差

image.png

RAE 重构误差

image.png
重构误差在 HC、CLP、PD上曲线是不同的(并且对 CAE 和 RAE 来说也是不同的)所以可以作为类别划分的信息。

结果统计

image.png
image.png
image.png
image.png