论文题目: Learning to Recognize Code-switched SpeechWithout Forgetting Monolingual Speech Recognition. 论文链接
在对单语语音ASR模型进行微调后,模型会忘记(catastrophic forgetting)单语语音的分布,而倾向于语码转换语音,对原单语语音的识别性能下降。
因此,本文研究 在对语码转换识别进行微调的情况下如何保证原单语语音的识别性能 。通过在三种印度语与英语的混合数据上进行实验,提出将LWF应用于单语模型的微调,可以实现与直接在单语-CS混合数据上训练E2E模型相近的性能,而不需要原单语数据(通常较大)。
论文方法基于CTC-based E2E模型进行语音识别。
Model : 2 * CNN --> 5 * BLSTM(1024d) --> FC --> softmax
针对只有单语模型,没有单语数据, 无法端到端重新训练pooled模型。
在本文中,共享参数 ;原任务参数 ;新任务参数 ,具体而言算法流程为:
针对既有单语模型,也有单语数据。
具体方法:加入pre-train模型与微调模型输出的KL散度惩罚项,有以下两种方式。相当于对微调过程中新任务与原任务输出之间的差异进行约束。
语音数据 :三种方言及其与英语的code-switchig(CS): Tamil-English(TA), Telugu-English(TE) and Gujarati-English(GU)
训练/测试 :训练-会话数据和短语数据;测试-仅使用短语数据。训练时数据混合单语数据(MONO)和CS数据;测试时则将两者分开。
数据统计 :训练-MONO与CS数据各约200小时( 现实中CS数据一般较少,不太符合实际情况 );测试-MONO与CS各约20小时(GU较少);CMI约20。
TL;DR 有效方法:
但是,实际上我们往往无法获得MONO数据,而只有MONO模型。
将以下三种训练方式作为基线:
条件:10% learning rate with CS data,两种Fine-tuning模型:
在此基础上对CS数据进行随机采样(25%-50%-75%),针对混合模型进行微调, 25%采样性能最好 ——随机采样有效。
结果显示,在式(2)正则(Scaled KLD)下在TA/TE数据上有提升。