LINE株式会社 / AI開発室
End-to-End音声認識器の中間層への言語知識転移
本研究は、CTC ASRモデルのエンコーダを改善するために外部のLMを用いることを目的としている。CTC ASRは自己回帰モデルと比べ、推論速度が高速である。提案された手法では、最終エンコーダ層だけでなく中間のAEDも利用し、これらの補助AEDはBERTから得られるソフトラベルを蒸留目的に使用する。中間損失を使用することで、エンコーダの深い層にも影響が及ぶことが期待される。CTC ASRモデルにおけるAEDを利用したKDの有効性は従来から知られていたが、本研究では中間AEDを用いたKDの利点を初めて明らかにした。実験ではLibriSpeechデータセットを使用し、中間損失関数を介したモデルはCTCデコード精度が向上した。最終的に、提案法はベースラインに比べWERで25%以上、従来のKDに比べ4%以上の改善を達成している。