LipNetをJGRIDによる転移学習

使用モデルとデータ

🧠

モデル: LipNet

文章レベルの読唇を行う事前学習済み深層学習モデル。

🗃️

コーパス: JGRID

日本語のビデオデータセット。

Unseen Speakerでの評価結果

学習アプローチ

英語データセットGRID Corpusで事前学習されたLipNetモデルに対し、日本語JGRIDコーパスを用いて転移学習を実施。その評価結果を以下に示す。

事前学習済みモデル (GRID Corpus / 英語)
転移学習 (JGRID Corpus / 日本語)
日本語読唇モデル

エラー率

学習曲線

評価結果グラフ

今後の研究計画

現在の結果を基に、以下の計画を進める。

フェーズ1:転移学習によるアプローチ

既存の学習済みモデルを基に、下記タスクへ適応させる。

1. 日本語文字での学習: ローマ字を介さず、直接日本語の文字(かな・漢字)を出力するよう学習。
2. 音素での学習: 言語の根源的な単位である音素を認識・出力するよう学習。
3. 数字の文字化: 数字を単語として認識するよう学習。

フェーズ2:追加検証

多様な条件下での性能を評価する。

4. ゼロからの学習: 上記1〜3のアプローチをゼロから学習させ、性能を比較。
5. Overlap Speakerでの検証: 全ての学習済みモデルに対し、学習データに含まれる話者をテストにも使用し、性能を検証。

フェーズ3:モデルの拡張

本研究の枠組みを広げる。

6. 他モデルの検証: LipNet以外の読唇モデルでも同様の実験を行い、アーキテクチャによる影響を調査。

話者条件と言語モデル別の目標精度

各言語モデル(出力形式)に対し、話者条件(Unseen/Overlapped)ごとの目標精度を示す。