LipNetをJGRIDによる転移学習

使用モデルとデータ

🧠

文章レベルの読唇を行う事前学習済み深層学習モデル。

🗃️

日本語のビデオデータセット。

英語データセットGRID Corpusで事前学習されたLipNetモデルに対し、日本語JGRIDコーパスを用いて転移学習を実施。その評価結果を以下に示す。

事前学習済みモデル (GRID Corpus / 英語)

↓

転移学習 (JGRID Corpus / 日本語)

↓

日本語読唇モデル

現在の結果を基に、以下の計画を進める。

既存の学習済みモデルを基に、下記タスクへ適応させる。

1. 日本語文字での学習: ローマ字を介さず、直接日本語の文字（かな・漢字）を出力するよう学習。

2. 音素での学習: 言語の根源的な単位である音素を認識・出力するよう学習。

3. 数字の文字化: 数字を単語として認識するよう学習。

多様な条件下での性能を評価する。

4. ゼロからの学習: 上記1〜3のアプローチをゼロから学習させ、性能を比較。

5. Overlap Speakerでの検証: 全ての学習済みモデルに対し、学習データに含まれる話者をテストにも使用し、性能を検証。

本研究の枠組みを広げる。

6. 他モデルの検証: LipNet以外の読唇モデルでも同様の実験を行い、アーキテクチャによる影響を調査。