文章レベルの読唇を行う事前学習済み深層学習モデル。
日本語のビデオデータセット。
英語データセットGRID Corpusで事前学習されたLipNetモデルに対し、日本語JGRIDコーパスを用いて転移学習を実施。その評価結果を以下に示す。
現在の結果を基に、以下の計画を進める。
既存の学習済みモデルを基に、下記タスクへ適応させる。
多様な条件下での性能を評価する。
本研究の枠組みを広げる。
各言語モデル(出力形式)に対し、話者条件(Unseen/Overlapped)ごとの目標精度を示す。