世界最大の日本語音声コーパスと音声認識モデルをリリースしました

昨年からレアゾン・ホールディングスさんの音声処理研究のお手伝いをしていました。本日、無事にローンチ（一般公開）できたので、今回のプロジェクトについて書きます。

今回のリリースについて

詳しい説明は公式プロジェクトサイトに書きましたが、今回、具体的にリリースしたのは次の3つです。

項目	説明
日本語音声コーパス	約19,000時間のラベル付き日本語音声コーパス
日本語音声認識モデル	コーパスをもとに学習した日本語音声認識モデル
ツールキット	日本語音声コーパスを自作するためのツール

まず注目すべきは音声コーパスで、日本語音声のデータセットとしては世界最大です。一般公開されているものでは JSUT が10時間、 Common Voice が80時間程なので、既存コーパス比で200〜1900倍のデータサイズになり、これが無償で誰でも使えるようになります。

二番目の音声認識モデルは、コーパスをもとに ESPnet のモデルを学習したものです。精度を検証してみると、昨年、OpenAIがリリースした Whisper の最も大きいモデルと同等の性能がでているので、世界最先端の水準と言って良い精度だと思います。このモデルのライセンスはApacheライセンス2.0なので商用利用もオッケーです。

音声認識モデルの精度がどのくらいかは公式サイトのデモで試せます。

三番目のツールキットはコーパスを作成するために開発したPythonライブラリで、これを使えば日本語コーパスを誰でも作れるようになってます。

今後の展望とインパクト

本研究では、このギャップを埋めるため、弱教師付き音声認識の規模を拡大し、680,000時間のラベル付き音声データに拡大した。このアプローチを我々はWhisperと呼んでいる。このスケールで学習されたモデルは既存のデータセットにゼロショットで応用でき、データセット固有のファインチューニングを必要とせず、高品質な結果を得ることができることを示す。

-- Cherti, Mehdi, et al. "Reproducible scaling laws for contrastive language-image learning." arXiv preprint arXiv:2212.07143 (2022).

OpenAIが昨年発表した Whisper論文の核心にある論点は「既知の深層学習モデルに対して、投入するデータの量を飛躍的に拡大すれば、人間の水準に比肩するロバストな音声認識モデルが得られる」という点にありました。

この洞察が正しければ、これからの日本語音声処理技術の進展は、入手可能な学習データセットの物理的な量に大きくかかってくることになるでしょう。より多くのデータソースを統合し、組織的に計算資源に投入することが、最先端の音声認識モデルを構築する明白な糸口となるからです。

今回のプロジェクトの大きなポイントは、日本語音声コーパスのデータ量の課題を解決することにありました。私達の研究が、日本における音声処理研究を加速させる一助となれたらと願っています。

関連情報

クリアコードのYouTubeチャンネルです。メンバーの登壇動画や、開発プロダクトに関する動画を公開しています。

現在クリアコードではソフトウェア開発者を募集しています！フリーソフトウェア開発での開発の仕方をベースに、成果や知識を公開し共有しながら業務に携われます。

ククログの記事はCC BY-SA 4.0とGFDLのデュアルライセンスで自由に利用できます。
クリアコードはプログラミングが楽しいソフトウェア開発者を1名募集しています。
クリアコードは「クリアコードをいい感じにする人」を1名募集しています。
クリアコードはフリーソフトウェア開発で培った技術力を提供しています。特にMozilla製品（Mozilla FirefoxとMozilla Thunderbird）とRubyとGroonga（全文検索）に関連した開発を得意としています。

ククログ

今回のリリースについて

今後の展望とインパクト

関連情報