超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」の開発に協力しました。 - クリアコード

トピック

株式会社クリアコード > トピック > 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」の開発に協力しました。

超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」の開発に協力しました。

2023年1月18日(水)に、株式会社レアゾン・ホールディングス レアゾン・ヒューマンインタラクション研究所が開発した「ReazonSpeech」がリリースされました。

「ReazonSpeech」は、ReazonSpeech音声認識モデル、ReazonSpeechコーパス作成ツール、ReazonSpeech音声コーパス1からなるプロダクト群です。

クリアコードは、大きな可能性をもつこの自由なソフトウェアへの開発に協力しました。

深層学習を活用した音声認識技術の発展と普及には膨大なデータが必要となりますが、英語などの言語と比べ日本語では元になるデータが不足していることが技術発展の阻害になっていました。

この度、世界最高レベルの高精度日本語音声認識モデルに加えて、不足してきた日本語音声コーパスデータの拡大に役立つコーパス作成ツール、さらに世界最大19,000時間の音声コーパスデータが、それぞれ自由なソフトウェアのライセンスのもとに公開されました。 これにより、これらのプロダクトを多くの人が自由に利用し、活用していくことが可能になりました。そして自由なソフトウェアだからこそ、さらに多くのデータ収集や学習精度向上につながることや日本語の音声認識技術の発展と普及につながることを期待できます。

詳しい情報は「ReazonSpeech」開発元の株式会社レアゾン・ホールディングス、プレスリリースをご確認ください。

「ReazonSpeech」を用いた文字起こしサービスをプロジェクトページにて実際に試すことができます。

※以下は、「ReazonSpeech」に関する情報を株式会社レアゾン・ホールディングス レアゾン・ヒューマンインタラクション研究所プレスリリースより一部抜粋しています。

「ReazonSpeech」とは

「ReazonSpeech」は、レアゾン・ヒューマンインタラクション研究所が開発した高精度な音声認識モデルを中心とするプロダクト群で、それぞれ以下のような特徴があります。

開発の背景について

近年、深層学習を用いた音声認識技術は飛躍的に精度が向上し、スマート端末等を通して多くの人がこの技術を利用できるようになりました。今後さらに技術が普及し、誰もがあらゆる端末やシチュエーションで最先端の音声認識技術を当たり前のように使えるようになれば、社会の様々な局面でコミュニケーションの質を高めたり、業務効率や生産性の改善に貢献することが期待されます。

深層学習を用いた音声認識では、高精度な音声認識モデルを得るために、音声コーパスが大量に揃っていることが必要不可欠となります。誰もが自由に使える形で大規模な音声コーパスが公開されれば、当技術の迅速な発展に大きく寄与します。英語等ではこうした音声コーパスが多数公開されていますが、日本語では商用利用も含めて自由に利用可能なコーパスは量が少なく、日本語における音声認識技術の発展と普及を妨げる大きな要因となっていました。

「ReazonSpeech」のライセンスについて

音声認識モデルと音声コーパス作成ツールはApacheライセンス2.0にて公開するので、商用・非商用を問わず、誰もが自由に利用・改変・再配布し、同様のコーパスの構築・共有活動に参加できるようになります。

音声コーパスについては、 CDLA-Sharing-1.0ライセンス(著作権法30条の4を含む適用法令を遵守し、現著作権者の権利を侵害しないことが前提3)を予定しています。

  1. 音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。

  2. OpenAI Whisper: ChatGPTなど最先端のAIプロダクトを次々に発表している米国の人工知能研究所OpenAIが2022年9月に公開した高精度な音声認識モデル。従来の多くの音声認識モデルの精度を凌駕しているとして大きな話題を呼んだ。

  3. 放送録画データに含まれる音声及び字幕データの権利は、元のテレビ放送の著作権者に帰属しますが、このデータを機械学習モデル構築のために使用することは、商用・非商用の目的を問わず著作権法30条の4によって認められています。