OSS音声認識／音声合成 | Future Techno Corporation

音声認識・合成

eSpeak NG Text-to-Speech

eSpeak NGは、マルチプラットフォームで動作するコンパクトな音声合成ツールです。フォルマント合成法を使用して、小さなサイズで100を超える言語とアクセントをサポートしています。

元々はspeakとして知られており、1995年にJonathan Duddington によって開発されました。2007年にeSpeakとして書き直され、さらに2015年にReece H. DunnによってSpeak NGプロジェクトとして引き継がれました。

eSpeak NGは、GPL version 3 または、それ以降のバージョンのもとで利用できます。

音声認識

Julius

Juliusは、高性能な汎用の大語彙連続音声認識エンジンです。数万語の語彙を持ち、連続した音声認識を一般のPCやスマートフォン上でほぼリアルタイムで実行できます。

音声認識システムの開発・研究のための京都大学河原研究室で開発され、現在は名古屋大学Julius開発チームが中心になって開発を継続しています。

Juliusは、オープンソースソフトウェアとして3条項BSDライセンスのもとで公開されています。

音声認識

BERT

BERTは、 Googleによって開発された自然言語処理の事前学習の機械学習手法です。BERTでは、事前トレーニングされた単一のBERTモデルを備えており、出力レイヤーを追加するだけで「質問応答」や「言語推論」といった複数のタスクに対応できます。発表された時点では、自然言語を理解する多くのタスクで人間を超える精度を達成しました。

BERTは、Google Reserchから、 Apache-2.0 Licenseのもとでオープンソースとして提供されています。

​音声認識・合成

eSpeak NG Text-to-Speech

Julius

BERT

音声認識・合成