top of page

​音声認識・合成

espeak.png

eSpeak NG Text-to-Speech

​eSpeak NGは、マルチプラットフォームで動作するコンパクトな音声合成ツールです。フォルマント合成法を使用して、小さなサイズで100を超える言語とアクセントをサポートしています。

元々はspeakとして知られており、1995年にJonathan Duddington によって開発されました。2007年にeSpeakとして書き直され、さらに2015年にReece H. DunnによってSpeak NGプロジェクトとして引き継がれました。

eSpeak NGは、GPL version 3 または、それ以降のバージョンのもとで利用できます。

スクリーンショット 2022-02-15 16.49.03.png
3575.png

関連リンク

eSpeak

Julius

Juliusは、高性能な汎用の大語彙連続音声認識エンジンです。数万語の語彙を持ち、連続した音声認識を一般のPCやスマートフォン上でほぼリアルタイムで実行できます。

音声認識システムの開発・研究のための京都大学河原研究室で開発され、現在は名古屋大学Julius開発チームが中心になって開発を継続しています。

Juliusは、オープンソースソフトウェアとして3条項BSDライセンスのもとで公開されています。

スクリーンショット 2022-02-15 16.49.03.png
3575.png

関連リンク

Julius

BERT

BERTは、 Googleによって開発された自然言語処理の事前学習の機械学習手法です。BERTでは、事前トレーニングされた単一のBERTモデルを備えており、出力レイヤーを追加するだけで「質問応答」や「言語推論」といった複数のタスクに対応できます。発表された時点では、自然言語を理解する多くのタスクで人間を超える精度を達成しました。

BERTは、Google Reserchから、 Apache-2.0 Licenseのもとでオープンソースとして提供されています。

3575.png

関連リンク

bottom of page