テキスト読み上げエンジン テクノロジ (一般に TTS と呼ばれます) は、テキスト ドキュメントの音声バージョンを作成するために使用されます。
デジタルデバイスの利用増加と音声認識などの技術への依存度の高まりにより、TTS(テキスト読み上げ)の重要性が高まっています。
しかし、この技術の応用範囲はそれだけではありません。この技術を使えば、テキストメールを音声録音に変換できます。また、視覚に障がいのある方がテキストの内容を理解するのにも役立ちます。
このブログでは、オープンソースのTTSエンジンツールの中でも特に優れたものをいくつか取り上げます。これにより、それぞれの機能とメリットをより深く理解できるようになります。
オープンソースのTTSツール
MARYTTS
MARY Text-to-Speechは、英語(イギリス英語、アメリカ英語)、フランス語、ドイツ語、イタリア語、ロシア語など、多くの言語をサポートする多言語TTS合成プラットフォームです。
機能:
- トークナイザーや数値展開などの前処理技術を使用します。
- マルチスレッドネットワークアーキテクチャを採用し、複数のリクエストを並列処理します。
- 柔軟性が高く、純粋なJavaモデルと外部モデルの両方を使用できます。
- XML構造を採用することで透明性を高め、一般ユーザーにとって理解しやすい設計となっています。
eSpeak
eSpeakは、WindowsとLinuxの両方で利用可能なコンパクトなオープンソースのテキスト読み上げエンジンです。英語をはじめ、多くの言語をサポートしています。主な機能をいくつかご紹介します。
機能:
- このプラットフォームは、テキストから音素への翻訳を簡単に行うことができます。これにより、システムはテキストの意味を理解し、それに応じた発音で翻訳・認識を行うことができます。
- 2つのシンセサイザーを搭載しています。
- eSpeakinGシンセサイザーは、母音と共鳴子音を変換し、音加算技術を用いて音を完成させます。
- Klattシンセサイザーは、同様の技術を用いますが、減算合成を採用しています。デジタルフィルターを用いて子音、母音、共鳴子音の違いを認識します。
- このツールは、その微分化技術とテキストから音声への変換速度が評価され、2010年にGoogle翻訳に採用されました。
- 音声の音質はクリアで、耳に心地よく響きます。
Mimic
超高速のオープンソースTTSエンジンで、主な機能は以下のとおりです。
機能:
- FLITEテクノロジーをベースとしているため、音声の音質をカスタマイズできます。
- レイテンシが小さく、リソース消費量も最小限です。
- Linux、Android、Windowsでシームレスに動作します。
- 現在、このツールは、発話障害のある方々にリアルな音声を提供することに取り組んでいます。
CMU Flite TTS
Festival Liteは、一般的にFliteとして知られています。これは、小型のランタイムエンジンであり、最速のTTSエンジンの一つと考えられています。
オープンソースエンジンであるため無料で、様々なカスタマイズが可能です。そのため、多くの企業がこのTTSエンジンを選択しています。その主な機能をいくつかご紹介します。
- 小さなファイルにも大きなファイルにも使用できます。
- スレッドセーフで、最新バージョンでは手間のかからないTTS変換が可能です。
- Windows、Linux、Androidに対応しています。
- また、複数の言語で利用可能です。
MBROLA
MBROLAはMulti-Band Resynthesis OverLap Addの略です。MBROLAは、広く利用されているオープンソースのTTSエンジンの一つです。多くの言語をサポートしています。主な機能をいくつかご紹介します。
- 多言語データベースを提供します。
- 社内でのテキスト音声変換に役立ちます。
- 以前は非商用ソフトウェアでしたが、現在はオープンソースのTTSエンジンとして提供されています。
- 声の高さの一貫性と正確さを保ちながら、心地よい音質を提供します。
YakiToMe
YakiToMeを使えば、テキストファイルを簡単に音声ファイルに変換できます。音声ファイルはMP3オーディオファイルとしてダウンロードできます。YakiToMeの主な機能について見ていきましょう。
このエンジンは、.doc、txt、.pdfファイルだけでなく、.HTML、RSS、メールファイルもサポートしています。
ポータブルファイルをダウンロードして、デスクトップ、タブレット、スマートフォンに保存できます。
また、他のユーザーが作成したファイルを検索したり、購読したりできるソーシャルプラットフォームも提供しています。
英語、フランス語、スペイン語に対応しています。
音声、読み上げ速度、発音のコントロールも提供しています。
主なポイント:
上記のツール群から、オープンソースのTTSエンジンは、様々な言語のテキスト変換に幅広く活用できることがわかります。これらのエンジンは、ソーシャルプラットフォームや社内用ユーティリティなど、様々な用途に活用できます。




