トップ6 オープンソースTTSエンジン

Text-to-Speech Engine技術(より一般的にはTTSと呼ばれる)を使用して、テキスト文書の音声版を作成します。

デジタル機器の普及に伴い、音声認識やそれに類する技術への依存度が高まる中、TTSが脚光を浴びています。

しかし、この技術の応用はそれだけにとどまりません。この技術の助けを借りて、テキストメールを音声記録に変換することができます。また、視覚障がい者の方がテキストコンテンツを理解するのにも役立ちます。

このブログを通じて、最高のオープンソースTTSエンジンツールをいくつか見ていきたいと思います。これにより、その特徴や利点をより明確に理解することができます。

MARYTTS

MARY Text-to-Speech は、英語(英米語)、フランス語、ドイツ語、イタリア語、ロシア語、その他多くの言語をサポートする多言語 TTS 合成プラットフォームです。

特徴

  • トークナイザーや数値拡張などの前処理技術を使用します。
  • マルチスレッドネットワークアーキテクチャを使用し、複数のリクエストを並行して処理します。
  • 純粋なJavaモデルと外部モデルの両方を使用できるように、柔軟な性質を持っています。
  • XML構造を用いて透明性を高め、一般ユーザーにもわかりやすくなっています。

イースピーク

eSpeakは、WindowsとLinuxの両方で利用可能な、コンパクトなオープンソースのテキスト音声合成エンジンです。英語はもちろん、その他多くの言語をサポートしています。その主な機能を簡単にご紹介しましょう:

特徴

  • このプラットフォームは、テキストから音素への翻訳を簡単に行うことができます。これは、システムがテキストの意味を理解し、それに応じて翻訳し、発音をピックアップするのに役立ちます。
  • 2つのシンセサイザーが付属しています:
    • 母音と子音を変換し、音付加技術で音を完成させる「eSpeakinGシンセサイザー」。
    • Klattシンセサイザーは、似たような手法ですが、減算合成を採用しています。デジタルフィルターを使って、子音、母音、ソノラントの違いを理解するのです。
  • このツールは、テキストを音声に変換する差別化技術やスピードが評価され、2010年にGoogle翻訳に採用されました。
  • 声の音質もクリアで、耳に心地よく響きます。

ミミック

電光石火のオープンソースTTSエンジンで、その中核機能は以下の通りです:

特徴

  • FLITE技術をベースにしているので、声の出し方をカスタマイズすることができます。
  • 小さなレイテンシーのプラットフォームであり、限られたリソースのフットプリントを使用します。
  • Linux、Android、Windowsでシームレスに動作します。
  • 現在、このツールは、言語障害のある人にリアルな声を届けることに取り組んでいます。

CMUフライトTTS

Festival Liteは、より一般的にFliteとして知られています。小型のランタイムエンジンで、TTSエンジンの中では最速と言われています。

オープンソースのエンジンであるため、無料で利用でき、多くのカスタマイズが可能です。そのため、多くの企業がこのTTSエンジンを採用しています。ここでは、そのコアとなる機能のいくつかを見てみましょう:

  • 小さなファイルから大きなファイルまで対応可能です。
  • スレッドセーフで、最新版では手間のかからないTTS変換を実現しています。
  • Windows、Linux、Androidに対応しています。
  • また、多言語にも対応しています。

エムブローラ

MBROLAは、Multi-Band Resynthesis OverLap Addの略です。MBROLAは、著名なオープンソースのTTSエンジンの1つでもあります。そして、多くの音声言語のサポートを提供しています。では、その主な機能を簡単に見てみましょう:

  • 多言語データベースを提供します。
  • 社内でテキストから音声への変換を行う際に便利です。
  • 以前は非商用ソフトでしたが、現在はオープンソースのTTSエンジンとして発売されています。
  • 声の高さが一定で正確な、心地よい音質を提供します。

YakiToMe

YakiToMeは、テキストファイルを簡単に音声ファイルに変換することができます。音声ファイルをMP3オーディオファイルにダウンロードすることができます。その主な機能を理解しましょう。

  • .doc、txt、.pdfファイルだけでなく、.HTML、RSS、Eメールファイルにも対応したエンジンです。
  • ポータブルファイルをダウンロードし、デスクトップ、タブレット、スマートフォンに保存することができます。
  • また、他のユーザーが作成したファイルを検索して購読することができるソーシャルプラットフォームも提供します。
  • 英語、フランス語、スペイン語でのサポートを提供しています。
  • 音声、話すスピード、発音のコントロールを提供します。

キーテイクアウェイ

上記のツールにより、オープンソースのttsエンジンは、異なる言語のテキストを変換するために広く使用することができることが理解できます。また、これらのエンジンを使って、ソーシャルプラットフォームや社内ユーティリティなどを作成することも可能です。