オープンソース音声アシスタントのベスト|YourTechDiet(ユアテックダイエット

CAの多くは、Alexa、Siri、Google Assistant、Cortanaなどの音声アシスタントを聞いたことがあるはずです(そしておそらく、彼らからも話を聞いたことがあるでしょう)。

これらの音声アシスタントは、基本的に音声認識(当たり前ですが)、NLP、音声の合成をベースにしています。

世界の音声アシスタント市場は、2018年@12億ドルから2024年には54億ドルへと30%の成長を見せると予測されています。

最近の消費者調査の結果、2020年1月の時点で、米国の成人8770万人がスマートスピーカーを使用していることが確認されています。

2019年第3四半期時点で、アマゾンは1040万台でアリババ(390万台)、バイドゥ(370万台)、グーグル(350万台)などを抜いてスマートスピーカー市場をリードしています。

このように市場が急成長しているため、多くの企業が業務の一部として活用しようと躍起になっています。

音声アシスタントはまだ完全に実現された技術ではないので、企業にとっては、簡単にカスタマイズしたり、遊んだりできる音声アシスタントソリューションを選ぶことがより理にかなっています。

そうなると、オープンソースの音声アシスタントがぴったりです。それでは、現時点で入手可能な最高のオープンソース音声アシスタントをいくつか深掘りしてみましょう。

マイクロフト

Mycroftは、おそらくすべてのオープンソースの音声アシスタントの選択肢の中で最も人気があり、その最初のものでもあります。Mycroftは、2015年にMark 1で製品キャンペーンを開始し、それ以来長い道のりを歩んできました。

マーク1を使いこなすためのノウハウをご紹介します。マークは、事実関係の問い合わせに答えたり、音楽を再生してくれたり、Wi-Fi接続された家電を簡単に操作できたりと、初歩的な操作のすべてをこなすことができます。

マイクロフトは、次世代スマートスピーカーと言われるマーク2まで作っています。

マイケル・ルイスは最近、新CEOとして入社しました。彼のインタビューから、マイクロフトが事業を運営する上で、プライバシーとオープン性を最も重要視していることが推測される。

価格について: Mark 1は149.99ドル、Mark 2は予約時に1ドルのデポジットを徴収しているそうです。発売までしばらくお待ちください。

オープンアシスタント

Open Assistantは、オープンソースの音声アシスタントのプロトタイプです。Open Assistantが音声アシスタントの選択肢としてより魅力的なのは、音声コマンドがデバイスにのみ制限されることを保証する点です。

Open Assistantは、ブートマインド、ルートマインド、ユーザーマインドの3つの主要コンポーネントで構成されています。

ブートマインドは、一種の電源ボタンとして機能します。このコンポーネントは、トリガーワードが話されるとシステムを初期化し、その後、ルートマインドが起動するようになっています。

ルートマインドは、このユニットの中心的なコンポーネントです。このコンポーネントは、デバイスが基本的な一連の音声命令に反応するのを助けます。

そして最後に登場するのが、この3つの要素の中で最も高度で、特定の方法で学習し行動する能力を持つ「ユーザーマインド」です。

価格について フリーソフトです。

ジャスパー

この音声コンピューティングアシスタントを開発したのは、プリンストン大学の学生であるShubhro SahaとCharlie Marshの2人です。

Jasperは、基本的なマイク、ネットワークアダプター、Raspberry Piなど、非常に基本的なハードウェアで動作します。

Spotifyの音楽を再生したり、天気予報などの初歩的な質問に答えたり、ソーシャルメディアの更新を追跡したりと、基本的な操作を行うことができるのが特徴です。

価格です: これもフリーソフトで、自分の好きなように機能を設計することができます。

リントー

LinTOは、オープンソースの音声アシスタントソリューションのもう一つの例です。このプロジェクトは、フランス政府のPIA(未来投資プログラム)の資金援助を受けています。

LinTOに大きく有利に働くのは、SaaSとして動作し、お客様の敷地内にデプロイできることです。

本プラットフォームの主な特徴は以下の通りです。

  1. ビジネスに特化した語彙でデータベースを更新すること。
  2. 文言の誤りを最小限に抑える最先端技術を搭載しています。
  3. 文章から意図を汲み取るのが得意な方

価格について このオープンソースシステムは、GNU Affero Licenseのもと、余剰料金やフリーミアムモデルなしで利用できます。

ラスパイ

このオープンソースの音声アシスタントは、マイケル・ハンセンによって作成され、維持されています。

Rhasspyは、以下のような異なるタイプのハードウェア上で実行することを意図しています。

  1. ラズベリーパイ2-3
  2. デスクトップ/ラップトップ/サーバー
  3. Raspberry Pi Zero(ラズベリーパイ ゼロ

Rhasspyの主な機能は、ウェイクワード検出、音声転写、意図認識、トレーニングなどです。

価格について このオープンソースの音声アシスタントは、MITライセンスで提供されています。

エイミーボックス

Aimyboxは、オープンソースの音声アシスタントSDKです。このオープンソースのSDKは、AndroidとiOSの両方で使用することができます。

Aimyboxは、拡張可能なアーキテクチャを最大の特徴としており、音声からテキスト、テキストから音声への移行を完全に自由にしています。

また、Aimyboxは、他の音声アシスタントに見られるような制約を克服できる機能を備えていることを宣言しています。

価格について この音声アシスタントは、Apache 2.0の下で利用可能です。

レオン

音声アシスタントのLeonは、Louis Grenardによって開発されました。このアシスタントはサーバー上で動作します。あなたのシステムにセットアップされたこの音声アシスタントと会話し、テキストメッセージをやりとりすることも可能です。

その1.0.0-beta.2リリースが開始されました。このリリースは、NLUの操作性をより向上させることを目的としています。

価格について このオープンソースの音声アシスタントは、MITライセンスで提供されています。

結論

これらのオープンソースの音声アシスタントの多くは、ごく最近誕生したもので、より洗練されたソリューションに発展させるには、おそらく時間がかかると思われます。

しかし、それでも、あなたの要求の程度に応じて、上記の音声アシスタントのうちの1つを選ぶことができます。