Alexa、Siri、Googleアシスタント、Cortanaといった音声アシスタントについて、多くの人が聞いたことがあるでしょう(おそらく実際に耳にしたこともあるでしょう)。
これらの音声アシスタントは、基本的に音声認識(当然のことながら)、NLP、そして音声合成に基づいています。
世界の音声アシスタント市場は、2022年の45億9000万ドルから2030年には307億2000万ドルへと31.2%成長すると予測されています。
最近の消費者調査によると、現在、米国の成人の90%以上がスマートスピーカーを使用していることが分かっています。
スマートスピーカーの世界出荷台数は、2024年には2億台を超えると予想されています。
2023年には、アメリカ人の64%がAmazon Echoを所有していました。
市場の急成長に伴い、多くの企業がAmazon Echoを業務に導入しようと躍起になっています。
音声アシスタントはまだ完全には普及していない技術であるため、企業にとっては、簡単にカスタマイズしたり、自由に操作したりできる音声アシスタントソリューションを選択する方が理にかなっています。
そこで、オープンソースの音声アシスタントが最適です。それでは、現在利用可能な優れたオープンソース音声アシスタントをいくつか詳しく見ていきましょう。
オープンソースの音声アシスタントのベスト7
Mycroft
Mycroftは、オープンソースの音声アシスタントの中でもおそらく最も人気があり、先駆者でもあります。Mycroftは2015年にMark 1で製品キャンペーンを開始し、それ以来大きな進歩を遂げてきました。
Mark 1を使い始めるためのノウハウをご紹介します。Markは、事実に関する質問に答えたり、音楽を再生したり、Wi-Fi接続された家電を簡単に操作したりするなど、基本的な操作をすべてこなします。
Mycroftは、次世代スマートスピーカーと目されるMark 2も開発しました。
最近、マイケル・ルイス氏が新CEOに就任しました。彼のインタビューから、プライバシーとオープン性がMycroftの事業運営において最も重要視されていることが分かります。
価格:Mark 1は149.99ドル、Mark 2は現在、予約時に1ドルの少額のデポジットを徴収しています。一般発売までにはしばらくお待ちいただく必要があります。
Open Assistant
Open Assistantはオープンソースの音声アシスタントのプロトタイプです。Open Assistantが音声アシスタントとしてさらに魅力的なのは、音声コマンドがデバイス内でのみ実行されることを保証している点です。
Open Assistantは、ブートマインド、ルートマインド、ユーザーマインドという3つの主要コンポーネントで構成されています。
ブートマインドは、いわば電源ボタンのような役割を果たします。このコンポーネントは、トリガーワードが発せられた際にシステムを初期化し、その後ルートマインドが起動します。
ルートマインドは、このユニットの中核となるコンポーネントです。このコンポーネントは、デバイスが基本的な音声指示に応答するのを支援します。
そして最後に、3つのコンポーネントの中で最も高度なユーザーマインドが配置され、学習して特定の動作を行う能力を備えています。
価格:無料ソフトウェアです。
Jasper
Shubhro SahaとCharlie Marshは、プリンストン大学の2人の学生によって開発された音声コンピューティングアシスタントです。
Jasperは、基本的なマイク、ネットワークアダプター、Raspberry Piといったごく基本的なハードウェアで動作します。
機能面では、Spotifyからの音楽の再生、天気予報などの基本的な質問への回答、ソーシャルメディアの更新の追跡といった基本的な操作を実行できます。
価格:これもまた、自由に機能を設計できる無料ソフトウェアです。
LinTO
LinTOは、オープンソースの音声アシスタントソリューションの一つです。このプロジェクトは、フランス政府のPIA(未来投資プログラム)の資金提供を受けています。
LinTOの大きな利点は、SaaSとして動作し、オンプレミスで導入できることです。
このプラットフォームの主な機能は以下の通りです。
ビジネス特有の語彙でデータベースを更新します。
最先端の技術を搭載し、言葉遣いの誤りを最小限に抑えます。
テキストから意図を的確に理解します。
価格:このオープンソースシステムは、GNU Afferoライセンスの下で利用可能で、追加料金やフリーミアムモデルはありません。
Rhasspy
Michael Hansen氏が開発・保守するオープンソースの音声アシスタントです。
Rhasspyは、以下のような様々なハードウェアで動作します。
Raspberry Pi 2-3
デスクトップ/ラップトップ/サーバー
Raspberry Pi Zero
Rhasspyの主な機能には、ウェイクワード検出、音声文字変換、インテント認識、学習機能などがあります。
価格:このオープンソースの音声アシスタントは、MITライセンスの下で利用可能です。
Aimybox
Aimyboxは、独自のアシスタントを作成できるオープンソースの音声アシスタントSDKです。このオープンソースSDKは、AndroidとiOSの両方で使用できます。
Aimyboxは、拡張可能なアーキテクチャを最も重要な特徴としており、これにより音声からテキストへの変換やテキストから音声への変換を自由に行うことができます。
Aimyboxは、他の音声アシスタントによくある制限を克服する機能も備えていると自負しています。
価格:この音声アシスタントはApache 2.0で利用可能です。
Leon
音声アシスタントLeonは、Louis Grenard氏によって開発されました。このアシスタントはサーバー上で動作します。システムにインストールされたこの音声アシスタントと会話したり、テキストメッセージを交換したりすることも可能です。
1.0.0-beta.2リリースがリリースされました。このリリースは、NLU操作のさらなる改善を目的としています。
価格:このオープンソース音声アシスタントは、MITライセンスの下で利用可能です。
結論
これらのオープンソース音声アシスタントの多くはごく最近登場したばかりで、より洗練されたソリューションへと進化するにはおそらく時間がかかるでしょう。
とはいえ、ニーズの程度に応じて、上記の音声アシスタントのいずれかを選択することができます。




