初めての音声対話システム構築~効率アップの開発術~ /

株式会社ヒムズのブログ

どうやってシステムに組み込む?開発者の悩み

多くのメリットや可能性を秘めた音声対話インターフェイスですが、システム構築のためのインフラは十分に整備されてはいません。

音声認識エンジンや音声合成エンジンの選定から対話シナリオの作成までには、気の遠くなるような手間暇と、煩雑で膨大なノウハウが必要です。

相手は、気分や感情によってさまざまな発話を行う人間。簡易な対話制御ではUXに問題が出たり保守が困難になりがちなのです。

 

SiriやGoogle(メリットとデメリット)

音声インターフェイスの中でも、iOSのSiri や Androidなどで利用できるGoogle の音声検索などは誰もが知るところとなりました。しかし、独自のシステムへ組み込むには不便な部分があります。

SiriはAPIが現時点では公開されていないので、Siriからサードパーティ製の機器を操作するといったことはできず、コンポーネントとしての選択肢には入りません。

Googleの音声認識は、Android端末から、RecognizerIntentを通じて利用したり、Chromeブラウザから Google Speech API を呼び出す事ができるようです。

ただし、用途や呼びだせる回数に制限がかかっていたり、音声合成(TTS, テキスト読み上げ、Text to Soeech などとも呼ばれます)は、イントネーションのチューニングができなかったり、単語登録ができないなどの制限があります。

辞書登録やイントネーションのチューニングは、音声対話システムの品質の重要な要素となり、避けて通る事ができない課題です。例えば、新商品(新しい名詞)が読めなかったり、イントネーションがおかしかったりすると、せっかくの新製品PRの効果が薄れてしまうかもしれません。

また、音声認識や音声合成が利用できたとしても、対話制御ができるわけではないので、対話アプリケーションとして完成させるためには、対話制御を行う部分を開発する必要がありそうです。

対話制御(何を言われたら、何をしてどのように返事をするかといった対話の流れ)は、考え出すと無限に広がります。一問一答に限定すれば簡単かもしれませんが、それでは「対話」とは言い難いインターフェイスになってしまいます。

一問一答ではなく、人が自然に話す言葉に対応する事を考えた場合、発話の順番が毎回違っていたり、人によって異なる言い回しだったり、状況によって言葉の意味がかわったり、話題を切り替えながらしゃべったり、聞き直されたり、言い直されたり、様々な状況が想定されます。

対話制御を一般的なプログラミング言語で直感的に開発すると限界が低くなり、柔軟な対話シナリオの制作が困難なため、対話システムのユーザーにより良い体験をしてもらうためには、何らかの仕組みが必要といえます。

 

次の記事「音声対話シナリオ作成の専用ツールが」

 


 

dialog-makerについてご興味を持たれた方は、下記のフォームよりお気軽にお問合せください。

お預かりした個人情報につきましては、株式会社ヒムズの「個人情報保護方針」に従い厳重に取り扱います。

このブログ記事について

このページは、音声認識と音声合成を用いた自然な対話作成技術の株式会社ヒムズのブログです。

音声対話の開発ツールのdialog maker(ダイアログメーカー)と、それにかかわる音声認識・音声合成・対話システムの世界について掲載しています。