法楽日記

デジタル散策記&マインド探訪記

ジェイムズ・ブラホス(著)「アレクサ vs シリ ボイスコンピューティングの未来」

ジェイムズ・ブラホス(著)「アレクサ vs シリ ボイスコンピューティングの未来」を読みました。音声対話型コンピュータの歴史と今後についてまとめられた本です。登場するのは主に「Amazon Alexa」「Apple Siri」「Google Assistant」「Microsoft Cortana」ですが、前身やスピンオフも取り上げられています。

この本によると、音声処理(音声認識から発話まで)の各段階でディープ・ラーニングの果たす役割はとても大きいようです。それに加えて、バックエンド・システム(質問に答える、依頼に応える、おしゃべりする、など)の性能も重要なようです。

音声対話型コンピュータはユーザ・インタフェースが音声と言うだけで、それ以外の部分は従来のコンピュータと同じです。音声ならではの使い方により利便性が大きく向上すると同時に、音声ならではの誤解(例えば万能感)を生み出す可能性を持ち合わせていると思います。

音声対話型コンピュータはあくまで人間が作り出した道具なので、間違っていることもあれば、結果的に特定の方向に誘導することもあります。おしゃべりにしても、喩えるならアドベンチャー・ゲームのようなもので、基本的にはデザイナーのシナリオや機械学習の成果に従って会話しているに過ぎません。

音声対話型コンピュータが発展すればするほど、情報の裏取り能力や比較検討能力、創造力や審美眼など、現在のコンピュータが持ち合わせていない能力を利用者が磨いていく必要があるように思いました。

また、聴覚情報に限定したユーザ・インタフェースよりも、視覚情報なども含めた多元的なユーザ・インタフェースの方が使い方が広がるのではないかと思いました。家庭にあるテレビやパソコンやスマホとの連携は、これから重要になってくるのではないかと思いました。