音声入力と再生をコンパクトに実現。東芝のApP LiteがUIをスマートに

スマートフォンの普及とともに一躍脚光を浴びるようになった音声インタフェース。Arm® Cortex®-A9を搭載した東芝のApP LiteシリーズのTZ2100が、音声コマンド入力と音声フィードバックの2つの音声操作機能を内蔵メモリで動作させることに成功。コスト要求の厳しい組み込み業界にも応えるべく、2層基板で実現させた。これからの組み込みシステムに求められる新たなUIとして、白物家電はもちろんのこと、産業機器や様々なアプリケーションに搭載できる日もすぐそこに来ている。今回は、Design Solution Forum実行委員長の木村氏を交え音声インタフェースの取り組みについて聞いてみた。

メインイメージ
集合写真(左より)
東芝デバイス&ストレージ株式会社 ロジックLSI統括部 ロジックLSI応用技術部 分野別拡販担当 参事 尾鷲 一也 氏
Design Solution Forum実行委員長 木村 貞弘 氏
東芝デバイス&ストレージ株式会社 ロジックLSI統括部 ロジックLSI応用技術部 部長附 前納 秀樹 氏
(対談のみ参加)
インスケイプ株式会社 APS実験室 室長 浦邉 康雄

広まり始めた音声I/F。AIスピーカーも話題に

―2011年にアップルがiPhoneにSiriを搭載して以来、音声インタフェースが広まってきました。AIスピーカーも話題です。

前納:アマゾンの「Echo」は早速買いました(笑)。

尾鷲:うちは「Google Home」です。量販店でテレビを買ったらおまけで付けてくれました。最初の頃は子供が面白がって使っていましたけど、一週間ぐらいしたら飽きちゃったようですが(笑)。

浦邊:Apple Watchでランニングのアプリを起動するときに「Hey Siri」って呼びかけるんですが、周りに人がいるとなんとなく恥ずかしかったりしますよね(笑)。

前納:スマホ世代の若者とは違って、おじさんたちは、人がいるところでは恥ずかしがって話せない(笑)。でも、アメリカではEchoが1000万台以上も売れているそうなので、人気があるんでしょうね。日本でそこまで受け入れられていないのは、アプリケーションが少ないからなのか、それともメンタリティとして言葉を発するのが苦手だからなのか、そこは精査が必要かもしれません。

尾鷲:今のAIスピーカーって使い始めるまでの設定作業がけっこう難しくて、機械が苦手な人だとたぶん無理だろうと思うんですね。やはりもっと簡単に使えるようにならないと普及しないのかなと。

木村:その意味では音声機能付きのカーナビは便利ですよね。あらかじめ機能が組み込まれていて設定は不要で、クルマの中の閉じた空間なので誰に気兼ねすることなく言葉を出せますし、ハンズフリーという状況ですし。

―これまで音声インタフェースは、登場しては下火になり、登場しては下火になり、というのを繰り返してきたイメージがありますが、定着するのでしょうか。

木村:実は今から25年ぐらい前、大学生だったときに音声認識の研究をやっていたんですが、当時は不特定話者を対象にするのは困難でしたし、認識率を上げようとすると文脈などの情報も交える必要があって、もちろんハードウェアの性能も今とは比べ物にならないほど低く、音声でなければならないといったアプリケーションもなかなかなくて、結局はトーンダウンしていっちゃったというのはあります。

前納:アップルやグーグルが物量作戦で大量の音声データを集めて、AIを回して文脈まで分析して、一方でネットワークもサーバーも速くなって、さらに雑音除去のような信号処理も進化して…っていうブレークスルーがもたらしたものは大きいんじゃないかと思いますね。

木村:普及あるいは定着という意味ではアプリケーションですよね。組み込み設計を対象にした業界団体であるDesign Solution Forumの立場でいうと、たとえば複合機なんかはタッチパネル操作が普及していますが、それと音声操作を組合わせる事で、ユニバーサルデザインと言う意味で人にやさしい機器になると思います。また、自然な会話をしてくれる高齢者向けの癒しロボットみたいなのは十分アリなわけで、音声でなければならないアプリケーションをどう作っていくかが課題ですよね。

尾鷲:産業分野でいうと、たとえば工場の現場の中には分厚い手袋をしてタッチパネルもうまく操作できないこともあるので、音声認識による操作とか、あるいは音声合成によるガイダンスなどにニーズはあると思ってます。お客様から指摘されるのは、音声をやるからといって機器をインターネットにつなぐのはセキュリティ上ダメだよと。それと、周囲雑音の多い現場でも大丈夫なのかと。工場だと使われる言葉(単語)は決まっているのでスタンドアロンで十分処理できて、誤認識の問題も確認のために2回発話してもらうといった工夫で対応できるはずなんです。

登録単語をわずか0.1秒で認識。Arduinoサイズの評価キットを提供

―東芝が提供している音声ソリューションをぜひ紹介してください。

尾鷲:東芝はさまざまな音声ソリューションを展開していますが、ここで紹介したいのはスタンドアロンのソリューションです。音声インタフェース機能をローコストかつコンパクトに実現することを目指したもので、白物家電、住宅設備、OA機器、産業機器(HMI:Human Machine Interface)などへの展開を想定して開発しました。「ApP Lite」と呼ぶ当社のアプリケーションプロセッサのうち、Arm Cortex-A9コアを搭載した「TZ2100」をベースに、登録済み単語を認識する東芝のミドルウェア「Voice Trigger」と、株式会社CRI・ミドルウェア様が提供するコーデック不要の音声再生ミドルウェア「D-Amp Driver®」をバンドルしたものになります。

図1図1:内蔵メモリだけで音声認識と音声合成を同時に実現する、2層基板のTZ2100。

前納:不特定話者を対象にしていますが、自然言語を認識させたりインタラクティブなコミュニケーションを目指したソリューションではなくて、いってみれば「アレクサ」とか「OK、Google」といったトリガーワードを認識させるような機能と考えてもらえばいいと思います。EchoにしろGoogle Homeにしろ、トリガーワードだけはクラウドは使わずにローカルで処理することが知られていますが、まさにそのイメージです。

尾鷲:たとえば15単語を登録しておいた場合、TZ2100の処理負荷は10%未満で、認識時間は0.1秒ぐらいと高速です。100単語を登録したときでも負荷は25%ぐらいにしかなりません。また、相当の時間を掛けて学習させた日本語辞書、英語辞書、および中国語辞書を用意しています。応答速度が非常に速いこととノイズに強く、ノイズの多い環境でも検出性能が高いシステム構築が可能です。また、組み込み用途に特化しているので、TZ2100に内蔵される1MBのSRAMだけで動くのも特徴です。ちなみにVoice Triggerは車載でも実績があります。

木村:外部にDDRメモリが要らないというのはいいですよね。DDRがあるだけで電力を食いますし、コストもアップしてしまいますから。

浦邊:ミドルウェアのVoice TriggerとD-Amp Driverをほかのマイコンに載せることはできないんですか?

前納:技術的には可能ですが、TZ2100を対象にチューニングをしているというのと、われわれ半導体会社としてはデバイスを売りたいというところがあるので、こうしたパッケージとして提供することにしました。

尾鷲:ほかの理由として、オーディオ用のバスであるI2Sインタフェースを備えたマイコンってあまり多くないんですね。もちろんTZ2100には搭載されています。

木村:マイコンはあっちから買って、ミドルウェアはこっちから買って、いざ組み合わせてみたら動かなかった、あるいは性能が出なかった、というのは機器の開発では往々にして起こるので、動作が保証されていて性能もチューニングされているソリューションのほうが作る側としては安心ですよね。

―評価キットがあるそうですね。

尾鷲:お客様に手軽に評価していただきたいと考えて、Arduinoと同じサイズ(68.6mm×53.3mm)のスターターキットを開発しました。プレセールスでいろいろなお客様にご紹介したのですが、とても感触がよくて、すでに先行でお出ししているところもあります。2018年3月から本格的に展開していきます。

―どんな感じで動くのでしょうか。

尾鷲:今は白物家電を想定して、階層を設けて単語を登録した状態なんですが、たとえば…

音声入力と音声出力の様子

(話  者) メニュー
(女性の声) <メニューを表示します>
(話  者) レンジ
(女性の声) <レンジが選択されました>
(話  者) カレーライス
(女性の声) <カレーライス調理を開始します>
(話  者) 戻る、メニュー
(女性の声) <メニューを表示します>
(話  者) 洗濯機
(女性の声) <洗濯機が選択されました>
(話  者) オート
(女性の声) <洗濯と脱水を開始します>
(話  者) 戻る

尾鷲:こんな感じですね。小型マイクと小型スピーカーが載っていて、UART経由でお客様の既存のシステムに入出力インタフェースのひとつとしてアドオンすることを想定しています。BSP(ボード・サポート・パッケージ)、サンプルドライバ、Voice Triggerミドルウェア、D-Amp Driverミドルウェアなどのほか、WQVGA(400×240)のLCDが同梱されます。ちなみにローコストで作れることを示すために基板は2層で設計しています。

前納:TZ2100は性能的に余裕があるので、音声認識や音声再生だけではなく、メインのマイコンとして使ってもらってもまったくかまいません。ただし今はOSレスが前提なので、Linux®などを載せたいとなると要ご相談になりますが。

木村:OA機器でいうと、ユーザーインタフェースがあまりリッチではない、たとえばプロジェクターなんかにこうした音声インタフェースを載せてもいいかもしれませんね。

尾鷲:まずは、新規技術の導入に積極的なメーカをターゲットにしています。製品になにかしらの特徴をつけたい、というお客様からご興味をいただいています。

浦邊:スタートアップの会社なんかは、こうしたキットを買ってきて、アイディアを実装して、場合によってはそのまま市場に出してしまおうというメンタリティなので、そういう人たちにもこのキットが届くと音声インタフェースの可能性が広がりそうかなと。

前納:Amazonなんかでこのキットを売ればいいのでしょうけど、直接扱うのは社内的にいろいろと難しいので、どこか販社さんが協力してくれればなと思ってます。

図2図2:音声によるHMI機能の使用例

幅広い普及が見込まれる音声I/F。新アプリケーションの創出に期待

―将来の話も伺いたいのですが、音声インタフェースはこれからどうなっていくと見ていますか?

木村:当たり前の世界になっていくんじゃないんですかね。音声って長年に亘って研究されてきて、ようやく技術的なハードルを超えて実用レベルになって、数百円とかいずれは数十円ぐらいのコストで機能が実現できるとなれば、どこにでも搭載されるようになると感じます。

前納:なんといっても生まれたときからスマホが存在していた若者たちがこれから大人になっていくわけで、家電でもなんでも音声機能がないと、逆に、なんでないの?と言われかねないという、ある意味で恐ろしい時代になるかもしれないなと。

尾鷲:たとえば産業分野では熟練技能者の不足が問題になっていますけど、彼らの技術を記録しておいて、音声や映像でガイダンスを出して、ベテランではなくても高度な作業ができるようにする、といった取り組みは一部で始まっているようですから、そうした社会の課題を解決する手段のひとつとして音声の活用が広がることにも期待しています。

―最後に読者にひとこと。

尾鷲:スタンドアロンでの音声認識を実現するソリューションを紹介しましたが、お客様の製品の新たなアイディアに結び付けていただければ嬉しく思います。ぜひご検討ください!

  • Arm、Cortexは、米国および/あるいはその他の国におけるArm Limited (またはその子会社)の登録商標あるいは商標です。
  • Apple Watch、iPhone、Siriは、Apple Inc.の商標です。
  • Googleは、Google LLCの商標です。
  • Linuxは、Linus Torvalds 氏の日本およびその他の国における登録商標または商標です。
  • その他の社名・商品名・サービス名などは、それぞれ各社が商標として使用している場合があります。

APS EYE'S

東芝の音声ソリューションは、日々進化するUIの変化を一早く気づき製品化した。スマホの登場以来、様々な場面で音声による操作が進化を遂げている。ApP Liteの音声ソリューションは、HMIをも凌駕がするほどのポテンシャルを秘めている。まだ恥ずかしい?そう言っている時間はなさそうだ。