COVID-19のパンデミック以降、フェイスマスクが日常的なアクセサリーとなったように、マスクがウェアラブルなインターフェースとして活用され始めている。従来の音声認識とは異なり、声を出さずに音声対話をすることにより、混雑した公共空間でもデジタルなデバイスを利用できることを想定しています。
本研究では、マスク型の音声対話インターフェース「E-MASK」を提案します。E-MASKは、柔軟で高感度な歪みセンサを用い、無音音声対話のための新しい測定原理を提案します。Alexaの21の基本コマンドに対応するセンサパターンのデータセットを構築しました。椅子に座った状態での推定精度は84.4%、トレッドミルで歩行した状態での推定精度は79.1%となりました。
また、6種類の表情や動作を84.7%の精度で分類することができ、人混みでの歩行中など、日常生活のさまざまな場面でデジタル機器とのシームレスなインタラクションを提供することが期待できます。
口パクで音声入力できるマスク、東大などが開発 約8割の精度で音声を認識 https://t.co/zbA8K5P9Gk ひずみセンサー8個を取り付けたマスクで口パクによる変形を読み取り音声アシスタントへの入力コマンドに変換する技術。Alexaの基本的な操作コマンド21個を高精度で行った。センサーの取り外しは容易。 pic.twitter.com/Qn5IkpArMn
— Seamless (@shiropen2) April 27, 2022