Research
以下は研究テーマの一例です.その他の研究についてはPublicationから参照ください.
UltrasonicWhisper: 超音波によるヒアラブルデバイスへの攻撃手法
概要:近年の研究より,マイクの非線形性を用いることでスマートスピーカやスマートフォンの内蔵マイクへの音声入力に超音波を利用できることが示されている.多くのヒアラブルデバイスには外部音取り込みやノイズキャンセリング用の外向きマイクが内蔵されているため,同様の攻撃が可能だと考えられる.具体的には,攻撃者から超音波によって変調された情報がヒアラブルデバイス内部で可聴音に変換され,そのまま内側のスピーカからユーザに提示される.これによって,攻撃者によりヒアラブルデバイスからの指示を装った虚偽情報が提示されたり,ユーザの聴覚を妨害することが可能になりうる.本研究ではヒアラブルデバイスに対する超音波攻撃の可能性を評価した結果,復調音のMel-cepstral Distortion (MCD)は7.9,Mean Opinion Score (MOS)は2.53であることを確認した.また,被験者が超音波攻撃があり得ることを知っている状態でも,14.9%の超音波による虚偽情報に従ってしまうことが確認された.
UltrasonicWhisper: Ultrasound Can Generate Audible Sound in Your Hearable
Abstract: Recent studies have shown that ultrasound can be used for voice input to microphones such as smart speakers by taking advantage of the nonlinearity of the microphones. A similar attack on the hearing of a user wearing a hearable with an outside microphone is also possible. Specifically, information modulated by ultrasound from an attacker is demodulated into audible sound inside the hearable, and audio information can be presented to the wearer via its inner loudspeaker. This process could result in the presentation of false information disguised as instructions from the hearable and possible interference with the user’s hearing. In light of those issues, this study experimentally evaluated the possibility of ultrasonic attacks on hearables. Evaluation results confirmed that mean Mel-cepstral distortion (MCD) and mean opinion score (MOS) of the demodulated sound were 7.90 and 2.53, respectively. We also confirmed that The participants followed 14.9% of the false instructions presented by ultrasound even when they were alerted to the ultrasonic attack.
ウェアラブルコンピューティングにおける聴力自在化技術の提案
概要:人の聴力は自分で制御することが難しく,必要のない情報まで取得したり,重要な情報を逸失したりすることがある.本研究では,マイクとスピーカを搭載したイヤホン型のウェアラブルデバイス(ヒアラブルデバイス)に着目した.ヒアラブルコンピューティング環境では,ユーザはつねにマイクとスピーカを耳に装着しており,ユーザの聴力を自在に操作できる環境だといえる. そこで本研究では,外界音を変換し,ユーザが自在に自身の聴力を操作するための聴力自在化技術のフレームワークを提案する.具体的には,マイクで取得した外界音の周波数を操作し,変換後の音をスピーカでユーザに提示することで, 従来の聴力では聞こえなかった音の取得や,不必要な音の削除が可能となる. 本研究では,周波数の操作 方法として5種類の方法を提案し,プロトタイプシステムを実装した.さらに,聴力の自在化によって実現できる7 種類の想定アプリケーションを提案した.
Manipulatable Auditory Perception in Wearable Computing
Abstract: We proposed a framework to manipulate auditory perception. Since auditory perception is passive sense, we often acquire unimportant information and do not notice important information. In this study, we focused on an earphone-type wearable computer (hearable device) that not only has speakers but also microphones. In a hearable computing environment, we always attach microphones and speakers to the ears. Therefore, we can manipulate our auditory perception using a hearable device. We manipulated the frequency of the input sound from the microphones and transmitted the converted sound through the speakers. Thus, we could acquire the sound that is not heard with our normal auditory perception and eliminate the unwanted sound according to the user’s requirements. We devised five types of frequency-manipulating techniques and implemented a prototype device. Moreover, we proposed seven assumed applications that can be realized by the proposed framework.
外耳道伝達関数による頭部状態認識手法
概要:近年注目されているヒアラブルデバイスにおいて求められる機能の一つとして,手や視界を占有することのないデバイス操作機能が挙げられる. 既存製品や既存研究では認識精度や認識できるジェスチャの種類,センサの追加コストなどの点で課題が残る.これらの課題の解決のために我々は首,顎,顔の状態(頭部状態)に伴って外耳道が変形することに着目し,外耳道伝達関数を測定,解析することで現在の頭部状態を認識する手法を提案した. 提案手法は外耳道内部の音を取得できるマイクを利用するため,ノイズキャンセリング機能等との併用が可能であり,ヒアラブルデバイスとの親和性が高い. また,デバイスの着脱や時間経過による装着具合の誤差を補正することで,認識精度の向上を実現した. 11名の被験者に対して21種類の頭部状態の認識実験を行った結果,各被験者の分類器の平均認識精度は,未補正時で40.2% (F 値),補正時で62.5%(F 値)となった. 実際のアプリケーションでの利用を想定し,6種類の頭部状態の認識結果を行なった結果,未補正時で74.4%(F 値),補正時で90.0%(F 値)の認識精度が得られた.
Ear Canal Transfer Function-based Facial Expression Recognition
Abstract: In this study, we propose a new input method for wearable computing using facial expressions. Facial muscle movements induce physical deformation in the ear canal. Our system utilizes such characteristics and estimates facial expressions using the ear canal transfer function (ECTF). Herein, a user puts on earphones with an equipped microphone that can record an internal sound of the ear canal. The system transmits ultrasonic band-limited swept sine signals and acquires the ECTF by analyzing the response. An important feature of the proposed method is that the microphone can also be used for other purposes, such as noise-canceling. Therefore, we consider that the proposed method is reasonable to be used in earphones. We investigated the performance of our proposed method for 21 facial expressions with 11 participants. Moreover, we proposed a signal correction method that reduces positional errors caused by attaching/detaching the device. The evaluation results confirmed that the f-score was 40.2% for the uncorrected signal method and 62.5% for the corrected signal method. We also investigated the practical performance of six facial expressions and confirmed that the f-score was 74.4% for the uncorrected signal method and 90.0% for the corrected signal method.
システム構成 / System configuration
外耳道伝達関数の一例 / An example of ECTF
足音と慣性データに基づく路面状況認識手法
概要:季節や天候によって路面状況が大きく変化する地域では,路面状況が悪いと転倒等の危険が生じる. 路面状況を事前に把握できれば,安全なルートと適切な靴を選択することで危険を回避できる. 本研究では,乾燥した舗装,水たまり,土,泥等の路面状況に応じて変化する足音と慣性データに着目し,足音と 慣性データを用いた路面状況認識手法を提案する. プロトタイプを実装し,8人の被検者に対して,6つの路面状況下で提案手法を評価した. 低雑音環境下では,提案手法の認識精度が83.0%であることを確認した. 雑音環境下の場合,足音と慣性データを組み合わせた標準手法と,信号対雑音比(SNR)により足音認識結果の信頼性を変更する改善手法を比較した. 評価実験の結果,車の走行音や他人の足音が混入した場合では,改善手法を用いてすべてのSNR環境下の認識精度の改善を確認した.
A Method for Recognizing Road Surface Condition based on Footsteps and Inertial Data
Abstract: In areas where the road surface conditions change significantly with the seasons and weather, bad road surface conditions cause dangerous such as falls. If the road surface condition can be determined in advance, danger can be averted by selecting safe routes and suitable shoes. In this study, we focus on the footsteps and inertial data that change depending on road surface conditions, such as dry pavement, puddle, soil, and mud, and propose a method for recognizing road surface conditions using footsteps and inertial data. We implemented the prototype device and evaluated the proposed method on six road surface conditions with eight participants. The evaluation results confirmed that the recognition accuracy was 83.0% in a low-noise environment. When there was noise, we compared the standard method, which combines footsteps and inertial data, and the revised method, which changes the confidence of the result of footstep recognition by the signal-noise ratio (SNR). The evaluation results confirmed that when the driving sounds of cars or the footstep of the other person were mixed, the recognition accuracy was improved in all SNR environments using the revised method.