音響認識の国際コンペティションにて認識精度で第1位のスコアを獲得
日立製作所は、周囲の雑音に影響されず音に基づいて高精度に状況を認識することができるAI技術を開発しました。
本技術では、周囲環境から発生するさまざまな音(以下、環境音)や周囲の物体や人から跳ね返ってくる音(以下、反響音)などの雑音が含まれる音を、音源の方向や音色の違いなどの複数の観点に基づいて分解し、分解された音をもとに状況認識を行います。
これにより、設備の稼働状態や人の活動状態を高精度に認識することができます。今後、さらなる機能向上などを図り、熟練者の経験に頼らず、工場内などさまざまな設備に囲まれた環境に適用が可能な、音に基づく自動設備診断の実用化をめざします。
スマートファクトリーの実現に向けて、工場内のIoT化が進んでおり、設備の保守点検についてもセンサーなどが利用され始めています。
一方、センサーを使わない音を利用した設備点検においては、従来、熟練者が音を聴いて経験に基づき設備の稼働状態を診断する方法が一般的でしたが、熟練者不足などにより、自動診断サービスのニーズが高まっています。
しかし、工場内など、さまざまな設備に囲まれた環境では、環境音や反響音など多様な種類の雑音が混在しているため、音に基づく正確な状況認識が難しく、設備の稼働状態を高精度に把握することが困難でした。
そこで日立は、さまざまな観点で音を分解することで、高精度に状況を認識することができるAI技術を開発しました。本技術では、まず、複数のマイクロホンで音を録音し、マイクロホン間での音が到達する時間差から推定される音源の方向や、音色の違いから推測される反響音かどうかなどの複数の観点に基づいて、雑音が混ざった音を分解します。
さらに、複数のディープニューラルネットワーク(DNN)(*1)に分解した音をそれぞれ入力し、設備や人などが置かれている状況と一致する可能性(確率)をそれぞれ計算します。最後にその計算結果の多数決により、総合的な状況認識結果を出力します。
それぞれのDNNが受け持っている一つの観点だけに頼ると雑音に影響されやすいという問題がありますが、複数のDNNの多数決による結果を確認することで雑音に影響されにくくなります。これにより、多様な種類の雑音が存在する環境でも高精度な状況認識が可能になります。
今回、日立は、IEEE AASP TC(*2)が公認する、音響認識分野で最大の国際コンペティションDCASE(*3) 2018 ChallengeのTask 5(*4)において第1位のスコア(*5)を獲得し、本技術の効果を確認しました。
本技術は、音に基づいて設備の状態を自動診断するサービスや人の活動状態を自動認識する見守りサービスなどへの応用が期待されます。今後、日立は、機能向上などの開発を進め、本技術の実用化をめざします。
なお、本成果は、2018年11月6日~8日に東京電機大学で開催される「電子情報通信学会 第33回 信号処理シンポジウム」にて発表予定です。
▼さまざまな観点での音の分解と複数のDNNを用いた総合判断による状況認識のプロセス
(*1)ディープニューラルネットワーク(DNN): 脳の神経回路を模擬した素子(ニューロン)のネットワーク(ニューラルネットワーク)を多層(ディープ)構造にしたもの
(*2)IEEE AASP TC: IEEE Audio and Acoustic Signal Processing Technical Committee
(*3)DCASE: Detection and Classification of Acoustic Scenes and Events。DCASE 2018 Challengeは2018年4 月~7月に開催
(*4)Task 5: 家に設置した複数のマイクロホンを用いて収録された音のデータから、「料理中」「食事中」「仕事中」「会話中」「テレビ視聴中」などの9カテゴリの日常活動のいずれの状況かを認識するタスク。参加チームは12チーム、34システム
(*5)公式評価値であるF1-score on Eval. set (Unknown mic.) =学習時と異なるマイク位置での識別精度のスコア