Home JGS 「JGS研究2019」プロジェクト論文_ xRealityを用いた大規模会議における話者特定システムの提案

「JGS研究2019」プロジェクト論文_ xRealityを用いた大規模会議における話者特定システムの提案

by iida

チーム名
xReality技術のビジネス活用を探る(IP-020)

チームメンバー

(株)アイ・ティー・ワン 尾又 諒(リーダー)
第一生命情報システム(株) 市瀬 高大(サブリーダー)
東京海上日動システムズ(株) 八嶋 美里

チームアドバイザー

日本アイ・ビー・エム システムズ・エンジニアリング(株)  井手田 信

JGS(日本GUIDE/SHARE)はIBMユーザー研究会の活動です

・・・・・・

論文概要

近年xReality技術に注目が集まっており、これらの技術を身近に感じる時代になった。しかし仕事での活用という観点では専門的な業務に特化した仕組みが多く、一般の企業にとって身近な活用事例は少ない。

そこで本研究では、汎用的なビジネス活用例として社内で実施する「会議」にスコープを当て、シンプルな要素技術の組み合わせにより、大規模会議における話者の特定と発話内容の記録の仕組みを検証し、xReality技術を活用した大規模会議支援システムの実現性を考察する。

はじめに

2016年はVR/AR元年と呼ばれ、さまざまなデバイスの出現とそれらを用いたアプリケーションへの関心が高まっている。

xRealityとはVR(Virtual Reality)、AR(Augmented Reality)、MR(Mixed Reality) 、SR(Substitutional Reality)といった技術を総称した呼び方である。

xReality技術はエンターテインメント分野に活用される事例が多いが、製造業・医療・物流・小売・教育・観光といったあらゆる分野でも試行されている。しかし、現在の事例の多くは専門的な業務に特化した仕組みが多く、一般の企業にとって身近な活用事例は少ない。

またxReality技術は、使用するデバイスに大きく依存する。たとえばホロレンズに代表されるMRデバイスを使えば、これまでにないユーザーエクスペリエンスが提供され、アイデア次第で高度な業務活用も考えられるが、高価なデバイスに依存したシステムでは広く普及させることはできない。

本検討チームでは安価なデバイスを使って、一般的な業務でのxReality技術活用に焦点を絞って検討した。その結果、特殊な業務ではない会議を支援するシステムに活用することで、あらゆる企業にメリットのある提案ができると考えた。

会議システムに必要な機能を検討し、会議運用の高度化のためのアーキテクチャを定義した。実運用を考慮すると、大規模会議における話者の特定と発話内容の記録機能が必須であると考え、検証を行った。

検証の結果、基礎的な技術要件は満たしており、提案する会議支援システムは実現可能であると考える。

xReality技術の会議への適用検討

xReality技術の定義は本来、視覚に限定したものではないが、活用事例の多くは視覚を拡張し、リッチなユーザーエクスペリエンスを提供するものである。

しかし、現実に会議を運用する場合、ヘッドセットを装着して長時間の会議を行うことは利用者への負担が大きくなる。共有する会議資料にリアルタイムにアノテーションを行うなど、視覚の拡張はインパクトも強く共感も得られるが、高価なヘッドセットを利用する場合、費用対効果も重要である。

面白く感じる機能が必ずしも実用的とは限らない。そこでデバイスの機能を中心にデザインしたシステムではなく、複数の要素技術とシンプルで安価なデバイスを組み合わせ、実用的かつ低コストな会議支援システムを提案する。また、これらの技術の組み合わせにより可能となる将来の会議システム像について示す。

xReality技術を活用した会議支援システムの提案

会議進行に共通する作業は人に依存するところが多く、正確性と迅速性に欠けている。そこでxReality技術を活用することで、それらの多くを自動化することを目指す。

また、会議資料や議事録などをタイムリーに参照できる仕組みを構築することで円滑な議論が可能になる。

本提案では出席者を360度カメラにより認識し、社員情報または事前登録の出席者情報とマッチングし、出席者の所属、氏名、過去発言内容をリアルタイムに手元のPCタブレットに、もしくはヘッドセットに表示する。

会議中の発言は音声のテキスト化により記録し、議事録の要約を作成する。最新の機械学習技術を活用することで、 顔認識技術によって出席者を判断し、声の特徴から発話者を特定することが可能である。

しかし、これらの技術は個人を特定するために事前のトレーニングが必要となる。とくに大規模な会議になると事前にトレーニングすべき対象人数も多くなり、社外の出席予定者がいる場合は実際には運用できなくなる可能性がある。

音声に関しては、市販のスマートスピーカーで音声を識別できるのは5~6人程度のため、こちらも大規模会議の場合では対応が困難となる。

そこで当研究チームではあえて最先端の顔認識や音声認識に頼らず、シンプルな仕組みを使って実現する方法を提案する。本提案は、会議参加者を認識し、話者の音声をテキスト化することで議論内容を正確に記録し、会議関連情報を蓄積し、その情報を活用した複数の機能により円滑な議論を行うことを目的とする。

提案する会議支援システムの機能は、以下のとおりである。
 
1 出席者情報管理
2 出欠確認
3 議事内容記録
4 議事進行支援
5 発言統計

以下に、会議支援システムのレイヤー別構成要素を示す(図表1)。

図表1 アーキテクチャ図

提案する会議支援システムは、ARマーカーによる出席者識別機能、口の動きの検出による発話者特定機能、発話音声をもとにした発話内容記録機能を中核とする。

xReality技術を活用した会議支援システムの要素技術

提案する会議支援システムのうち、中核となる機能の実現方法および使用した要素技術を以下に示す。

1  出席者識別機能

ARマーカーを使用して出席者を識別する。 ARマーカーはQualcomm社が公開しているAR開発をサポートするライブラリであるVuforiaを使用することで容易に作成可能である。

2  発話者特定機能

画像認識で上唇と下唇の座標を検出し、口の動きを認識することで発話者を特定する。オープンソースの画像認識ライブラリであるOpenCVが提供する顔のランドマーク認識機能を使用することで、無償での実装が可能である。

3  発話内容記録機能

スマートスピーカーを用いて発話内容を記録する。今回はスマートスピーカーとして、本チームのメンバーが所有するAlexaを使用して、発話内容をWebページに書き出すカスタムスキルを作成した。

Alexaに「会議メモを開いて」と話しかけるとスキルが呼び出され、「〇〇を追加して」と話すとAWS上に作ったDBに内容と時間が保存され、指定のWebページからDBの内容を確認できる。

スマートスピーカーで発話内容を記録する際には発言した時刻も併せて記録されるため、上述の発話者の特定機能で口の動きを認識した時刻と突き合わせることにより、発話者と発話内容を紐づけることが可能である。

会議支援システムの実現可能性の検証

提案した会議支援システムの各要素機能について、検証方法と検証結果を以下に示す。アプリケーションの開発環境は、Unity(2018.3.2f1 64-bit)である。提案した会議支援システムの入り口となる要素技術が実用レベルで実装可能かを検証した。

1  出席者識別機能の検証結果

Vuforiaを用いて作成したARマーカーを認識するアプリケーションを作成し、ノートPCに標準搭載のカメラで認識した。

VuforiaのARマーカーとしての強度を向上させるために、氏名と図柄をセットにしたAR マーカーを作成して机上に配置することで、名札の位置に座っている人物の氏名を判断できることを確認した。

2  発話者特定機能の検証結果

OpenCVを用いて認識した口の動きをグラフとして出力した結果を図表2に示す。

図表2 発話者特定機能の検証結果

図の縦軸は口の動き(上唇の座標と下唇の座標の差)を、横軸は時間を表している。最初に何も意識せず15文字程度の文章を読み上げた際には、OpenCVで認識できなかった。

次に、最初の1文字目だけ口を大きく開けて読み上げたところ、口を大きく開けた1文字目は認識できた。通常の口の開きでは認識できないが、意識的に口を大きく開けた場合は認識できることがわかった。

3 発話内容記録機能の検証結果

Alexaスキルを用いて音声を認識し、Webページにどの程度正確に出力できたかを図表3に示す。

図表3 聴き取り精度の検証結果

Alexaに各文字数10回ずつ話しかけ、話した内容の認識率、Webページに表示される文章の正確性を算出した。図表3のとおり、40文字を超えると文字数が増えるにつれ、認識率が低下している。40文字以下であれば、認識率・正確性ともに高い数値を記録した。

次に、話した時間とDBに保存される時間を測定し、話し終わりからDB保存時間までのタイムラグを計測した結果を図表4に示す。

図表4 発話のタイムラグ

話し終わりからDB保存までの平均タイムラグは、2秒であることがわかった。

最後に、同時発話に関して検証したが、 Alexaが複数人の同時発話の内容を認識することはできなかった。

4 発話者特定機能と内容記録機能の統合結果

OpenCVの検知タイミング(図表2)と話し始め、Web画面表示タイミングを突き合わせた結果を図表5に示す。

図表5 OpenCV・Alexa同時検証結果

タイムラグを考慮すると、話し始め、口唇開け検知タイミング、Web画面表示時間が一致しているので、発話時刻とスマートスピーカーで収集した発話内容を対応づけることは可能である。

ここまでの検証結果から会議支援システムの基本である、ARマーカーによる出席者識別機能、口の動きの検出による発話者特定機能、発話音声をもとにした発話内容記録機能の基礎検証が完了した。

考察

今回は提案する会議支援システムの一部分のみの検証ではあるが、名札をARマーカーとすることで会議参加者を単純な仕組みで柔軟に認識し、音声を発話者と紐づけたテキスト化が可能であると検証できた。

会議で取り扱う最も基本的な入力情報をシンプルな仕組みで処理できることが確認できた。一方、検証結果から大規模な会議支援システムにおける以下の課題を検討する必要があると考える。

1  名札認識の精度

名札をマーカーとして利用することは出席者の名前と直結するため理解しやすいが、Vuforiaのイメージマーカーとして作成する場合、漢字の名前だけでは認識精度が低く、使えないケースが存在した。

今回作成した名札マーカーは、認識精度を向上させるために名前以外に記号などの模様も一緒にマーカーとすることで認識精度を向上させた。

人数が多い場合は認識精度を意識したマーカーの作成ガイドラインも整備する必要がある。またマーカー認識精度、認識可能数の上限などはカメラの性能と合わせて別途検証が必要である。

2  OpenCVの検知精度

今回の検証は、通常の口の動きは検知できなかった。同様にOpenCVを使用した場合でも、実装方法によっては通常程度の口の動きでも読み取り可能であり、発話内容を文字列として起こしている実例がある。

OpenCV以外にもDlibなどの有償ライブラリを使用することで、今回の検証よりも認識精度を向上させることも可能と考える。

またカメラの解像度を上げることで、より正確に座標位置を認識できるので、カメラ自体の性能を上げることも解決につながると考える。

3  同時発話

スマートスピーカーは複数人が同時に話した場合、および雑音が入った場合に正しく発言の内容を認識できない。指向性マイクを利用する方法や、複数のマイクロホンを用いて雑音抑圧を行うマイクロホンアレイ技術を使用する方法が解決策として考えられるが、同時発話は人間が理解するうえでも課題となり得る。あらためて発言を求めるなど、現場での運用を前提とする。

4  タイムラグ

話者特定の仕組みとしてOpenCVによる口の動きの検出に着目したが、OpenCVが口を開いたと認識できるまでのタイムラグと、スマートスピーカーが音声を認識してAWS上のDBに保存されるまでのタイムラグを把握できなければ、話者と発話内容を紐付けできない。

また今回検証で使用したスマートスピーカーは、1文を話し終わるまで処理を実行できない。そのため、話し始めから話し終わりまでの時間を明確に検知できず、話している時間もタイムラグに含まれてしまう。

今回の検証では使用しなかったが、WatsonのSpeech to Textを使用すれば、テキスト化のタイミングを調整できる。形態素解析により単語レベルでの識別が行われた時間を細かく確認することもできるので、話し始めの時刻を算出することが可能となる。

5  音声認識の精度

音声認識にAlexaを使用したが、聴き取り精度面では30文字を越えると精度が低下する結果となった。実際の会議ではより長い発言が多用されると考えられるため、精度向上が必須である。

スマートスピーカー自体の聞き取り機能の性能向上や、OpenCVでの口の動きから発話内容を検出する仕組みを併用するなど、精度を向上させる仕組みは検討の余地がある。

6  周辺機能の実現

提案する会議システムの全体像は、会議に関連する幅広い、かつ多数の機能で実現する。とくに発話統計機能は発話時間、発話回数、発言内容のネガポジ判定などを実装することで発言過多、あるいは発言過少な参加者を可視化できる。

発言内容について直接本人に指摘しづらいケースでも、システムによる客観的評価としてフィードバックできるようになり、会議進捗を円滑に進めることが可能となる。

議事録の要約作成機能は非常に有用であるが、現時点ではディープラーニングによる生成モデルを使っても実用レベルの品質とすることは難しい。

そのため、この機能は人が介在してアノテーションするインターフェースを用意することで実現するのが現実的と考える。

今回の検証結果から判明した課題の解決と合わせて、周辺機能を実装し、実運用可能な会議支援システムの構築へ向けて継続して取り組んでいきたいと考えている。

研究活動を終えて

当初、xRealityというテーマは業務とはまったくかかわりのない未知の分野だった。チームメンバー全員がxReality技術に関して素人だったため、まずxReality技術を知ることから始まった。

先行研究や活用事例を調査するなかで、どのような会社でも行われる「会議」にxReality技術を活用する案が挙げられ、研究内容もそれに準ずるものに落ち着いた。

VRやARと聞くと高価なデバイスや専門知識が必要な分野だと想像していたが、今は安価なデバイスでもアイデア次第でさまざまことが実現できる面白い分野だと実感している。

xReality技術の進歩によって、小説・映画のなかでの空想でしかなかったものを身近に感じられる世界が近づている。すでにヘッドセットではなく網膜投影のデバイスも商品化されており、フィードバックデバイスの出現により、現実と仮想の世界の境界は曖昧になっていくと思われる。

今回提案した会議支援システムも、ストレスフリーなデバイスを活用することで、さらに高度な機能と性能を実現できるようになると考える。xReality技術がさまざまなビジネス課題の解決・業務の効率化に寄与し、より一層活用されるであろう「これから」に今後も期待する。


(株)アイ・ティー・ワン
尾又 諒(リーダー)

related posts