ネットワークユーザの属性を推定する手法を開発～ネットワークビッグデータ分析のための革新的高精度ラベル推定～（2016.05） – COTRE（コトリ）

2016/05/20

研究成果のポイント

1. 従来は同じラベルを持つノードが繋がりやすいネットワークデータを主に対象としていましたが、本技術では異なるラベルを持つノード同士が繋がりやすいネットワークデータも同様に扱うことができます。

2．ラベル推定処理において信頼度の概念を導入することで、従来より高精度のラベル推定を可能とします。

研究の概要

筑波大学計算科学研究センター　北川博之教授らの研究グループは、ソーシャルネットワーク（SNS）などのネットワークビッグデータ分析において、ノード（ユーザ）が持つ既知のラベル（年齢・居住地・性別など）から未知のラベルを推定する新技術を開発しました。

実社会ビッグデータ利活用において、多くの有益な情報が埋もれているソーシャルネットワーク（SNS）の活用の重要性が増加しています。ソーシャルネットワークでは、各ノードが対応するユーザの年齢・居住地・性別など属性をラベルとして付与することができます。これらのラベル情報は記載された内容を意味解釈する上で重要な補足情報となります。しかし、ソーシャルネットワークにおいては、それらが明示的には示されていないノード（ユーザ）が多数存在します。ネットワークデータ中の既知のラベルから未知のノードラベルを推定する問題は、ラベル推定と呼ばれ、これまでも様々な手法が開発されてきました。本研究成果は、従来よりもラベル推定を高精度で実現するための革新的な技術です。

本研究は、理化学研究所にて実施しているAIP（人工知能／ビッグデータ／IoT／サイバーセキュリティ統合プロジェクト）の一環として実施されました。成果は、2016年5月5-7日に米国マイアミで開催された2016 SIAM International Conference on Data Miningにて発表されました。

図　ネットワークビッグデータにおけるラベル推定：　①背景と目的：ソーシャルネットワーク、引用ネットワーク等、様々なネットワークビッグデータは、しばしばラベルが未知のノードを含みます。ラベル推定とは、既知のノードラベルから未知のノードラベルを推定する技術です。②提案手法：提案手法の基本アイデアは「割合」に加えて「絶対数」も考慮した信頼度に比例した量の手掛かりを周辺に伝搬して未知ラベル推定することです。③従来手法との違い：（１）隣接ノードからの手がかりの量（信頼度）を考慮することができ、（２）異なるラベルを持つノード同士が繋がりやすいネットワークデータも扱うことができます。④実験評価：実験結果では、提案手法は主要な従来手法より高い精度を示しています。

発表論文

Yuto Yamaguchi, Christos Faloutsos, and Hiroyuki Kitagawa, “CAMLP: Confidence-Aware Modulated Label Propagation”, 2016 SIAM International Conference on Data Mining, May 5-7, 2016.

問合せ先

北川　博之（きたがわ　ひろゆき）

筑波大学計算科学研究センター　教授