リサーチユニット総覧(Research Unit Magazine)

ビッグデータに潜在している有益な情報を探し出す
データ工学・知識発見リサーチユニットTo Search for Valuable Information in Big Data

代表者:北川 博之    中核研究者:佐久間 淳  天笠 俊之  
他のメンバー:川島 英之  早瀬 康裕  森嶋 厚行  石川 佳治  福井 和広  

Christos Faloutsos Jeffrey Xu Yu

キーワード:データ工学、知識発見、データベース、データマイニング、ビッグデータ

http://kde.cs.tsukuba.ac.jp/

 モバイル・ユビキタスコンピューティングをはじめとする社会情報基盤の高度化や、多様な情報ビジネス・情報応用の展開に伴い、人類がこれまで体験したことのない超大規模なデータを扱うビッグデータ時代が到来しています。地球規模でビッグデータがリアルタイムで飛び交う中で、必要なデータをいかに入手し有効な情報として活用するかが重要となっています。北川博之教授が代表のリサーチユニット「データ工学・知識発見」では、ビッグデータを適切に管理し、その中に潜在する有益な情報を活用するための技術に主眼を置いて、研究活動に取り組んでいます(図1)。

 

ビッグデータの利用が可能になった現代だからこそ

 膨大なデータを管理するための技術としてデータベースがあります.データベースが最初に登場した時代は、コンピュータに蓄積可能なデータ容量も小さく、 格納コストもはるかに高かったため、業務処理に必要なデータだけを厳選し形を整えて処理していました。現在は、蓄積できるデータ容量はほぼ無制限で格納コストも安く、また誰でもがインターネットで新たな情報を発信できます。その結果、多様性・流動性が極めて高くノイズを多く含むデータが大量にインターネット上にビッグデータとして存在し、真に有用な情報を見つけるのが極めて難しくなっています。したがって、いかにビッグデータから潜在的な価値をもつ情報を探し出すかという課題が非常に重要になっています。
 ビッグデータの利活用のためには、データの生成からアプリケーション・利用者による利活用に渡るデータのライフサイクル全体をカバーする広範な技術が必要となります。本リサーチユニットでは、データ工学的なアプローチにより、ビッグデータの管理 や利活用に関わる様々な技術の研究開発を推進しています。研究テーマの例としては、近年急増しているセンサー等からのストリームデータの利活用基盤の構築、誤差やノイズを含むようなデータからの異常データの発見、GPUを用いてデータマイニング処理を何十倍も高速化するための手法、Twitterやソーシャルブックマークからの有用情報のマイニング等があります。より具体的には、Twitterを用いて実世界のイベント情報をより正確に把握することを目的に、Tweetの発信者の位置情報を推定する新たな手法を研究開発していますが、これまで知られているどの手法よりも精度面で優れているという実験結果を得ています(図2)。

 

他分野、学外組織との連携で技術を現場に生かす

 本リサーチユニットのコアとなるメンバーは、計算科学研究センターにも所属し、素粒子物理学、気象学、天文学等の他分野の研究者と連携して研究を進めています。その中で得られた研究開発成果の一端としては、XML技術を活用した素粒子シミュレーションデータ検索システム、気象データデータベース(図 3)、X線天文データの類似検索技術、等があります。また、学外の研究機関や民間企業との共同研究や受託研究も積極的に進めています。

kitagawa_zu3

 

社会への貢献・実績

● スマートコミュニティの実現に必要な多様構造情報統合・分析技術に関する企業との共同研究
● 時系列データの分析基盤技術に関する企業との共同研究 
● ストリームデータからの類似データ検出や異常検知に関する企業との共同研究 
● データプライバシ保護技術に関する企業への技術指導  
● 実践的ICT人材育成に関わる産学連携 
● 大規模データ分析分野の人材育成に関わる産学連携 
● ソフトウェア保守支援技術に関する企業との連携 
● データ工学,機械学習分野における国内外の学会活動,学術振興

 (取材:平成25年9月5日)

 

 


To Search for Valuable Information in Big Data

 

Unit representative: Professor Hiroyuki Kitagawa, Faculty of Engineering, Information, and Systems

Unit members: 10 (7 faculty members, no postdoctoral fellows, 3 from other organizations)

Key words: data engineering, knowledge discovery, database, data mining, big data

 

With the sophistication of social information technologies, such as mobile and ubiquitous computing, and the diversification of information-intensive businesses and applications, the era of big data has arrived, in which people are required to handle unprecedented amounts of data. As significant amounts of real-time data are handled at a global level, the acquisition of necessary data and effective information utilization have become increasingly important. The research unit “Data Engineering and Knowledge Discovery”, led by Professor Hiroyuki Kitagawa, is devoted to research focusing on technologies for the advanced management of big data and utilization of valuable information included in big data (Figure 1).

Figure 1: “Data Engineering and Knowledge Discovery” research unit

Figure 1: “Data Engineering and Knowledge Discovery” research unit

 

Modern technology facilitating the utilization of big data

 One of the technologies used to manage significant amounts of data is databases. In the early days of databases, it was necessary to select, organize, and process only data required for business operations because the data storage capacity of computers was small and storage costs were very expensive. Currently, their data storage capacity has virtually no limit, and the storage costs are low. Furthermore, anyone can provide information on the Internet. As a result, significant amounts of fluctuating, diversified and noisy data are present on the Internet as big data, and it is very difficult to identify information that is actually useful.

To utilize big data, a wide range of technologies for the entire life cycle of data, including its creation, application, and use, are required. Based on data engineering approaches, the research unit conducts research on a variety of technologies related to the management and utilization of big data. Our research subjects include infrastructures for the utilization of stream data from sensors, which has become increasingly popular in recent years, identification of outliers in noisy data, algorithms for speeding up data mining processing several dozen times using GPU, and mining of useful information from Twitter and social media. More specifically, to extract information on real life events from Twitter, we are developing new methods to estimate the home locations of Twitter users. According to the experimental results, the accuracy of our method is muchhigher than that of any other previous methods (Figure 2).

Figure 2: Estimating home locations of Twitter users based on landmarks

Figure 2: Estimating home locations of Twitter users based on landmarks

Collaboration with other fields and external research institutions to apply technologies to practical settings

Core members of the research unit also belong to the Center for Computational Sciences. They conduct research in collaboration with other researchers specializing in particle physics, meteorology, astronomy and other fields. The results of the research and development include a particle simulation data search system using XML technology, databases for meteorological data (Figure 3), and technologies for similarity searches of X-ray astronomical data. The research unit also actively collaborates with external research institutions and private companies to conduct joint and commissioned research.

Figure 3: Research and development of GPV/JMA meteorological databases

Figure 3: Research and development of GPV/JMA meteorological databases

 

Social contributions and achievements

● Joint research with a company to develop technologies for the integration and analysis of information with a multilayered structure essential for the development of smart communities
● Joint research with a company to develop basic technologies for the analysis of time-series data
● Joint research with a company for the identification of similar or abnormal data from stream data
● Technical advice on technologies for data privacy protection
● Industry-university cooperation to promote practical ICT human resource development
● Industry-university cooperation to promote human resource development in the field of large-scale data analysis
● Collaboration with a company to develop supporting technologies for software maintenance
● Promotion of academic activities in the fields of data engineering and machine learning in Japan and other countries

 
 (Interviewed on September 5, 2013)