南山の先生

学部別インデックス

理工学部・データサイエンス学科

塩濱 敬之

職名 教授
専攻分野 統計科学
担当の授業科目 ビッグデータ概論, ビッグデータのための統計学

データの「かたち」とその統計解析

人工知能(AI)やモノのインターネット(IoT)の発展によって私たちの生活や仕事を含めた社会のあり方が大きく変わろうとしてきています。人工知能技術の中核を担う技術はデータサイエンスで, ビッグデータを利用した統計解析や最適化技術がAIを構成する様々な要素技術に取り入れられています。

データサイエンスのなかでも最近注目されている新しい取り組みとして, データのもつ形に注目した統計解析の方法があります。そのなかでも幾何的な構造をもつ空間に値をとる統計解析と位相的データ解析(TDA)について紹介したいと思います。

幾何的な構造をもった空間とは, 私たちの身近に存在する, 円周や球, トーラスやシリンダーといった幾何多様体のことを指します。幾何多様体上のデータ解析において中心的な役割を果たすのは角度を表す確率変数の扱いにあります。角度データのもつ周期性をどのように統計解析に利用すればよいのでしょうか?平均や分散, 標準偏差, 相関係数のような要約統計量の計算は, 幾何的な構造をもったデータに対しては適用できないことがわかると思います。

およそ私たち人類は, はるか昔から月や太陽, 星の角度を計測しながら, 季節や時間、位置を管理してきました。データサイエンスの始めての取り組みとして紹介されるケプラー(ヨハネス・ケプラー1571-1630)の火星軌道の解析も太陽・地球・火星のなす角度の計測と分析に基づいて行われました。このように角度データの分析の歴史は古くからあり, 20世紀になってから球面上や円周上の確率分布の構築やその統計解析の方法が確立されてきました。初期のデータ解析例は、生態学や環境学といった自然科学分野に限定されていたのですが、データサイエンスの発展に伴い、今では、機械学習・パターン認識、ゲノム解析を含めた生物学、画像処理や認識、自然言語処理、トラッキングデータを使った位置情報の解析といった様々な分野で多様体上のデータ解析が必要とされています。

位相幾何学においてホモロジーというものの形の概念があります。この概念をデータが値を取る空間に応用した統計手法が位相的データ解析になります。データの点群がなす形の特徴がホモロジーの生成と消失を通して現れることに着目した統計手法で, これまでの統計解析手法では予測や識別が難しいとされていたようなデータに対して有効であることが知られています。位相的データ解析や幾何多様体上のデータ解析では, これまでの統計科学では扱うことができなかった多くの課題を解決することができる可能性があります。その応用として人工知能や機械学習, その技術を利用するあらゆる情報技術に利用することができるのです。