南山の先生

学部別インデックス

理工学部・データサイエンス学科

小市 俊悟

職名 准教授
専攻分野 「数理最適化」「機械学習」「オペレーションズ・リサーチ」
主要著書・論文 Exploring machine learning tools for the prediction of the stability of new Togni-type reagents. CHIMIA, 73/12 (2019), pp. 990 - 996(共著)
The Buneman index via polyhedral split decomposition. Advances in Applied Mathematics, 60 (2014), pp. 1 - 24(単著)
将来的研究分野 最適化手法と機械学習およびそれらの実践的応用
担当の授業科目 幾何学概論、数理技術プログラミング

データサイエンスとその魅力

現代社会では、情報機器の発達により身の回りにあふれるようになったデータを、適切に、そして、有効に活用していくことが求められています。データサイエンスとは、そのような社会の要請にも応えるべく、どのようなデータを集めるべきか、ということから始まり、データをどのようにして処理し、有意義な結論を導くかを研究する学問分野です。

データサイエンスの魅力の一つは、データがあるところ、どこでも活躍できるということです。広く使用されるようになったスマートフォンには、データサイエンスの知見が組み込まれていますので、身の回りでもすでに活躍しています。一般に、データは、そのままでは「情報」になりません。つまり、データはあるけれど、数字が並んでいるだけで、どのような意味を持っているのかわからない、ましてや、どのように活用したら良いのかわからない、というような状況が現代社会では生じています。このようなときに必要となる、データを「情報」に変換してくれる術(すべ)を与えてくれるのがデータサイエンスです。データサイエンスの技法は、データに隠された法則を明らかにし、さらには、望む状況にするには、どのようにすべきかを教えてくれます。

データサイエンスを化学の問題に適用したケースを紹介しましょう。化学、特に創薬では、特定の化学分子(化合物)を作りたいという状況が多々あります。このようなとき、ある分子を元にして、試薬と呼ばれる別の分子を次々に反応させることで、所望の分子をまるで組み立てていくかのようなことが行われます。このような反応においては、特定のパーツ(官能基)を元の分子に取り付けるはたらきをする試薬が重要となります。目では見えないようなところで、特定のパーツを分子の思い通りのところに付けてくれる試薬が必要なのです。そのため、有用な試薬を新たに考案・発見すること自体も重要な研究となります。しかし、幾多ある分子の中から、試薬となる分子を見つけ出すことは容易ではなく、一つ一つ合成して試すことを繰り返すことは非効率的であります。このような場合に助けになると考えられるのは、コンピュータによる量子化学計算と、それによって得られるデータに基づく選抜です。

各分子が持つ特性量を知るには、その分子を実際に合成して実験・計測することが以前は必要でしたが、今日では、量子化学計算と呼ばれるコンピュータによる計算によって、様々な特性量をそれなりに精度よく求められるようになりました。つまり、失敗も多く、手間のかかる合成を省いて、コンピュータによる計算だけで、その性質に関わるデータを得られるようになったのです。データが得られるのであれば、データサイエンスが活用できます。単純な発想では、現在試薬として実際に使用されている分子の特性量と、試薬の候補と考えられる分子の特性量とを比較し、似たようなデータであれば、その候補分子は試薬としてかなり有力と言えるでしょう。実際には、どのような特性量に着目すべきかなどもわかっておらず、それを明らかにするところからデータの分析は始まります。候補分子は幾多あるためデータは膨大です。その中から有力な候補を、コンピュータを用いて絞ることができるだけでも、スピードが求められる創薬の世界において、効率性を高めることにつながると考えられます。

得られるデータは、これからもっと多種多様化していくことでしょう。したがって、これまでには知られていない方法を考え出し、データを処理・分析することも必要となるでしょう。そのような方法を考えること、また、考えた方法でデータを実際に分析することがデータサイエンスにおける研究となります。データにあわせて発展し、そして活躍の場が広がり続けることがデータサイエンスの魅力です。