南山の先生

学部別インデックス

理工学部・データサイエンス学科

河野　浩之

職名	教授
専攻分野	情報システム
主要著書・論文	「情報検索とエージェント」（共著、東京電機大学出版局、２００２）「情報の構造化と検索」（共著、岩波書店、２０００）「ポイント図解式インターネットRFC事典」（共著、アスキー、１９９８）
将来的研究分野	データベース応用、データマイニング、P２Pネットワーク、交通情報システム
担当の授業科目	「データベース」、「通信理論」、「データベース研究」、「情報科指導法B」

2020年代は、ゼタバイトからヨタバイト時代へ

スマートフォン、デジタルカメラ、テレビ、BDレコーダーなどの多くの家電製品は、デジタル化技術に支えられています。そして、これらの製品の利用には、膨大なデジタルデータの処理技術が必要となります。では、世界にどのくらいの量のデジタルデータがあるのでしょうか？スマートフォンやテレビやゲーム機によって、インターネット上でやりとりされるデータ量は、2016年に1ZB（ゼタバイト）を超しました。また、年々60%の割合でデジタルデータが増加し、2020年のデジタルデータ量は約44ZBに達したと言われています。というわけで、2020年代はZBからYB（ヨタバイト）を目指す時代となったのですが、皆さんにとって馴染みの薄いであろうYBという単位について少し説明します。まず、1YBは1000ZBで、およそ10の24乗文字分に相当します。ちなみに、シェークスピアによる全著書の文字数は約5MBあり、その約20京倍の情報量が1YBとなります。画像データや映像データで考えると、HD録画したビデオを360億年間視聴するデータ量が1YBとなるそうです（※）。

ずいぶん大きな単位の話となりましたが、情報化社会において、膨大な量のビッグデータを効率よく正確かつ安全に処理するデータサイエンスにおいて、高速データ伝送を実現する通信ネットワークや、大量データから高速検索するデータベースなど技術の重要性が高くなることは間違いないでしょう。事実、皆さんにとって身近な「検索エンジン」（search engine）は、ウェブサーバからデータを「収集」し、データベースに「蓄積」し、利用者の問合せに対する「検索」結果を表示する機能を備えており、その実現に通信ネットワーク技術やデータベース技術が高度に活用されています。

【収集】ウェブロボット（web robot）と呼ばれるプログラムが、世界中のウェブサーバからウェブページを収集しています。世界中のウェブサーバにある大量のデータを収集するには、通信ネットワークの容量や速度に応じて数多くのシステムを最適に動かす技術が必要になります。

【蓄積】ウェブページからタイトルや本文などを抽出し、効率良く検索するためにデータ蓄積の技術が必要になります。例えば、ウェブページに含まれる数百万語以上の異なる単語を検索するためには、ウェブページのURLと単語の出現位置を登場回数に応じて索引付ける技術が必要になります。

【検索】検索エンジンを利用する時、数語（2～3語）程度のキーワードを組み合わせて検索することも多いでしょう。少ない単語で、非常に膨大な量のウェブページから目的となる情報を探すには、優れた検索技術が必要です。そこで、検索結果の表示順を決めるために、ウェブページ中の重要単語の登場回数や出現位置、ページ更新日時や頻度、ハイパーリンクのグラフ構造を用いたりします。より「快適な」検索を実現するために、入力された検索キーワードの統計処理や、検索結果のページへのアクセス状況なども利用します。また、大規模言語モデル（Large Language Models、LLM）を用いて生成される文書なども表示されるようになっています。

ところで、ちょっとした注意です。検索エンジンやSNSなどの情報システムでは、利用者ごとに様々な履歴データが簡単に集計できます。つまり、情報システムを利用すればするほど、あなたの関心がありそうな「お薦め！」の検索結果が「快適に」提供されるでしょう。すなわち、「快適な」システム利用のために、あなたの関心という「プライバシー」を支払っていることになります。このように「快適さ」と「プライバシー」は密接に結びついています！ですから、例えば、「プライバシー」が非常に重視されていて、守秘義務と切り離せない「医師、薬剤師、医薬品販売業者等」と関わりの深いデータベースでは、検索の「快適さ」を求めることが難しい問題にもなります。（正確には、データマイニングやレコメンデーションという技術に関わります。加えて、GDPR（General Data Protection Regulation）や人工知能（AI）利用規制案なども関係します。）

最後に、授業との関係です。サーエンジンで検索すると、「データベース」に蓄積されたビッグデータから推薦結果を、HTTP（Hypertext Transmission Protocol）という「通信プロトコル」を利用してブラウザーに表示しています。例えば、推薦順序を決めるために、「確率モデル」で扱うマルコフ連鎖を用いて解析しています。ということで、色々な講義内容が様々に関係することを考えながら授業を受けてみませんか？

※1バイト（byte）が半角英数字1文字に相当し、1KB（キロバイト）が約1000文字（正確には、2の10乗＝1024）、さらに 1000倍ごとに単位が変わって、MB（メガバイト）、GB（ギガバイト）、TB（テラバイト）、 PB（ぺタバイト）、EB（エクサバイト）、ZB(ゼタバイト)、YB（ヨタバイト）、RB（ロナバイト）、QB（クエタバイト）となります。つまり、1YBは10の24乗文字分です。ようやく、大きな数字として有名なアボガドロ定数（6.02214179×10の23乗）に近づいてきたというところです。そう考えると、ZBという単位でも、膨大というには程遠い気がしませんか？

理工学部・データサイエンス学科

河野 浩之

河野　浩之