グーグルなど便利な情報検索システムが普及していますが、私の研究テーマは、そうしたサーチエンジンをはじめとする情報検索システムを高度化するための理論と技術に関するもの。統計的な手法を使って、検索性能の向上を目指す研究を行っています。また、検索実験の方法論や、大量の文書を自動的に仕分けるクラスタリングの技術も研究しています。

ある程度成果が見えてきたのが、言語横断検索システムの研究です。言語横断検索システムとは、日本語で質問すると英語のデータベースを検索して結果を表示するといった、異なる言語間での検索システムです。自動翻訳ではまだ満足できる結果が得られないため、統計学的な処理を工夫し、求める答えが上位に来るシステムを考えました。いくつかの手法を考案し、性能の検証はほぼ終えています。

現在力を入れているのが、文書クラスタリングの研究です。無秩序な大量の文書を、似たもの同士組み合わせて自動分類する手法が文書クラスタリングです。たとえば、通信社の1ヵ月間のニュースがクルマの記事、スポーツの記事などと自動的に分類され、名前がつけられると、利用しやすくなります。

分類するには、1つ1つ文書を確認するだけでなく、似ているかどうかをペアで確認する作業が必要です。そのため文書の数が多いと計算処理の量が膨大になり、途中で動かなくなるという問題があります。かなり以前から研究されているテーマですが、私は、その流れを踏まえながら、新しい視点で提案ができないかと研究に取り組んでいます。

文書クラスタリングは、検索性能の向上や検索支援にも役立ちます。クラスタリング検索エンジンが最近登場しましたが、何百件もの検索結果を自動的に仕分けしてラベル付けしてくれます。たとえば、こうした分野での応用が期待されています。

世界中の研究者とテーマを共有して

この研究は、成果が現実的に役立つのでやりがいがあります。私はプログラムを組むことが好きで、実験により結果が白黒明確に出るのも良いところ。自然科学と同様に、これまでの研究成果や知識を積み重ねて着実に進めるのも気に入っています。また、ワークショップ形式で研究することも多く、世界中の研究者とテーマを共有して、問題を解きあっています。このスタイルも楽しいですね。

コンピュータで実験を繰り返して、
検索性能の評価を行う。