近年、ライフサイエンスの研究においてLLM（大規模言語モデル）活用への期待は年々高まっている。遺伝子発現データの解析に取り組んできた筑波大学医学医療系バイオインフォマティクス研究室もまた、LLMを使った文献データの解析を進めている。AIの性能も加速度的にたかまっていくなかで、これからの研究や実験はどのように変わっていくのか。同研究室准教授の尾崎遼とfuku代表の山田涼太が、LLMがライフサイエンスの研究にもたらす構造的インパクトを問う。

ライフサイエンスにおける研究自動化の重要性

山田涼太（以下、山田）： 尾崎さんと初めてお会いしたのはラボラトリーオートメーション勉強会でしたね。

尾崎遼（以下、尾崎）： 当時山田さんはがんの研究について実験条件や文献情報をテキストマイニングで整理したデータベースをつくっていましたよね。既存の実験や論文の情報を整理することで無駄な実験を減らしたり製薬の研究者が既存研究を発見しやすくしたりできるのではないかと語られていて、とても面白いなと思っていました。根性でひたすら文献を読むのではなくてインフォマティクスで解決すると研究者の行動を変えられるのではないかと仰っていて、個人的にもかなり共感するところがありました。

私はもともとバイオインフォマティクス研究者として実験系研究者との共同研究においてデータ解析を行うなかで、研究の自動化に取り組もうとしていました。たとえばAというソフトウェアで加工した結果を今度はBというソフトウェアで加工するといったように複数のソフトウェアを使うことが一般的だったため、複数のソフトウェアをつなぐデータ解析パイプラインをつくることで遺伝子発現データの解析を自動化していました。

山田：実験のデータをそのパイプラインに通すことで、一気通貫でデータ解析を終わらせられる、と。

尾崎：そうです。データ解析を自動化すればこれまで自分が手を動かしていたプロセスが省略されますし、ほかの研究者の手元のサーバーにインストールして動かしていただければ自分が介在する必要もなくなっていく。実験系の研究者の方々も自分のデータを自分自身でスムーズに解析できるようになるので、「実験系研究者がデータを出してバイオインフォ研究者が解析する」というこれまで当たり前だった研究プロセスがソフトウェアによって大きく変わる可能性を秘めています。

山田：自分の仕事を残して職を守るという考え方もありますが、研究の自動化に取り組んでいる方々は自動化された先でも自分の仕事は残ると考えていることが多いですよね。研究のプロセスが自動化されたとしても、仕事がなくなってしまうわけではない。

尾崎：短期的に見れば自分の存在が必要不可欠な場所はあった方がいいですが、研究プロセスを自動化するソフトウェアをつくれたらいま共同研究に携わっている方々に限らず直接関わりのない人にも使ってもらえる可能性があるから面白いですよね。

とくに自分はいま医学研究にも携わっていますが、医学研究の発展は人々の健康や命に関わるものでもあります。誰かのジョブセキュリティのために研究が遅れるよりは、誰かの仕事がなくなっても研究が進む方がいいと思っています。

入念な要件定義でAI活用ステップを具体化

山田：尾崎さんとはこれまで2回お仕事をご一緒させていただいて、現在進行中のプロジェクトもあります。最初は異なるデータベースの情報を統合するために細胞の種類の表記揺れをテキストマイニングで解決するプロジェクトでした。

尾崎：現在進行中のプロジェクトもデータ解析の研究プロセスを自動化したいという発想から生まれました。これまで私たちは細胞の遺伝子発現データの解析に取り組んでいまして、データを解析するなかで、細胞の機能や表現型を解釈するためにはライフサイエンスの文献データもきちんと分析していく必要があると感じていました。従来は研究者が手作業で一つひとつ文献を見ながら細胞に関する記述を検索していたのですが、LLM（大規模言語モデル）などの発展によって、もっと効率化できるのではないかと考えたわけです。

ChatGPTが登場したときに自分でいくつかデータの統合や抽出を検証してみると、きちんと処理すればLLMを組み込んだシステムも実現できるのではと感じていました。ただ、自分たちだけで行うには限界があったため、山田さんにご依頼しました。

山田：まさに最初はその可能性を検証することから始まりましたね。既存のデータベース上では細胞の名前が自然言語で表記されているので、これまで簡単には統合できませんでした。これはライフサイエンスに関わるさまざまなデータベースが抱えている課題でもあります。単に「◯◯細胞」と書かれているだけならいいのですが「XXXにある◯◯細胞」とか「XXXの遺伝子がノックアウトされた◯◯細胞」など、説明的な表現が加えられていることも少なくない。既存の用語集に当てはめるだけではなくて、LLMも活用しながら幅広く表記揺れに対応する必要がありました。

尾崎：最初のプロジェクトはまだLLMを使っていませんでしたが、それでも7〜8割のデータをカバーできたのは大きかったです。それと山田さんが作成してくださった報告書が本当にわかりやすかったのもうれしかったです。表面的な報告にとどまらず、細かいところまで分析していただきましたし、試行錯誤のプロセスもわかりやすかったですね。

そういった分析の甲斐もあって、1回目から2回目、2回目から今回と着実にプロジェクトが進んでいるように思います。2回目のプロジェクトは文章から細胞の名前を抽出したうえで、その細胞がどんな機能や表現型を示しているのか抽出するものでしたが、そのためには精度評価が必要なので実際に神経科学の研究に携わられている方々に文献アノテーションを行っていただいたうえで山田さんのシステムがどれくらいの精度を実現できているか検証しましたね。

山田：尾崎さんとのプロジェクトに限らず、常に要件定義を慎重に行うべきだと思っています。お客様がやりたいと仰っていることをそのままやろうとしても、その前段に技術的な検証が必要になることも少なくありませんから。なのでお客様がやりたいことを技術的にブレイクダウンしたうえで、最終的なゴールや中間のステップを達成するためにどの要素をクリアすべきかきちんと整理していくことを心がけています。

最初のプロジェクトでも最初から論文の全文を対象にするとアノテーションする方々も大変ですしかえって精度が下がる可能性もあるので、まずアブストラクトを対象にすることを提案させていただきました。

今後はより高度な情報の抽出にトライしていきたいですね。遺伝子発現データが得られた実験に関する情報もまだ不足しているのですが、文献にはデータの参照元となる論文が記載されていることも多いので、ほかの文献を参照して一つひとつ実験条件などを確認する作業も自動化していけたらと思います。

尾崎：これまで山田さんと取り組んできたプロジェクトのおかげで、新しいプロジェクトのグラント申請も進みましたし、プロジェクトそのものの成果に限らず、山田さんとの取り組みによって研究が広がっている実感があります。やはりライフサイエンスの文献からLLMを用いて情報を抽出することに素早く取り組めたのは、私の研究においても大きな意味があったと感じます。

基盤モデルを統合しAIによる科学の自動化に貢献

山田：尾崎さんの研究では、私たちに限らず外部の企業に開発や実証を発注されることは多いんでしょうか？

尾崎：あまりないですね。特にLLMの活用はチャレンジングな領域でもあるので、LLMを使ったソフトウェア開発の実績がある山田さんだからこそお願いできたことだと思います。

先ほど山田さんの報告書はわかりやすいと言いましたが、要件定義や納品までのプロセスにおいてもこちらの意図を汲んでいただきながら丁寧に進めてくださるので一緒に働きやすいですし、とてもありがたいです。

山田：私たちがライフサイエンスの研究に注力しているからこそ、対応できる部分も大きそうです。

尾崎：一般的なITの領域では見かけないデータベースやデータ形式を扱わないといけないので、ある程度ドメイン知識がないとこちらから一つひとつ説明する必要が生じてしまい、かえってコストがかかることも少なくありません。私たちの取り組みはどうしても試行錯誤しながら進めなければいけない部分もあるのですが、山田さんたちはスモールスタートで始めつつフットワーク軽く変更に対応いただけるのがありがたいです。

山田：私としても、尾崎さんはラボラトリーオートメーションの研究会でご一緒していますし、研究の自動化に関する考え方や目指している世界観が揃っているので、一緒に働きやすいなと感じています。

とくに尾崎さんは積極的にコミットメントしてくださるのがプロジェクトをご一緒していて刺激的な部分でもあります。最近はLLMが流行っているので、とりあえずLLMを使ってなにかできないかと考える人も少なくないんですが、明確なゴールのイメージがなかったり課題意識が曖昧だったりすると、何をやるべきかわからないのでプロジェクトも前進しづらい。尾崎さんはご自身でChatGPTも活用されていますし、データの評価についても専門家の観点から積極的に取り組んでくださるので私たちとしてもありがたいです。

尾崎：今後の展開を考えると、長期的には研究に取り組むAIエージェントを開発してみたいなと思っています。現在、タンパク質や化合物、遺伝子発現など個別の基盤モデルの整備が進んでいるので、今後は基盤モデルの群れをどう操作するかが重要になっていくと思います。文献を読むモデルや文献から知識を抽出するモデルも整備されていけば、複数の基盤モデルをまとめて研究を支援してくれるようなAIエージェントをつくれるのではないか、と。

いまは個々の基盤モデルやソフトウェアから出てきた情報を人間が頭の中で統合してあれこれ考えなければいけないので、複数の結果を統合して推論する部分だけでもAIが代替できるようになると研究の自動化にさらに貢献できるはずです。

山田：ぜひご一緒できるとうれしいです。近年ますますAIによる科学の自動化に注目が集まっています。これからも継続的に尾崎さんとAI活用の可能性について検討していけたらと思います。

取材協力：筑波大学医学医療系バイオインフォマティクス研究室（尾崎研究室）（https://sites.google.com/view/ozakilab-jp）