国立がん研究センターは、これまで世界でも有数の質の高いがんの基礎研究・臨床研究および疫学研究を長い間継続的に行なっており、蓄積されたがんの診断データは膨大な量になる。これらを統合的に解析することで、個々人に最適化された医療を提供できると考えられているが、これまでは、このようながんに関するビッグデータを解析する手法が無く、実現に至っていなかった。しかし、近年、診断に利用されるデータの電子化が進んできたこと、複数のコンピュータやプロセッサを利用した分散処理技術の発展によりビッグデータ解析が可能になってきたこと、および、深層学習に代表される AI技術の発展により、構造化されたデータのみならず、構造化されていない多様ながんのビッグデータであっても、統合解析をすることで、医療の質の向上へと繋げられる可能性が高まってきた。
■研究概要
本プロジェクトでは、最前線の深層学習技術の研究開発・産業化を推進しているPFN社、およびAI研究開発を先導する産総研 人工知能研究センターと共同で、国立がん研究センターが保持している膨大ながんに関する臨床データ、マルチオミックスデータおよび疫学データを統合的に解析するメディカルAI技術を開発する。その上で複雑ながんの本態を解明し、がんの診断・治療および創薬へ応用していく。例えば最近様々な分野で利用が広がる深層学習技術をPFN社はがん診断に適用することで、様々ながんの早期予測精度を画期的に改善することを示し始めている。また、産総研で研究されている機械学習・統計手法により、がんの有無・進行度の判別や効果ある治療法の選択が容易になるバイオマーカー(生体物質)探索の効率化が期待できる。このように最先端のAI技術を導入することで、より迅速でかつ精度の高いがんの診断・治療および創薬システムを、産・官・学が密接に連携して開発する。
がん医療に伴うAI開発においては、電子化・構造化されたデータのみならず、様々な非構造化がんデータベースの構築と、その多彩なデータベースを解析できる機械学習・深層学習技術の開発が必要になる。そのため、本プロジェクトでは、まず、機械学習・深層学習の適用が可能な正規化されたがんのデータベースを構築し、その上で機械学習・深層学習を利用して解析する。対象としてクリニカルシークエンス*3(ゲノム)データ、ヒストン修飾*4を中心としたエピジェネティクスデータ*5および血液検査データに重点を置き、より正確ながんの診断、個々のがん罹患者にあった治療法の選択、創薬へ応用していく。CREST事業が求める最初の2年4カ月でProof of Concept (POC:概念実証)の取得を目指し、5年後を目処に実用化を目指していく。
■採択された研究課題
国立研究開発法人 科学技術振興機構 戦略的創造研究推進事業(CREST)
研究領域: 「イノベーション創発に資する人工知能基盤技術の創出と統合化」
課題名: 「人工知能を用いた統合的ながん医療システムの開発」
代表者: 国立がん研究センター 研究所 がん分子修飾制御学分野長 浜本 隆二
■用語解説
*1 マルチオミックスデータ
網羅的な生体分子についての情報であり、ゲノム(Genome)やトランスクリプトーム(Transcriptome)、プロテオーム(Proteome)などと呼ばれる、様々な網羅的な分子情報をまとめた情報。
*2 エピゲノム
DNA塩基配列の変化を伴わずにDNAやヒストンへの化学修飾が規定する遺伝情報。
*3クリニカルシークエンス
臨床検体を用いたがん関連遺伝子変異の網羅的解析。
*4ヒストン修飾
クロマチン構成タンパク質であるヒストンに認められるアセチル化、メチル化、リン酸化、ユビキチン化などの化学修飾
*5エピジェネティクスデータ
エピゲノム(*2)の網羅的解析によって得られるデータ。主にDNAメチル化およびヒストン修飾を指すことが多い。