AI for Scienceを支える研究データの管理・利活用と流通の在り方ワーキンググループ(第5回)配付資料 (令和8年5月22日開催・文部科学省 科学技術・学術審議会 情報委員会)

要約

本資料は、2026年5月22日に開催された同WGの第5回会合配付資料の全体を収録したものであり、6月目途のWG報告書とりまとめを射程に、「AI for Science」を支える次世代情報基盤の設計方針を多角的に検討している。資料の構成と主な内容は以下のとおり。

【資料1】WGとりまとめに向けた整理(第4回審議追加版) 第1回〜第4回の議論を累積整理した骨子。主要論点は①SINET高度化(2028年度より次期SINET稼働、800Gbps→1.6Tbps 2段階構成)、②研究データ基盤NII RDCの高度化(AIによるメタデータ自動付与、計算資源・実験装置とのシームレス接続)、③次世代認証基盤の構築(GakuNinモデルの限界克服、多要素認証・フェデレーション強化)、④知識基盤の構築(国産LLM「LLM-jp」活用・オープンAI基盤の整備)。これらに対する委員コメントでは、AI for Scienceの概念を「解析支援」に矮小化せず実験自律化・仮説生成まで含めるべきとの指摘、研究者に「自分ごと」として届く設計の必要性、人文社会科学分野・医療データへの適用拡大、人的サポート体制の重要性などが繰り返し強調された。また政策文書として第7期科学技術・イノベーション基本計画(2026年3月閣議決定)と「AI for Science推進に向けた基本的な戦略方針」(2026年3月文科省決定)の情報基盤関連記載が抜粋・参照されており、NII RDC容量5倍化(2030年度)・SINET2倍高速化(2028年度)・共用計算資源10倍化(2030年度)という数値目標が明示されている。

【資料2】ライフサイエンス分野のデータ基盤(DBCLSほか) DBCLS等が担うライフサイエンスDBの現状と、FAIR原則に基づく統合・連携の取り組みを整理。インターネット上のデータ枯渇を背景に、学術一次データの戦略的価値が増大しているとの認識を前提に、BioHackathon等の国際連携やFunding by DBのエコシステムを紹介。

【資料3】マテリアル分野におけるデータ基盤(NIMS) NIMSが構築した世界最大級の材料データベース群(AtomWork、PolyInfo、Kinzoku等)と、実験データを直接構造化・蓄積するシステム「RDE(Research Data Express)」の実績(26機関1030台対応・411万件ファイル)を報告。「全面公開」と「全面非公開」の間に「広域シェア」という第三の領域を設定し、産学官コミュニティ内での戦略的共有を推進する構想を提示。AI時代には「データ提供」から「知識提供」への転換が鍵とされ、マテリアル基盤モデルとAIエージェントの連携が将来像として描かれる。

【資料4】SPring-8の研究データ基盤とAI for Science(理化学研究所) 次世代X線検出器CITIUSによる超大量データ(27GB/s・2.3PB/日規模)に対応したリアルタイムデータ処理パイプラインの実装例を報告。富岳との直結(NTTとのIOWN光パス共同研究による)が検討中。課題として、ビームライン〜データセンター〜富岳の3拠点間でのデータ移動の煩雑さ、産業利用時の高度なセキュリティ要件への既存インフラ対応限界、施設横断的な認証基盤の未整備を指摘。

【資料5】AI for Science実現のための基盤整備(NII) NII RDCと知識基盤機能を統合した「AI対応研究データ基盤」の構想を提示(新名称検討中)。ARIM・DDBJ・NanoTerasu・SPring-8・DIASの5コミュニティへのヒアリング結果を踏まえ、セキュリティ確保・ローカルAI環境・国産OSSモデル・AIエージェント機能・人材育成連携への期待を整理。あわせてHPCIコンソーシアムおよびHPCI計画推進委員会からの計算基盤要件、海外プラットフォーム(EOSC、SURF、NSF ACCESS、AmSC、DataON)の動向調査結果を紹介。日本として取り組むべき具体策として、フェデレーション型の資源統合、AI駆動型データ・エコシステム、安定的な非営利運営体制の3点を提示。

現場視点の一般的な懸念

  1. 「AI for Science」が研究現場に届かないリスク 第3回委員コメントにあるように「多くの研究者に『自分は関係ない』と思われた時点でこの取組は負け」という指摘は深刻である。議論の中心がNII・理研・NIMSなど特定の先端機関・大型施設に集中しており、地方大学の一般研究者や中小規模研究室が基盤をどう使えるのかが具体的に示されていない。「全国どこでも誰でも」という目標と現状の設計の間に大きな乖離がある。
  2. 研究者の負担増への警戒が後景化している メタデータ付与・DMP作成・データ構造化・RDE登録・AI-Ready化といった作業が「研究者の負担を軽減する」ために設計されているとしながら、実際には新たな習熟コストと入力義務が積み重なる構造になっている。AIによる自動付与が「課題」として列挙されつつも、実用化の時期や品質保証の仕組みが曖昧なまま制度的要件が先行しつつある点は、実務的観点から懸念される。
  3. セキュリティ要件と研究の自由・国際連携のトレードオフが未解決 産業利用での高度セキュリティ要件(物理層隔離・監査・補償等)と、オープンサイエンス推進・国際共同研究促進という方針は原理的に緊張関係にある。「オープン・アンド・クローズ戦略」はスローガンとして頻出するが、分野別・データ種別の具体的な判断基準や責任の所在が整理されておらず、現場の研究者や事務担当者が個別に判断を迫られる状態が続く可能性がある。
  4. 計算資源・ストレージ目標値の楽観性と地域格差 「NII RDC 5倍」「SINET 2倍」「共用計算資源10倍」といった数値目標が政策文書に明記されているが、それを利用するための接続環境・人的支援・スキルが地域によって著しく不均等である。SPring-8・富岳・NanoTerasuといった大型拠点へのアクセス優位性を持たない機関が、容量増強の恩恵を実質的に享受できるかどうかは別問題であり、「ナショナルセンター機能強化」が中央集権化を促進して地域の自律性を損なうリスクがある。
  5. 人材の持続的育成・確保の制度的裏付けが弱い 複数のWG回を通じて「人材育成」が重要課題として繰り返し言及されるが、URA・データマネージャー・ネットワーク技術者等の専門職に対するキャリアパス・処遇・評価制度の具体化は第7期基本計画の記述にとどまっており、個別機関への実装を促す制度設計が不在である。NII単独での限界を認めながらも、地域コンソーシアムへの依存が「分散化・非拘束」になりやすく、体制整備が進まない地域が取り残される懸念がある。
  6. 知識基盤の「ブラックボックス化」と研究の再現性・説明責任 NII RDCと知識基盤を一体化したAI対応基盤は、AIが生成したメタデータ・推定値・知識グラフが研究データとして流通することを意味する。実験由来データとAI由来データの識別(NIMS資料も指摘)、AIの出力の再現性・透明性保証、学術的説明責任の担保は技術的にも制度的にも未整備である。「信頼できるAI」の追求が政策目標として掲げられつつも、具体的なガバナンス設計が見当たらない。

現場視点の一般的な懸念を踏まえた改善提案

  1. 「ユーザー視点のオンボーディング設計」の制度化 先端機関・大型施設中心の議論から脱却し、一般研究者・地方大学向けの「最小コスト利用モデル」を公式に設計すること。具体的には、NII RDCやRDEの利用に際して事前に想定される習熟コスト・作業負荷を定量的に試算・公開し、「研究者の実質的時間節減」を検証するパイロット評価を義務付ける仕組みが有効である。また、「地域コンソーシアム」を非拘束の任意組織に留めず、SINETノード設置校等を軸にした最低限の支援体制を条件とする補助要件を設けることが望ましい。
  2. データ管理義務と支援体制の同時実装の原則化 競争的資金においてDMP提出やデータ公開が義務化される方向にある中、義務の先行と支援の後追いという構造的問題を解消するために、「支援体制が整備されていない機関への義務猶予・段階的適用」原則を明示すること。さらに、AIによるメタデータ自動生成ツールの実用化を前提条件として、DMP義務の本格施行のタイムラインと連動させる工程管理を政策文書に盛り込むことが必要である。
  3. オープン・クローズ判断のための分野横断共通フレームワークの策定 現状の「各研究者・各機関が判断」という構造を見直し、データ種別(ゲノム・医療・材料・観測等)×利用目的(学術公開・産学共有・安全保障配慮等)×機微性レベルの三軸マトリクスによる判断支援ツールを、省庁横断(文科・厚労・経産・農水)で策定・公開すること。チェックリスト(資料1別添2)の単独先行ではなく、解釈指針と事例集を同時に整備することで、現場の担当者が判断できる環境を整える。
  4. 資源増強目標の「実利用到達率」指標の導入 「容量5倍」「速度2倍」といった供給側の数値目標に加え、「全国の博士課程学生・若手研究者のうちNII RDCを実際に利用した割合」「地方拠点を持たない小規模大学の接続率」といった実利用到達率を政策目標として設定し、毎年度の情報委員会報告に組み込むこと。資源投資の効果が現場に届いているかを可視化する評価軸がなければ、インフラ増強が大型拠点への集中を強化するだけに終わるリスクがある。
  5. 研究支援専門職の国家資格化・共同雇用モデルの制度設計 URA・データマネージャー・ネットワーク技術者等の専門職について、地域コンソーシアムを通じた「共同雇用モデル」(複数大学で一名の専門職を共同雇用し、NII・地域拠点が費用補助)を試行事業として立ち上げること。併せて、第7期基本計画で言及されたキャリアパス整備を、給与水準・職階・評価基準の省令・ガイドライン化によって実装可能な形に具体化する必要がある。
  6. AI生成データの「出自表示」標準と監査可能性の制度化 知識基盤においてAIが生成・補完したメタデータ・推定値には標準的な「AI由来表示」(例:出所フラグ、生成モデル名・バージョン、信頼スコア)を付与することを技術要件として義務付けること。また、科学的再現性の観点から、AIモデル自体の変更・廃止・差替え時に過去データの再現性が損なわれないための「モデルアーカイブ義務」と、第三者による監査可能な運用ログ保持期間(例:論文公表から10年)を運用規程に明記することを提案する。

AI for Scienceを支える研究データの管理・利活用と流通の在り方ワーキンググループ(第5回) 配付資料
https://www.mext.go.jp/b_menu/shingi/gijyutu/gijyutu29/006/siryo/mext_00007.html

メインメニュー