_議事録_1.png)
要約
開催概要 令和8年4月24日、文部科学省においてハイブリッド形式で開催。全10委員が出席し、国立情報学研究所(NII)からもオブザーバーが参加。6月の報告書取りまとめに向けた第4回会合。
議題(1)政策文書の確認(文部科学省)
事務局より、以下の政策文書における本WG関連事項が整理・紹介された。
- 第7期科学技術・イノベーション基本計画(3月27日閣議決定):AI for Scienceによる科学研究の革新として、研究データのオープン・アンド・クローズ戦略、国外移転・学習利用・サーバ所在地に関する国としての考え方の提示、SINET・NII RDCの戦略的増強などが明記。
- AI for Science推進に向けた基本的な戦略方針(3月31日文科省決定):今後5年間の集中改革期間として具体的20アクションを設定。NII RDCの容量5倍・AI化(2030年度まで)、SINETの2倍高速化(2028年度まで)が数値目標として明記された。
議題(2)知識基盤の構築(NII黒橋所長)
前半・後半の二部構成で発表。
前半:LLM-jp/LLMCの開発成果
- 4月3日にLLM-jp-4(8Bパラメータ Dense、32B MoE)を公開。学習トークン数は前モデル比約5倍(約12兆トークン)。Qwen3・GPT-OSSと同等水準に到達。
- 4月14日には**ビジョン言語モデル(VLM)**も公開(画像・言語データ3,000万件で学習)。
- Apache 2.0ライセンスによる完全オープン公開。産業界・官公庁からの関心も高い。
- 国際連携(韓国・インド・タイ・フランス・ブラジル等)を推進。「ソブリンAI」は一国完結ではなく、オープンな国際協力の枠組みとして位置づけ。
後半:AI利用シナリオと計算資源試算
現状の課題(フロンティアモデル依存による再現性欠如・秘匿データ活用困難・コスト増大)を整理した上で、NIIが学術界全体へのオープンなAI利用環境を提供する必要性を提起。
AIの利用シナリオを「バッチ型」「対話的サーバ型」に大別し、研究者80万人規模を想定した計算資源を試算:
| 利用種別 | 必要ノード数(目安) |
|---|---|
| RAG構築・AI-readyデータ整備・追加学習・推論 | 計約70ノード |
| 対話型サーバ | 約127ノード |
| 合計(余裕分含む) | 約400ノード |
コスト感:民間クラウドで年140億円、オンプレ整備(5年運用)なら年平均105億円。mdxとの協議を開始済み。
主な委員意見
- 学術研究プラットフォームの図が「旧来型の線形フロー」に見える。実験施設・HPCとの循環的・シームレスな連携イメージへのアップデートを求める声(江村委員)
- 効率化とイノベーションはイコールではない。AI活用で空いた時間が本当に研究に向かうか、研究以外の負担(教育・学務・事務)との兼ね合いを考慮すべき(工藤委員)
- AIエージェント化が進めば問合せ量は桁違いに増加する可能性。試算の大幅な上振れを見込むべき(千葉委員)
- GakuNin認証によるテストサービスを近々開始予定
今後のスケジュール
- 第5回:5月22日(ユーザ側・連携側からの意見、取りまとめ素案提示)
- 第6回:6月16日(取りまとめ案審議)
現場視点の一般的な懸念
① 「誰が使うか」の想定が研究者中心に偏っている 計算資源の試算は研究者・大学院生・URA等で構成されているが、現実の大学では、学部生・非常勤教員・事務職員など、AI利用ニーズの裾野はより広い。「80万人」という試算の根拠が明示されておらず、利用実態の把握が試算の信頼性に直結するにもかかわらず、その調査手法は未定のままである。
② 「誰がサポートするか」が不問のまま 第3回でも「相談できる人的サポートがあると活用が進む」との指摘があったが、本回の議論ではほぼ継続されなかった。400ノードの計算基盤が整備されても、使い方を教えられる人材・サポート体制が追いつかなければ、現場でのリーチは限定される。特に人文・社会科学分野では、技術的な補助なしの自律的活用は難しい。
③ 「効率化→研究成果」の因果関係の過信 工藤委員の指摘が鋭い。研究者の時間がAIで捻出されても、その時間が教育負担・学務・書類作業に吸収されるなら、AI for Scienceの成果は出ない。この問題はNIIや本WGの管轄外だが、取りまとめ文書がこの論点を無視すれば、政策的に誇大な効果予測を生む恐れがある。
④ 「オープンモデル=安全」の単純化リスク 秘匿性の高いデータをクローズドモデルに入れたくないという動機は正当だが、NIIのオンプレ環境でも、運用設計・アクセス制御・監査ログ・内部不正対策など、信頼確保のための仕組みが現場には見えていない。「契約で縛るよりは安心」という感覚的な理解が先行すると、導入後のセキュリティインシデント時に現場が対応できなくなる。
⑤ 学習データの来歴管理と現場負担の矛盾 来歴管理の重要性は繰り返し強調されているが、メタデータの付与・データクレンジング・構造化は現場の研究者が担う前提になっている。研究者がすでに過重な作業を抱えている状況で、「AI-readyデータ整備」がさらなる義務的作業として課せられれば、基盤の整備が進むほど現場負担が増すというパラドックスが生じる。自動化の範囲とその精度保証についての明示が必要である。
⑥ 計算資源試算の楽観性 AIエージェントが本格稼働し始めると、モデルへの問合せ数は研究者の直接利用を大幅に超える(千葉委員)。現行の試算は「人間が直接使う」シナリオを前提としており、エージェント連鎖が始まった段階で試算が即座に陳腐化するリスクがある。上振れ係数の設定根拠と、試算アップデートの仕組みを報告書に明記すべきである。
AI for Scienceを支える研究データの管理・利活用と流通の在り方ワーキンググループ(第4回) 議事録
https://www.mext.go.jp/b_menu/shingi/gijyutu/gijyutu29/006/gijiroku/mext_00004.html


の配付資料を掲載しました_1-380x300.png)