AIGFS

AI・HPC時代のための分散並列ファイルシステム研究データ、学習データ、
シミュレーション結果を安全かつ高速に管理。

AIGFS Overview

AIGFSは、オープンソースの分散並列ファイルシステムをAI/HPC用途向けにデータセットレベルで最適化したインフラストラクチャーです。 高速な分散ストレージ基盤に加え、データセットの登録・公開・複製・世代管理・可視化を行うWebアプリケーションを統合し 研究データやAI学習データのライフサイクル全体を効率的に管理します。

多くのオープンソースプロジェクトがDebianをベースとしていることに倣い、AIGFSも柔軟性と拡張性を重視した設計を採用しています。ストレージ管理者だけでなく、研究者やデータサイエンティストも直感的に利用できる環境を提供し、データセット中心の運用を実現します。

AIGFSは用途に応じて複数のストレージ階層(Tier)を提供し、性能・信頼性・保存期間の要件に合わせてデータを最適な場所へ配置します。各Tierはそれぞれ異なる役割を持ちながら連携し、AI学習から長期保管までを単一のプラットフォーム上で実現します。

AIGFSの基盤となるZFSストレージアーキテクチャについてはZFS File System Architectureをご参照ください。

ZFS File System Architecture

AIGFSの特徴やストレージ階層、データセット管理機能についてはAIGFS Technology Overviewをご参照ください。

AIGFS Technology Overview

AIGFS Tier Architecture

RAM Tier
  • Storage
    Memory Storage(超高速・揮発)
  • 用途
    一時処理 / キャッシュ / 中間生成物
  • 特徴
    最速・揮発性・再生成前提
  • 利用例
    前処理データ・AI Batch作業領域
FAST Tier
  • Storage
    NVMe Storage(高速・主要処理)
  • 用途
    アクティブデータ
  • 特徴
    NVMe・高IOPS・低レイテンシ
  • 利用例
    学習データ・推論データ
MASTER Tier
  • Storage
    HDD / ZFS(正本・信頼性)
  • 用途
    正本データ管理
  • 特徴
    ZFS・高信頼性・スナップショット
  • 利用例
    Dataset本体
ARCHIVE Tier
  • Storage
    大容量・低速(長期保存)
  • 用途
    長期保管
  • 特徴
    低コスト・大容量・低頻度アクセス向け
  • 利用例
    過去データ・法令保存データ

従来のディスクドライブの扱い方を見直すことで、ネットワーク帯域を最大限に活用できる高性能なストレージシステムを実現しました。

従来のRAM Diskは、ファイルシステムが介在することから高速なアクセス性能を維持することが難しく、RAW Diskとしてのデータベース利用にとどまっていました。しかし、AIGFSではメタデータを分離することで、本来の分散処理性能と高速アクセスを実現しています。

その恩恵はRAM TierおよびFAST Tierで特に発揮され、システム構成によっては100GB/秒クラスの性能を提供することも可能です。※ RDMA/RoCEv2およびNVIDIA® GPUDirect Storage(GDS)が必要です。

AIGFSでは、各ディスクがそれぞれ分散処理を実行することで、ネットワーク帯域の限界までスケールアップが可能です。また、ディスク(ノード)を追加することで、ダウンタイムなしに容量および性能を拡張できるスケールアウトにも対応しています。

データの冗長性が求められる下位レイヤーでは、堅牢なZFSが正本データの保持を担います。高速なアクセス性能と長期的なデータ保全を両立し、信頼性の高いデータ管理基盤を提供します。

Dataset Management Platform

AIGFSはデータセットを中心とした管理基盤です。 Dataset Registryを通じて、データの登録、公開、複製、Tier制御、世代管理を実行できます。 以下は現在実装されている主な機能とコマンド体系です。

  • Datasetの作成・登録
  • Version固定(Immutable管理)
  • 公開 / 非公開設定
  • FAST Tierへの昇格
  • 別拠点・別クラスタへのレプリケーション
  • メタデータ管理
  • 利用者権限管理
  • ジョブ進行状況の表示
  • 監査ログ管理

コマンド一覧

登録・管理

  • dataset registerDatasetを登録
  • dataset list一覧表示
  • dataset info詳細表示

Tier・Replication

  • dataset promoteFAST Tierへ昇格
  • dataset demoteArchive Tierへ降格
  • dataset replicate他拠点へ複製
  • dataset archiveArchive Tierへ移動

保全・Version

  • dataset freezeReadOnly化
  • dataset size容量確認
  • dataset tierTier確認
  • dataset last-access最終アクセス確認
  • dataset versionVersion管理

Performance Optimization

AI/HPC分野では、データをファイル単位ではなくデータセット単位で管理することが一般的になっています。一方で、多くのオンプレミス環境では依然として従来のファイル管理が中心となっています。

AIGFSは、環境に応じて最適な初期構成を提供します。CUDAを利用する高性能環境では、RDMA/RoCEv2およびNVIDIA® GPUDirect Storage(GDS)に対応し、GPUとストレージ間のデータ転送を最適化します。

また、100Gbps~400Gbpsクラスのネットワーク環境では、利用用途やワークロードに合わせたクライアント構成やチューニングを実施します。初期構成の段階でも100Gbpsネットワーク環境で5~8GB/秒クラスの性能を実現可能です。

AIGFSは、高価な専用ハードウェアへの依存を前提とせず、実際の運用要件に合わせた最適なシステム構成を提供します。

以下は代表的なハードウェア構成例です。要件に応じてストレージ容量、GPU構成、ネットワーク帯域を柔軟に組み合わせることができます。

Reference Architecture

以下はAIGFSの標準構成例です。高速処理を担うFAST Tierと、データ管理を行うMaster Tier、 長期保管向けArchive Tierを分離することで、AI学習から研究データ保管までを効率的に運用できます。

構成例

Deployment Models

On-Premise AIGFS

研究室・部門向け
50TB〜500TB

Standard AIGFS

推奨構成
500TB〜2PB

Large Scale AIGFS

2PB超〜数十PB