Dataonstor | GPU Infrastructure

GPU Infrastructure

AIGFS環境におけるGPUサーバは、大規模AIモデルの学習および推論を支える計算基盤です。最新GPU、高速ネットワーク、高性能ストレージを組み合わせることで、 AIワークロードに必要な演算性能とデータ供給性能を実現します。

項目	構成内容（例）	備考
GPU	NVIDIA RTX PRO / H100 / H200 / B200	用途や予算に応じて選定
GPU間インターコネクト	NVLink / NVSwitch	GPU間の超高速通信
ネットワーク（NIC）	NVIDIA ConnectX シリーズ	InfiniBand / RoCEv2対応
ネットワーク帯域	200GbE / 400GbE	大規模分散学習向け
ホストメモリ	1TB ～ 2TB以上	データキャッシュおよびシステムメモリ
ローカルストレージ	NVMe SSD（数TB～十数TB）	OS・コンテナ・ローカルキャッシュ用

GPU Server Lineup

用途や学習規模に応じて、エントリークラスから大規模AI学習向けまで幅広いGPUサーバをご提供します。研究開発環境、推論基盤、LLM学習基盤など、目的に応じた最適な構成をご提案します。

Entry AI

2U GPU Server

SYS-212GB-FNR-01-G2

CPU
Intel Xeon 6731P ×1
GPU
RTX PRO 6000 Server Edition ×2
Memory
512GB DDR5-6400
Network
Dual 10GbE

AI開発環境や推論用途に適したコンパクトなGPUプラットフォーム。

View Models

Training

5U GPU Server

AS-5126GS-TNRT-01-G2

CPU
AMD EPYC 9355 ×2
GPU
RTX PRO 6000 Blackwell ×2
Memory
1.5TB DDR5-6400
Power
2700W ×6

研究機関や企業向けの中規模AI学習環境に最適です。

View Models

LLM Training

8U GPU Server

SYS-822GS-NB3RT-01-G2

CPU
Intel Xeon 6768P ×2
GPU
HGX B300 8GPU
Memory
2TB DDR5-6400
Network
800GbE / XDR800

生成AIや大規模言語モデル学習向けのフラッグシップ構成です。

View Models

AIGFSとのシナジー

GPUの性能を最大限に引き出すためには、GPUそのものだけでなく、ストレージおよびネットワークの性能が重要です。 AIGFSはGPU環境向けに最適化された分散並列ストレージとして、学習データの供給からチェックポイント保存までを高速化し、 AIインフラ全体の効率向上に貢献します。

Performance

データ・ハングリーなGPUへの安定供給

最新GPUは極めて高い演算性能を持つ一方、ストレージ性能が不足するとデータ供給が追いつかず、 GPUが待機状態となる「GPU Starvation」が発生します。

AIGFSは分散並列アーキテクチャにより、大規模データセットを高速に供給し、 GPU利用率の向上と学習時間の短縮を実現します。

Checkpoint

チェックポイントの高速保存

LLMや生成AIの学習では、定期的なチェックポイント保存が不可欠です。

AIGFSは大量の学習データやチェックポイントデータを並列処理することで書き込み時間を短縮し、障害発生時のリスク軽減と学習効率向上を実現します。

CUDA / AI Software Stack

AIGFS GPU Infrastructureは、AIアプリケーションからGPU、ストレージまでを統合的に最適化し、 NVIDIAエコシステムとシームレスに連携します。 PyTorchやTensorFlowをはじめとする主要なAIフレームワークに対応し、大規模学習から高速推論まで幅広いワークロードをサポートします。

AI Applications

LLM、画像認識、生成AI、RAG、推論サービスなど幅広いAIワークロードに対応。

AI Frameworks

PyTorch、TensorFlow、vLLM、 TensorRT-LLMなど主要フレームワークを利用可能。

CUDA Ecosystem

CUDA、cuDNN、NCCL、 TensorRT、cuFileなど NVIDIAソフトウェア群に対応。

AIGFS Storage

RDMAネットワークを介して高速なデータ供給とチェックポイント保存を実現。

Software Architecture

AIGFSはAIアプリケーション、CUDA環境、高速ネットワーク、分散並列ストレージを統合し、 GPUへ効率的にデータを供給するソフトウェアスタックを提供します。

AI Applications（LLM、画像認識、生成AI など）

AI Frameworks（PyTorch / TensorFlow / vLLM）

CUDA / cuDNN / NCCL / TensorRT / cuFile / nvidia-fs

AIGFS Client

高速ネットワーク　RoCEv2 / RDMA NIC

AIGFS Storage Service

NVMe SSD / SSD / HDD / Archive Storage

AIGFSが実現する次世代のAIインフラ

AIモデルの大規模化に伴い、インフラに求められる要件は大きく変化しています。重要なのはGPU単体の性能だけではなく、膨大なデータを継続的に供給できるストレージ性能と、ノード間を低遅延で接続するネットワーク性能です。

AIGFS GPU Infrastructureは、GPUサーバ、RoCEv2ネットワーク、分散並列ストレージを統合し、 AI開発から学習、推論までのパイプライン全体を最適化します。

High Performance

最新GPUの性能を最大限に活用できる高性能コンピューティング基盤。

RDMA Network

RoCEv2による低遅延通信で大規模分散学習に対応。

Parallel Storage

AIGFSによる高速データ供給と効率的なチェックポイント保存。

Scalable Architecture

研究開発から大規模AI学習まで柔軟にスケール可能。

AIインフラの設計・構築をご支援します

Data on Storeでは、GPUサーバ単体の提供だけでなく、 AIGFS分散ストレージ、RoCEv2ネットワーク、 CUDA環境構築を含めた統合AIインフラをご提案しています。研究開発環境から大規模AI基盤まで、お気軽にご相談ください。