Long-Term Archive

研究データを未来へ継承する長期保管基盤

研究成果やAI学習データは、生成した時点ではなく、10年後・20年後に再利用できる状態で保管されていることが重要です。
AIGFS Long-Term Archiveは、大容量データの長期保管、遠隔地保管、監査証跡保全を実現し、研究資産の継続的な活用を支援します。

長期保管に求められる課題

AI・HPC環境では日々膨大なデータが生成されています。研究成果を将来にわたって活用するためには、 容量確保だけでなく、保全性・可用性・監査対応まで考慮した長期保管基盤が必要です。

キャパシティ

データ容量増加

AI学習やシミュレーションによって生成される研究データは、 年々増加しPB級に達することも珍しくありません。

アーカイブ

長期保全

研究終了後も再解析や再利用のため、 長期間にわたり安全に保存する仕組みが求められます。

ディザスタリカバリ

災害対策

自然災害やシステム障害に備え、 別拠点へのレプリケーションや遠隔地保管が重要です。

コンプライアンス

監査対応

いつ・誰が・どのデータを扱ったかを追跡できる 証跡管理と監査基盤が求められます。

Long-Term Archive Solution

研究データは生成直後の高速アクセスだけでなく、 数年から数十年にわたる保管を前提とした設計が必要です。

AIGFSではMaster Tier上のデータをArchive Tierへ複製し、 さらに遠隔地や別サイトへ保管することで、 災害対策と長期保全を実現します。

アーカイブ先は用途に応じて、 大容量HDDストレージ、別拠点AIGFS、 テープライブラリーなど複数の構成に対応可能です。

多層アーカイブアーキテクチャ

AIGFSではデータの重要度や保存期間に応じて複数の保管階層を構成し、 容量・コスト・可用性のバランスを最適化します。

Archive Tier

Master Tierから複製されたデータを保管する アーカイブ専用領域です。 高速アクセスを必要としないデータを効率的に管理できます。

Remote Replication

別拠点へ定期的にデータを複製し、 災害やシステム障害に備えます。 研究資産を地理的に分散して保護します。

Offline Archive

テープライブラリーや大容量ストレージへ保管し、 10年以上の超長期保存にも対応します。 低コストかつ高い保全性を実現します。

長期保管を支える技術

AIGFS Long-Term Archiveは、単なるデータ保管ではなく、整合性・可用性・運用効率を考慮した複数の技術によって構成されています。

データセット連携

ZFS Snapshot

ファイルシステムの状態を瞬時に保存し、世代管理や障害発生時の迅速な復旧を実現します。

レプリケーション

Dataset Replication

Archive Tierや別サイトへデータを複製し、災害対策と長期保全を実現します。

インテグリティ

Integrity Check

チェックサムによる整合性検証を行い、長期保存時のデータ破損や改ざんを検知します。

スケールアウト

dRAID

大容量HDD環境に最適化されたZFSの保護機能です。長期保管領域の信頼性と再構築性能を向上します。

Long-Term Archive Operations

AIGFSではArchive Tierへの複製に加え、別サイトへのレプリケーションや テープライブラリーを利用した長期保管にも対応しています。

Tapeアーカイブ

Tape Library

mtxコマンドによるライブラリー制御と tarを利用したアーカイブ保存例です。


$ mtx -f /dev/sg2 load 5 0
$ mt -f /dev/nst0 rewind
$ tar cvf /dev/nst0 /mnt/archive
ZFSアーカイブ

ZFS Snapshot

ZFS SnapshotとZFS Sendを利用した アーカイブ運用例です。


$ zfs snapshot tank/archive@20260601
$ zfs send tank/archive@20260601 | mbuffer -m 4G > /dev/nst0

証跡・監査データ保全

エビデンス(証跡)とは、データアクセスや操作履歴を記録した情報を指します。監査データとは、その証跡を第三者が検証可能な形式で保存したものです。

ログイン履歴
ファイル作成・削除履歴
アクセスログ
設定変更履歴
バックアップ実行履歴
データ転送履歴
管理者操作履歴

事故が発生した場合でも、原因不明の状態は避けなければなりません。
これらの仕組みは、デジタルフォレンジックにおいて重要な基盤要素となります。原則として以下の4つが代表的なものです。

デジタルフォレンジックの4要素

Integrity

完全性

SHA256・SHA512・BLAKE3等による完全性検証

Availability

可用性

レプリケーション・冗長化・バックアップによる可用性確保

Confidentiality

機密性

暗号化・ACL・RBACによるアクセス制御

Non-Repudiation

非否認性

電子署名・タイムスタンプ・WORM等によって実現される非否認性

証跡保全ではログサーバーによる集中管理が有効です。ネットワークスイッチやサーバーノードからログを収集し、 ハッシュ保存、WORM保管、タイムスタンプ付与を組み合わせることで長期間にわたり信頼できる監査基盤を構築できます。

また、スナップショットや世代管理は研究データの変更履歴を保持する手法として有効であり、データ再現性の向上にも寄与します。

AIGFS Forensic Database

AIGFSでは、既に以下の情報をDB化しており、 いつ・誰が・どのデータを・どこへ移動し・改変が行われていないかを追跡しています。

Checksum
Owner
Created At
Last Access At
Version
Promote History
Replica
Archive History

将来を見据えた証拠保全基盤

AIGFSでは、既にChecksum、Version、Replica情報、Archive履歴などの メタデータを管理しており、デジタルフォレンジックに必要となる基盤要素を備えています。

将来的に必要となる証拠管理の連鎖機能(Chain of Custody)、 変更不可領域、監査ログ管理などについても、 既存メタデータの活用と機能拡張により実現可能な基盤を備えています。

インテグリティ

Hash Recording

イメージ取得時のハッシュ情報を記録し、 将来の完全性検証に活用します。

ベリフィケーション

Periodic Validation

定期的な整合性チェックにより、 長期間保管されたデータの健全性を維持します。

フォレンジック

Tamper Detection

改ざん検知機能により、 証拠能力を維持したデータ保全を目指します。

これまで記載した機能を基盤として、AIGFSは 「取得したデータが改ざんされていないことを10年後でも証明できること」 を視野に、継続的な開発と機能拡張を進めています。