2020年9月28日月曜日

Nutanix Filesの内部的な仕組みを調べてみた②

前回と同様にとあるセミナーでお話した内容の続きです。

引き続きNutainx Filesが題材となり、今回は障害時の動作について検証していたときの結果をご紹介します。

Nutanix Filesの障害時の動作

障害テストは1台のNutanixノードが停止した際のFSVMとVolumesの動きについて見てみます。

障害テスト前の準備

障害テストを行うため、標準共有フォルダを3つ作成した環境を準備しました。

各FSVMにVolumesが割り当てられていることも確認しておきます。

テストの開始

この状態でIPMIからNutanixノードを1台停止させます。

ノードを停止させてから数十秒後、停止したノードで稼働していたFSVMにマウントされていたVolumesが異なるノードで新たにマウントされました。

更に一定時間経過すると、HAにて異なるノードでFSVMが再起動されました。

FSVMが再起動すると、異なるFSVMにマウントしていたVolumesはもとのFSVMへ再度マウントされ、もとの状態へ戻ります。

ノード復旧後は自動的にFSVMがもとのノードへライブマイグレーションされました。


ここまでの流れを図で説明

まずはじめにノードの停止に伴い、ノード上で動作しているFSVMが停止します。

停止直後、異なるノードのFSVMにて停止したFSVMにマウントされていたVolumesが新たにマウントされます。

更に一定時間が経過するとHAにて異なるノードでFSVMが再起動され、VolumesはもとのFSVMにて再マウントされます。

ノードが復旧すると自動的にもとのノードへFSVMがライブマイグレーションされ、障害発生前の正常な状態へ戻ります。


障害テストの結果から

まずテストを試していて感じたことは、障害テスト中にファイルサービスの停止を感じなかったことです。
Nutanix FilesはFSVMとVolumesを組み合わせた仕組みにより、NASヘッドに障害が発生しても僅かなダウンタイムでファイルサービスを再開する仕組みを提供していることがわかります。
今回のテストではノード停止直後にすべての共有フォルダへ接続を試してみましたが、接続に失敗するなどの問題は発生しませんでした。

もちろん、実際にはVolumesを再マウントするまでの間に接続出来ないタイミングはあるはずですが、「HAでファイルサーバーが再起動するまで使えない」なんてことはないので、一般のファイルサーバーと比べ非常に高い可用性を持っていることがわかります。


以上でFilesの障害時の動作について紹介させて頂きました。
障害時の動作には、説明していないFSVMのIPアドレス切り替わりなども行われており、そういったネットワーク部分の動作には今回触れていないので、機会があれば紹介したいと思っています。

0 件のコメント:

コメントを投稿