VMware Global Community
infra_7
Enthusiast
Enthusiast

ノードをメンテナンスモードにする際に「一般的なvSANエラー」が発生してしまいます。

現在、5ノードでvSANクラスタを構成しています。
そのうちの1ノードをvSANクラスタから除外するため、メンテナンスモードに切り替えようとしています。
メンテナンスモードのモードは、「アクセシビリティの確保」か「全データ移行」で実行しようとしています。

その際、「一般的なvSANエラーが発生しました」というエラーが発生しており、エラーの詳細を確認すると、
「退避の事前チェックに失敗しました。それぞれが595GBの容量を持つノードを1台追加した後、再試行してください。」
という表示があります。

infra_7_0-1711440515281.png

 

vSANデータストア自体は5.26TBあり、660GBが使用済みです。vSANデータストアの容量の問題ではないと思われます。

infra_7_1-1711440562823.png


ただ、1つ気になる点としては、5台全てのノードに「ホストが、vSANが有効なクラスタ内の他の1台以上のノードと通信できません」という警告マークがついています。

infra_7_2-1711440589888.png

 

以上のような問題に対しては、どのように対処方法がございますでしょうか。
お手数をおかけしますが、何卒よろしくお願いいたします。

0 Kudos
3 Replies
kawaman
Leadership
Leadership

vCenter のバージョンによって UI が若干異なりますが、vSphere Client から
クラスタ > 監視 > vSAN > Skyline Health (または健全性)
と辿ると vSAN クラスタで何等かの問題が起きている場合はエラー、警告が表示されます。


以下は一例ですが、問題がある場合は以下の様に赤くエラーが表示されます。
今回は何れかの ESXi の vSAN に関連するプロセスが止まっている可能性や vSAN 通信で利用するネットワークに問題がある場合が考えられます。

kawaman_0-1711444258344.png

まずはこの健全性の画面を確認していただき、対象 ESXi ホストの vSAN 関連プロセスの再起動で済む場合もありますが
エラー内容によってはサポートにエスカレーションが必要な場合があります。

CLI で切り分ける方法もありますが、まずは vSAN Skyline Health (vSAN 健全性)をご確認いただき、
併せて利用中の vSphere のバージョン (vCenter / ESXi / vSAN それぞれ)も記載いただけると切り分けが進めやすいため確認をお願い致します。

 

※ ちなみに昨年投稿いただいた以下の時の事象とは異なる、ということでよろしいですか?
念の為昨年の切り分けポイントもご確認をお願いします。

nkaneda1
Enthusiast
Enthusiast

@kawaman さんも言及されていますが、関連サービスの再起動で直ることも多いです。
復旧優先の場合や、サポート契約のないラボ環境などの場合であれば以下の対処が有効かもしれません。
※以下は私ならばどうするかという観点でのコメントです。実際の実施判断は環境要件に照らし合わせてご判断ください。

vsanmgmtdの再起動
vSAN 健全性サービス - HCL の健全性 - ハードウェア情報取得中のホストの問題 (2149290) (vmware.com)

hostdの再起動
ESXi の管理エージェントの再起動 (1003490) (vmware.com)

再起動順序は順不同でよいですが、vsanmgmtdはhostdに依存している(していた?)と記憶していますので、hostdが起動している状態でvsanmgmtdの再起動をするようにしてください。

上記で直らなかければ、vSAN Skyline healthで可用性の低下したオブジェクトがない(FTT0もない)ことを確認したうえで、no data migrationでMMにして再起動をしてみてください。

それでもMMにならなければ、私ならノード障害と割り切って該当ノードを再起動します。
※繰り返しになりますが、上記は私ならばどうするかという観点でのコメントです。実際の実施判断は環境要件に照らし合わせてご判断ください。

infra_7
Enthusiast
Enthusiast

ご返信いただきありがとうございます。

 


※ ちなみに昨年投稿いただいた以下の時の事象とは異なる、ということでよろしいですか?
念の為昨年の切り分けポイントもご確認をお願いします。


正直なところ、ここ1年弱はこの環境に手を付けられていない状態でして、
今度こそこの環境を何とかしようと、約1年ぶりに環境整備に取り掛かっているところです。

昨年の投稿でご回答いただいたように、1台目のノードは問題なく“アクセシビリティの確保”でMMに切り替えることができ、vCenterからも切断することができました。
ただ、その後2台目のノードについても同様に“アクセシビリティの確保”でMMに切り替えようとすると、
今回投稿させていただいたような、「一般的なvSANエラーが発生しました」というエラーが発生してしまっている。という状況です。

また、昨年は確認できていたvSANの“Skyline Health”の項目が、“監視”欄から無くなってしまった、という問題も発生しています。ちなみにvSANライセンスは『vSAN Enterprise』で2024/04/30まで有効な状態です。

infra_7_0-1711501178986.png

併せて利用中の vSphere のバージョン (vCenter / ESXi / vSAN それぞれ)も記載いただけると切り分けが進めやすいため確認をお願い致します。
  • vCenter:7.01
  • ESXi:7.03
  • vSAN:vSAN 7

各種バージョンは以上の通りです。

また、@nkaneda1 さんにも教えていただいたvsanmgmtdやhostdの再起動も実行しましたが、ダメでした。。。

 

0 Kudos