その過去事例では、BroadcomのNIC管理用アプリをアンインストールした事で問題が解消されたとの話でした。そこで障害対応としては、まずNICのTeamingを解除してCluster作成を試し、それがダメならBroadcomの管理用アプリを削除して再トライって感じで段階的に実施する事にしました。
早速「Broadcom Advanced Control Suite 2(BACS2)」の画面を表示してNICのTeamを削除しましたが状況変わらず。仕方ないのでBACS2を削除してサーバを再起動。Teamを削除した事で仮想NICが消えてしまっているので、物理NICに改めてIPを振り直してClusterWizardを実行したところ、分析で成功キタワァ*゠゜゚゠*:.。..。.:*゠゜(n‘∀‘)η゚゠*:.。. .。.:*゠゜ ...
その後は特に問題も無くCluster作成とノードの追加が完了しました。
何だか分りませんけど、結局BACS2がインストールされた事でWMIのクエリ参照などに不具合が出ていたってことなんでしょう。後は2号機で同じ対応をしてClusterのノードに追加すれば終わりです。
・2号機を起動してBACS2の削除&サーバ再起動。
・1号機側でClusterアドミニストレータを起動してノードの追加Wizard起動。
・ノードの追加Wizardで分析開始。
・2号機の分析で同じエラー。
うそーん(つд`)
BACS2削除してんのに全く同じエラー出てますやん。同じサーバなのにどうしてこうなるんだぜ?
あぁーーーーーーーもうすんげぇイライラする!こんなサプライズ頼んでねぇっつの!!
思いつく限りあれこれ試しても全く変化無し。もうどうでも良くなりかけましたが、「押してもダメなら引いてみな」の格言を思い出しBACS2を再インストールしてみたところ、何事も無く分析フェーズを通過しました。
いやね、問題は解決したわけですけど、なんつーか先に進めた喜びよりも釈然としない気持ちの方が強くて素直に喜べないっつーか。何なのこの動き(;´Д`)。
ここから先は推測になりますけど、今回の問題って実はBroadcomのBACS2はあんまり関係無かったんじゃないでしょうか。たまたまこのアプリのインストールやアンインストールがトリガーになってWMIのおかしな動きがリセットされているだけで、実は他に原因があるんじゃないかと。
今回問題の起きていたサーバはIBMのxSeriesで、IBMサーバ専用の管理ツールであるIBM Directorが導入済みでした。で、ClusterWizardで失敗している間、ずっとイベントビューアのアプリケーションログにWMIとIBM Directorに関するエラーが記録されていて、正常な状態ではこのエラーもぱったり止まっていたんです。
だからどっちかっていうとIBM Directorが犯人なんじゃないかと私は疑っています。この辺はIBMに投げてみる手もあるんですけど、IBMサーバをホスティングして私らにチャージしてるのは彼らですし、彼らが調査すべき案件でしょう。
なのでここまでの経緯を不慣れな英語で綴ってメールしておきました。
あーもうほんと疲れるんですけど。
