28/02/2016
Terastation SYSTEM Error E04
Can't Load Krnl!
年明けからトラブル対応が多いのですが、ちょっと事例になりそうなトラブル対応です。
Terastation TS-HTGLのHDDが一台壊れている件で、修理の対応でした。
RAID5構成の為、データの読み書きに問題はないものの、もう一台壊れるとデータロス。重要なデータなので、早めの対応が必要でした。
経験上もっと高いストレージのHDD交換は何度もあるのですがとても簡単!
Hot Swapなので、稼働したまま壊れたディスクを抜き、新しいディスクをいれれば勝手にリビルド!
しかし、多くの中小企業はTerastationのようなNASをつかっており、Hot Swapも未対応です。
いやな予感がしたので、すぐ作業はせず、念のためバックアップ環境を作成し、2週間かけてバックアップ。
小さなデータが多く、通常のバックアップではなく、Fastcopyをつかわないとものすごい時間がかかります。
バックアップも整い、いざHDD交換。
あっという間に作業は終了のはずが、
SYSTEM Error E04 Can't Load Krnl!
ディスクをマウントしないどころか、カーネルさえ起動せず・・・
調べるとこのエラーのトラブルはかなりあるそう。
RAID5は、RAIDボードの故障などで、RAID構成情報を失うと、高額出費覚悟で専門業者に依頼したほうが、速いし確実。今回は全データなくしても、バックアップから戻せるのですが、月曜の営業までに、土日徹夜でデータ復旧作業になるので、かなりブルーになりました。バックアップしてなかったら、めちゃくちゃあせったことでしょう。
カーネルが起動しないと手も足もでないので、再起動したり、とりあえず動いていた古いHDDにいれかえて、再起動の繰り返し。
その間に調査すると、TerastationはLinuxで動いているのは予想通りでしたが、OSはどうやらHDD上に展開されているもよう。ファームウェアといってもCMOS上にあるわけではないようです。
通常は壊れていなかった1つめのHDDからブートしそうなものですが、おそらく入れ替えたHDD(4つめでした。)上の新しいOS(メーカーズがいうファーム)ですべて上書きされたのか、エラーで起動しない状態に。
このへんはメーカー純正の高い修理用HDD を買ってるんですからこういうトラブルにならないようにしてほしいですね。
構造がなんとなくわかってきたところで、新しいファーム(とういうかOS)をインストールすれば復旧しそうですが、Emergency Modeにしないとファームウェアアップデートできないそう。
そして、エマージェンシーモードは、再起動をくりかえすと、そのうち入るらしいという、なんすかそれ?的仕様で、困りながらも再起動を繰り返すと、5回目ほどで、なんとなく立ち上がった感じに。
しかしHDDはマウントされてないし、ホスト名やIPも初期化されてるしで何だろうとおもうと、これがエマージェンシーモードらしい。どうやらHDDではなく、CMOSから起動したモードのような感じです。
IPがふられたのでこれでファームウェアアップが可能になりそう。ちなみにWebサービスは立ち上がってないようで、ブラウザからの操作は出来ませんでした。
PCのIPを合わせて、なんとなくNASを再起動すると、エマージェンシーモードのままなぜか正しいホスト名とIPに戻り、せっかくあわせたPCのIPをもどすハメに。まー好転してる感じてよかったです。
ファームウェアのアップデートというOSのアップロードを行えば、無傷のハズのデータ領域を再認識してくれる可能性は高く、徹夜したくない一心でファームウェアをダウンロードし、マニュアルをよんでいると、
『このアップデートはHDDを初期化するので、さきにバックアップをとっておくように』
と無慈悲な一言が・・・
バックアップはたしがに重要ですが、バックアップなしで今回のようなことになると、データが失われる可能性が大ということ。
これは、重要なデータの保存先として販売している同シリーズの設計思想を疑うような問題点です。
僕と同じように最新のファームでないTerastation(今回実は別業者が導入で僕はファームの管理をしてませんでした。)に修理用HDDを突っ込むと恐らく高い確率でエラーが再現されそうで、これは問題だと思います。
たしかに、LinuxやSambaが新しくなり最初に確保したOS用の管理領域が足りなくなる可能性は考えられますが、そうならないよう設計して欲しいものです。
ということで、徹夜をほぼ覚悟しながらファームウェアのアップデートを慣行。ほんとにバックアップとっておいてよかった。と思っていると、マニュアル通り全ディスクの初期化を聞いてきたのでやむなく実行。
初期化エラー。
??と思いながらも、OSの展開ははじまっているようで、されるがままに再起動。
無事ファームウェアアップデートは終了したようで、起動してくると、なんとデータ領域は無事認識され、きちんとマウントされました。
徹夜回避にほっとしながら、OSが新HDDを認識したことを確認し、手動リビルド開始となりました。
RAID HDD交換というHot Swapなら1分の作業が実に2時間のドキドキの作業。
バックアップも含めれば半月かかった作業でした。
同様のエラーで困る方のため、作業記録を残します。
教訓
重要なデータは高くても信頼のあるハードウェアRAID(Hot Swap)のサーバーを使った方がデータロスの可能性をおおきく下げます。
TerastationやLinkstationは安くてよいのですが、設計思想的にちょっと怖いなぁと。
TerastationやLinkstationは定期的なファームウェアのアップデートを奨励。特にHDD入れ替えた時は最新にしたほうがよいです。
当たり前ですが、バックアップは重要。でもなかなか出来ないんですよねぇ。
最後に不運にも同じようなトラブルでこの記録にたどり着いた方のデータが無事復旧することをお祈りいたします。
今後はTerastationの提案は二の足踏みそう。