2014年5月18日日曜日

バックアップの落とし穴に嵌る (>_<);

金曜日は先週土曜日の振替休日をいただき、土日と繋げて連休をいただいております。ここでゴールデンウィーク中に頓挫したBlogをまとめて更新しようという魂胆でしたが、思わぬトラブルに真っ青です。大切な顕微鏡からの臨床動画が入ったハードディスクに、エラーの赤いサイン!!!


良く言われる事なのですが、ハードディスクのトラブルで今までのデーターがパーになってしまう、一般的ですよね。そんな事でデーターのバックアップやハードディスクの保守点検はとても大切です。

しかし私たちのように何GBにもなるファイルが数千本となると、通常考えられるバックアップソフトや設備とはちょっとやり方が変わります。

基本的にハードディスクは消耗品で壊れてあたりまえ…そこで私もRaidと言って同じデーターを複数のハードディスクに同時に書き込み、一つ壊れてももう一つあるから大丈夫…ってシステムで稼働させています。

ところが金曜の夕方にシステム内の4台あるハードディスクのうち、ペアになっている2台にエラーマークが同時点灯。2台同時に破損、そんなバカな!?


Raidシステムには、同じメーカーの、ほぼ同時期に製造されたハードディスクが複数入っています。同じ稼働時間ですから、同じ時期に壊れても不思議ではありません。しかし完全に同時に壊れるような事は確率的にちょっと考えられません。

私はハードディスク4台をRaid 10 という規格で組んでいるのですが、データーを見ると約半分のデーターはアイコンは見えるものの読み込みができません。復旧ソフトを動かしましたが、問題は全く検出されません。

とりあえず読めるデーターだけ選んでコピーをとり(これだけで丸一日かかるほど大容量…)、メーカーサポートに持ち込みました。

サポートでは「全く同時に2台が壊れる事は考えられないので、基板に問題がある可能性が高い」と言われ、なるほどと思いちょっと安心して検証に預けました。

暫くして結果の電話があり「基板に問題はなく、新しいハードディスクをセットしたら正常に稼働した」との事、これは完全にアウトか!?

ところが「ファームウェアが旧かったので、新しいものにバージョンアップしておいた」「確かに2台のエラーが出ていたが、1台だけになる時もあった」との事。これは望みがあるかもしれない。

重たい本体を持ち帰り(本当に重い!)、再度接続すると、確かにエラーは1台だけ。ならばもう1台に記録されているデータは読めるかもしれないゾ!



というわけで、データーは先ほど吸い出しが完了し、今までの蓄積が消える事は免れる事ができました。やれやれ…

**

ハードディスクが壊れる日が来る事は想定していましたが、基板の不具合など考えてもいませんでした。メーカーに基板の在庫が無ければ複雑なRaidを組んだ場合の復旧は難しくなります。

実際は基板の物理的な問題ではなく、不完全な旧いファームウェアのせいで1台の破損が2台と誤認され、データーまで読み出せなくなっていたわけです。

こんな事もあるのかと呆れてしまいましたが、やはり機械は人間が造ったものですから同じく不完全なもの。今後はクラウドも含めて改めてデーター保全の方法を検討しなくてはならないと反省させられました。休みはおかげさまでまたパーになってしまいましたが、データーがパーにならなかっただけ、本当に良かった…

しかし、これだけ大規模なデーターは本当に活躍しているのかというと、、、せっかくの救出されたデーター、もっと活かさねばなりませぬ。。。