サーバのトラブルについて

今回、サーバが落ちてしまった原因を色々考えてみた。ハード的には何も問題はなかった。問題はソフトのようだった。 思うに、トラブルが出たサーバはFedora13で運用していたのだった。本稼動に移行したのは昨年10月、まだ10 … “サーバのトラブルについて” の続きを読む

今回、サーバが落ちてしまった原因を色々考えてみた。ハード的には何も問題はなかった。問題はソフトのようだった。
思うに、トラブルが出たサーバはFedora13で運用していたのだった。本稼動に移行したのは昨年10月、まだ10ヶ月そこそこしか経っていなかった。なので、ハードはHDDも快調だった。ところが今年5月の頃だったか、いつものようにyumでアップデートしようとしたところ、うまく行かなかった。Fedora14がリリースされる頃だったので、おそらく新バージョンがリリースされるため、リポジトリが変更されたためだろうと考えていた。以前もこのようなことがあったので、そのままほっておいた。
しばらくすると、いつのまにかyumが可能となっていたので、問題は解決したと思った。そのまま、特に問題もなく稼動しつづけていた。問題が発生したのは、8月始めの頃だった。yumでいつもの通りアップデートしていたら、突然止まってしまった。しかもよく見ると、yumが使っている、phythonのアップデート時にどうもとまっているようだった。
それからがことの始まりで、またしばらくほっておくと治るだろうと思っていたが、数日して試したところ、yum自体が動かなくなっていた。エラーを見ると、phythonのライブラリのELFファイルのヘッダーがおかしいと出ている。アップデートするそのものが動かないので、ソフトウエアパッケージ管理機能自体が動かなくなっていた。phythonの再インストールも出来ない。果て困ったなと思っていたら、色々いじっていて、再起動させたところ、今度は再起動もできなくなった。問題がいろいろなところに波及してしまったのだろう。
起動しないので、バックアップサーバに切り替えて復旧作業を行うこととなった。切り替えたのは8月27日で、バックアップサーバで仮運用しながら、丁度作りかかっていた、省電力サーバに切り替えることとした。OSはFedora15にしたかったが、gnome3が動かず、どうもトラブルが出そうだったので、バックアップサーバーと同じFedora14にした。ブログ以外の部分は、28日には稼動を始めたが、ブログも引き続きすればバックアップはあるので、すぐにでも復旧させることは出来たのだが、ブログで使っている、nucleusがアップデートしていて、そのアップデート版では、バックアップからブログの復旧を行うと、文字化けトラブルが頻発しているとのことだった。
そこで、バックアップから一気に元に戻すのでなく、最新版をクリーンインストールし、そこに、データレベルから少しずつ復旧させていくことにした。PHPの設定や、旧マシンのHDDからデータの抜き出しなどをやって、やっと、8月分の書込みと、ブログ開始当初の書込みの一部の復旧にこぎつけた。
稼動中のサーバ

Atomのマザー

定常時の消費電力

大体27-28W。
今回、3.5インチHDDを使ったので、SSDにすればもう3W程度の節電は可能か。
しかし、SSDは容量がまだそんなに大きくなく、結構お高いので、ちょっと今回はパスした。
まあ、以前のサーバはハード的には問題なく動いていたとはいえ、Celeron430だったので、Core数は1つだった。今回AtomCPUは2Core4threadsで、OS側からはCPUは4つ見える。

OSの各機能サーバが、各4個のCPUに割り振られて実行されるので、レスポンスも向上したようだった。
不幸中の幸い、ということで、良しとしよう。
ブログの復旧はぼちぼちやるんで、予定では来年2月頃までかかる見通し。
今回の教訓
yumのアップデートは、yum update で行い、アップデートの内容をよく確認してからyを押す。
特にphython関連のアップデートがある場合は、慎重に行う。良ければ、LAN上のSSH端末やVNCからでなく、サーバ本体で行うと良い。