今日の戯言(2023-08-17)

2023年08月17日蝉がうるさい日 [長年日記]

_ Debian 11 アップグレード

仕事も落ち着いたので、勢いでデータのバックアップだけ取ってアップグレードしました。とりあえずウェブサーバー(Apache)関係は動いている模様。あとメールサーバー（Exim）とファイルサーバー（Samba）はとり急いでチェックしないと。その他はおいおいで...

_ SMART エラー

このサーバーは 2TB の HDD 2台を使った RAID1（同じデータを複数の HDD に記録するミラー）で運用しているのだが、アップグレード後の動作チェックをしていたら、片方の HDD の SMART にエラーが出ていた...

This message was generated by the smartd daemon running on:

   host name:  maa
   DNS domain: u.icc.ac.jp

The following warning/error was logged by the smartd daemon:

Device: /dev/sdb [SAT], failed to read SMART Attribute Data

Device info:
WDC WD20EFRX-68EUZN0, S/N:WD-WCC4M6LV57DV, WWN:5-0014ee-2b987b2ce, FW:82.00A82, 2.00 TB

さらにそのせいで RAID デバイスにも致命的なエラーが出てリビルドが開始されていた...

This is an automatically generated mail message from mdadm
running on maa

A DegradedArray event had been detected on md device /dev/md/0.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sdb1[2] sda1[1]
      1953382400 blocks super 1.2 [2/1] [_U]
      [>....................]  recovery =  0.1% (2955648/1953382400)
finish=512.2min speed=63456K/sec
      bitmap: 5/15 pages [20KB], 65536KB chunk

unused devices: <none>

なんてこった、こんなタイミングで HDD の寿命が尽きようとしているなんて、取り急ぎ Amazon で同じものを探してポチったのだが、なんか研究室のどこかにありそうな気がして探してみると、古い PC の中から出てきた。急いで注文をキャンセルしてさっさと交換に取り掛かった。RAID デバイスの HDD を交換するのは確か2度目だろうか。

異常のある HDD を慎重に確かめて（正常な方を取り外したらシャレにならない）交換し、正常な HDD とまったく同じようにパーティションを切って、RAID デバイス（/dev/md0）に追加するとリビルドが始まった。完了には時間がかかるので、ここで研究室を閉めて帰宅した。

帰宅後、お風呂とご飯を済ませ、進捗状況を確認すると 21:40 の時点で 66.4%

md0 : active raid1 sdb1[2] sda1[1]
      1953382400 blocks super 1.2 [2/1] [_U]
      [=============>.......]  recovery = 66.4% (1297145664/1953382400) finish=107.5min speed=101644K/sec
      bitmap: 3/15 pages [12KB], 65536KB chunk

最後の仕上げのブートローダー（grub）の書き込みは明日の朝だな。

壊れかけの HDD