今日の戯言 by maa
基本的にただの独り言です。有益な情報を求めてはいけませんw
基本的にただの独り言です。有益な情報を求めてはいけませんw
今日は 10:00 から教養課程センターの会議だった。終わった頃には 13:00 を回っていた。いつもながら長い会議。お昼ごはんが遅くなった。午後から市役所にいかなくては...
マザーボード上の4つの SATA ポートの先頭2つ(ata1, ata2)に 1TB の HDD がそれぞれつながっていて、mdraid で raid1(ミラー)を構成しているのだが、先月のサーバー清掃点検後の再起動時に怪しげなエラーが出るようになった。ログは長いので、適当にいらない部分を省略している。
ata1, ata2 がそれぞれ 3 Gbps の転送速度でリンクアップされ、
ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300) ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) ata3: SATA link down (SStatus 0 SControl 300) ata4: SATA link down (SStatus 0 SControl 300)
それぞれに HDD(ST1000DM003-1CH162)が認識される。
ata1.00: ATA-8: ST1000DM003-1CH162, CC46, max UDMA/133 ata1.00: 1953525168 sectors, multi 16: LBA48 NCQ (depth 31/32), AA ata2.00: ATA-8: ST1000DM003-1CH162, CC46, max UDMA/133 ata2.00: 1953525168 sectors, multi 16: LBA48 NCQ (depth 31/32), AA ata1.00: configured for UDMA/133 ata2.00: configured for UDMA/133
ところがしばらくすると、ata2 の方が数回 interface fatal error だの BadCRC だの ATA bus error だののエラーを出しては、hard resetting link で 3Gbps で再リンクアップを繰り返す。
ata2.00: exception Emask 0x50 SAct 0x1 SErr 0x280900 action 0x6 frozen ata2.00: irq_stat 0x08000000, interface fatal error ata2: SError: { UnrecovData HostInt 10B8B BadCRC } ata2.00: failed command: READ FPDMA QUEUED ata2.00: cmd 60/08:00:f8:87:df/00:00:02:00:00/40 tag 0 ncq 4096 in res 40/00:00:f8:87:df/00:00:02:00:00/40 Emask 0x50 (ATA bus error) ata2.00: status: { DRDY } ata2: hard resetting link ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) ata2.00: configured for UDMA/133 ata2: EH complete ata2.00: exception Emask 0x50 SAct 0x1 SErr 0x280900 action 0x6 frozen ata2.00: irq_stat 0x08000000, interface fatal error ata2: SError: { UnrecovData HostInt 10B8B BadCRC } ata2.00: failed command: READ FPDMA QUEUED ata2.00: cmd 60/20:00:00:f0:ca/00:00:01:00:00/40 tag 0 ncq 16384 in res 40/00:00:00:f0:ca/00:00:01:00:00/40 Emask 0x50 (ATA bus error) ata2.00: status: { DRDY } ata2: hard resetting link ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) ata2.00: configured for UDMA/133 ata2: EH complete ata2.00: exception Emask 0x50 SAct 0x1 SErr 0x280900 action 0x6 frozen ata2.00: irq_stat 0x08000000, interface fatal error ata2: SError: { UnrecovData HostInt 10B8B BadCRC } ata2.00: failed command: READ FPDMA QUEUED ata2.00: cmd 60/a0:00:00:38:3a/00:00:01:00:00/40 tag 0 ncq 81920 in res 40/00:08:e0:7f:b0/00:00:02:00:00/40 Emask 0x50 (ATA bus error) ata2.00: status: { DRDY } ata2: hard resetting link ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) ata2.00: configured for UDMA/133 ata2: EH complete
なんどかハードリセットを繰り返した後、不安定だと判断されて 1.5Gbps に転送速度を制限してリンクアップされてしまう。raid1 は問題なく構成されている(/proc/mdstat)。
ata2: limiting SATA link speed to 1.5 Gbps ata2.00: exception Emask 0x50 SAct 0x1 SErr 0x280900 action 0x6 frozen ata2.00: irq_stat 0x08000000, interface fatal error ata2: SError: { UnrecovData HostInt 10B8B BadCRC } ata2.00: failed command: READ FPDMA QUEUED ata2.00: cmd 60/50:00:40:99:24/00:00:02:00:00/40 tag 0 ncq 40960 in res 40/00:00:40:99:24/00:00:02:00:00/40 Emask 0x50 (ATA bus error) ata2.00: status: { DRDY } ata2: hard resetting link ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata2.00: configured for UDMA/133 ata2: EH complete
SATA ケーブルに問題があるのかと思って、接点を確かめたり、2本を入れ替えたりしてみても必ず ata2 にエラーが出る。HDD の方に問題があるのかとも思い、2台を入れ替えて(RAID1 を構成しているので入れ替えてもOK)みても、やっぱり ata2 の方にエラーが出る。これってマザーボードに問題があると考えてよさそうだ。
そこで、マザーボード上の ata2 にはつながないで、ata1 と ata3 につないで立ち上げようとすると、HP の BIOS は賢いもので、「ata2 ポートを飛ばしてるぞ!」と警告が出て BIOS 画面で一時停止状態になる。これでは UPS による停電時の自動シャットダウン後、復電時の自動起動ができないではないか!でもとりあえず、このまま起動してみた。そうすると ata3 にエラーが出た... なんだこれは...
smartcontrol による HDD のセルフテストでは、2台とも問題はなかった。