今日の戯言 by maa

基本的にただの独り言です。有益な情報を求めてはいけませんw



2014年03月31日 自宅付近の桜が咲き出した日 [長年日記]

_ PC 悩ましい症状

マザーボード上の4つの SATA ポートの先頭2つ(ata1, ata2)に 1TB の HDD がそれぞれつながっていて、mdraid で raid1(ミラー)を構成しているのだが、先月のサーバー清掃点検後の再起動時に怪しげなエラーが出るようになった。ログは長いので、適当にいらない部分を省略している。

ata1, ata2 がそれぞれ 3 Gbps の転送速度でリンクアップされ、

ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata3: SATA link down (SStatus 0 SControl 300)
ata4: SATA link down (SStatus 0 SControl 300)

それぞれに HDD(ST1000DM003-1CH162)が認識される。

ata1.00: ATA-8: ST1000DM003-1CH162, CC46, max UDMA/133
ata1.00: 1953525168 sectors, multi 16: LBA48 NCQ (depth 31/32), AA
ata2.00: ATA-8: ST1000DM003-1CH162, CC46, max UDMA/133
ata2.00: 1953525168 sectors, multi 16: LBA48 NCQ (depth 31/32), AA
ata1.00: configured for UDMA/133
ata2.00: configured for UDMA/133

ところがしばらくすると、ata2 の方が数回 interface fatal error だの BadCRC だの ATA bus error だののエラーを出しては、hard resetting link で 3Gbps で再リンクアップを繰り返す。

ata2.00: exception Emask 0x50 SAct 0x1 SErr 0x280900 action 0x6 frozen
ata2.00: irq_stat 0x08000000, interface fatal error
ata2: SError: { UnrecovData HostInt 10B8B BadCRC }
ata2.00: failed command: READ FPDMA QUEUED
ata2.00: cmd 60/08:00:f8:87:df/00:00:02:00:00/40 tag 0 ncq 4096 in
         res 40/00:00:f8:87:df/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
ata2.00: status: { DRDY }
ata2: hard resetting link
ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata2.00: configured for UDMA/133
ata2: EH complete

ata2.00: exception Emask 0x50 SAct 0x1 SErr 0x280900 action 0x6 frozen
ata2.00: irq_stat 0x08000000, interface fatal error
ata2: SError: { UnrecovData HostInt 10B8B BadCRC }
ata2.00: failed command: READ FPDMA QUEUED
ata2.00: cmd 60/20:00:00:f0:ca/00:00:01:00:00/40 tag 0 ncq 16384 in
         res 40/00:00:00:f0:ca/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
ata2.00: status: { DRDY }
ata2: hard resetting link
ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata2.00: configured for UDMA/133
ata2: EH complete

ata2.00: exception Emask 0x50 SAct 0x1 SErr 0x280900 action 0x6 frozen
ata2.00: irq_stat 0x08000000, interface fatal error
ata2: SError: { UnrecovData HostInt 10B8B BadCRC }
ata2.00: failed command: READ FPDMA QUEUED
ata2.00: cmd 60/a0:00:00:38:3a/00:00:01:00:00/40 tag 0 ncq 81920 in
         res 40/00:08:e0:7f:b0/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
ata2.00: status: { DRDY }
ata2: hard resetting link
ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata2.00: configured for UDMA/133
ata2: EH complete

なんどかハードリセットを繰り返した後、不安定だと判断されて 1.5Gbps に転送速度を制限してリンクアップされてしまう。raid1 は問題なく構成されている(/proc/mdstat)。

ata2: limiting SATA link speed to 1.5 Gbps
ata2.00: exception Emask 0x50 SAct 0x1 SErr 0x280900 action 0x6 frozen
ata2.00: irq_stat 0x08000000, interface fatal error
ata2: SError: { UnrecovData HostInt 10B8B BadCRC }
ata2.00: failed command: READ FPDMA QUEUED
ata2.00: cmd 60/50:00:40:99:24/00:00:02:00:00/40 tag 0 ncq 40960 in
         res 40/00:00:40:99:24/00:00:02:00:00/40 Emask 0x50 (ATA bus error)
ata2.00: status: { DRDY }
ata2: hard resetting link
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2.00: configured for UDMA/133
ata2: EH complete

SATA ケーブルに問題があるのかと思って、接点を確かめたり、2本を入れ替えたりしてみても必ず ata2 にエラーが出る。HDD の方に問題があるのかとも思い、2台を入れ替えて(RAID1 を構成しているので入れ替えてもOK)みても、やっぱり ata2 の方にエラーが出る。これってマザーボードに問題があると考えてよさそうだ。

そこで、マザーボード上の ata2 にはつながないで、ata1 と ata3 につないで立ち上げようとすると、HP の BIOS は賢いもので、「ata2 ポートを飛ばしてるぞ!」と警告が出て BIOS 画面で一時停止状態になる。これでは UPS による停電時の自動シャットダウン後、復電時の自動起動ができないではないか!でもとりあえず、このまま起動してみた。そうすると ata3 にエラーが出た... なんだこれは...

smartcontrol による HDD のセルフテストでは、2台とも問題はなかった。

smartcontrol による self-test