Plattensterben

Die „Chronik“ einer todkranken Samsung HD403LJ:

Noch fünf Monate

Der Wert für das S.M.A.R.T.-Attribut „Reported Uncorrect“ fällt schlagartig. Fallen heißt in diesem Fall, dass der Wert „schlechter“ wird, es also mehr Fehler gab. In den nächsten Monaten wird es stufenweise weiter bergab gehen.

S.M.A.R.T-Graph

Noch vier Monate

smartctl meldet bei einem S.M.A.R.T.-Selbsttest Lesefehler in einem der äußeren Sektoren und bricht den Test ab (siehe rote Linie; Attribut smartctl_exit_status im Diagramm). Von jetzt an wird smartctl immer einen Wert ungleich Null zurückliefern.

Noch drei Monate

Das S.M.A.R.T.-Attribut „Calibration Retry Count“ erreicht seinen Tiefststand. Die letzten Monate war der Wert kontinuierlich gefallen. Mehr notwendige Kalibrierungen deuten auf einen mechanischen Defekt hin.

Noch ein paar Tage

„TA Increase Count“ fällt schlagartig. Was genau dieses S.M.A.R.T.-Attribut (#202) anzeigt konnte mir der Samsung-Support nicht erklären.

Noch zwei Tage

Der Server ist teilweise sehr langsam und fällt durch hohe LoadAvg-Werte auf. Auch die I/O-Wait-Werte, die Munin aufzeichnet sind viel zu hoch:

CPU-Diagramm

Im (hier gekürzt dargestellten) Kernel-Log finden sich Einträge über hängende Prozesse. Die Backtraces lassen den Schluss zu, dass es sich um ein Problem mit der Festplatte handeln muss, denn es sind vor allem die Systemfunktionen read(), write() und fsync(), die Probleme bereiten:

kernel: INFO: task rsyslogd:26900 blocked for more than 120 seconds.
kernel: Call Trace:
kernel:  [<ffffffff8022adc9>] __wake_up+0x38/0x4f
kernel:  [<ffffffff8024ac3e>] getnstimeofday+0x39/0x98
kernel:  [<ffffffff802bacd1>] sync_buffer+0x0/0x3f
kernel:  [<ffffffff80428b97>] io_schedule+0x5c/0x9e
kernel:  [<ffffffff802bad0c>] sync_buffer+0x3b/0x3f
kernel:  [<ffffffff80428d0a>] __wait_on_bit_lock+0x36/0x66
kernel:  [<ffffffff802bacd1>] sync_buffer+0x0/0x3f
kernel:  [<ffffffff80428da6>] out_of_line_wait_on_bit_lock+0x6c/0x78
kernel:  [<ffffffff802461d7>] wake_bit_function+0x0/0x23
kernel:  [<ffffffff802bcf7f>] sync_dirty_buffer+0x33/0x9f
kernel:  [<ffffffffa004d450>] :jbd:journal_dirty_data+0xc3/0x184
kernel:  [<ffffffffa005dfbc>] :ext3:ext3_journal_dirty_data+0xf/0x34
kernel:  [<ffffffffa005d45a>] :ext3:walk_page_buffers+0x64/0x8a
kernel:  [<ffffffffa005dfad>] :ext3:ext3_journal_dirty_data+0x0/0x34
kernel:  [<ffffffffa005fb2d>] :ext3:ext3_ordered_write_end+0x73/0x110
kernel:  [<ffffffff80271e52>] generic_file_buffered_write+0x1c0/0x630
kernel:  [<ffffffff802b6c14>] __mark_inode_dirty+0x29/0x179
kernel:  [<ffffffff80272601>] __generic_file_aio_write_nolock+0x33f/0x3a9
kernel:  [<ffffffff80248665>] hrtimer_wakeup+0x0/0x21
kernel:  [<ffffffff8024f6a0>] futex_wait+0x228/0x394
kernel:  [<ffffffff802726cc>] generic_file_aio_write+0x61/0xc1
kernel:  [<ffffffffa005c256>] :ext3:ext3_file_write+0x16/0x94
kernel:  [<ffffffff8029ac1f>] do_sync_write+0xc9/0x10c
kernel:  [<ffffffff80248b86>] hrtimer_start+0x112/0x134
kernel:  [<ffffffff802461a9>] autoremove_wake_function+0x0/0x2e
kernel:  [<ffffffff804289af>] thread_return+0x6b/0xac
kernel:  [<ffffffff8029b3c9>] vfs_write+0xad/0x156
kernel:  [<ffffffff8029b96b>] sys_write+0x45/0x6e
kernel:  [<ffffffff8020beca>] system_call_after_swapgs+0x8a/0x8f

kernel: INFO: task sendmail-mta:5254 blocked for more than 120 seconds.
kernel: Call Trace:
kernel:  [<ffffffff802a45a1>] do_path_lookup+0x158/0x1cf
kernel:  [<ffffffff8042903d>] __mutex_lock_slowpath+0x64/0x9b
kernel:  [<ffffffff80428ea2>] mutex_lock+0xa/0xb
kernel:  [<ffffffff802a5298>] do_filp_open+0x11a/0x7c4
kernel:  [<ffffffff802994a8>] get_unused_fd_flags+0x71/0x115
kernel:  [<ffffffff80299592>] do_sys_open+0x46/0xc3
kernel:  [<ffffffff8020beca>] system_call_after_swapgs+0x8a/0x8f

kernel: INFO: task sendmail-mta:6129 blocked for more than 120 seconds.
kernel: Call Trace:
kernel:  [<ffffffff8029bfa4>] file_move+0x1d/0x48
kernel:  [<ffffffffa00505f4>] :jbd:log_wait_commit+0x9f/0xed
kernel:  [<ffffffff802461a9>] autoremove_wake_function+0x0/0x2e
kernel:  [<ffffffffa004c4f9>] :jbd:journal_stop+0x165/0x18d
kernel:  [<ffffffffa005c3ac>] :ext3:ext3_sync_file+0x68/0xb0
kernel:  [<ffffffff802b9316>] do_fsync+0x52/0xa4
kernel:  [<ffffffff802b938b>] __do_fsync+0x23/0x36
kernel:  [<ffffffff8020beca>] system_call_after_swapgs+0x8a/0x8f

kernel: INFO: task sendmail-mta:26966 blocked for more than 120 seconds.
kernel: Call Trace:
kernel:  [<ffffffff802a5555>] do_filp_open+0x3d7/0x7c4
kernel:  [<ffffffff802a69f4>] filldir+0x0/0xb7
kernel:  [<ffffffff80429131>] __mutex_lock_killable_slowpath+0xbd/0xd3
kernel:  [<ffffffff80221fac>] do_page_fault+0x5d8/0x9c8
kernel:  [<ffffffff802a6afa>] vfs_readdir+0x4f/0xa7
kernel:  [<ffffffff802a6d70>] sys_getdents+0x75/0xbd
kernel:  [<ffffffff8042a0a9>] error_exit+0x0/0x60
kernel:  [<ffffffff8020beca>] system_call_after_swapgs+0x8a/0x8f

Das Ende

Die Festplatte ist nicht mehr ansprechbar. smartctl kann ihr keine Lebenszeichen mehr entlocken und auch das Software-RAID hat sie als „failed“ markiert. Der Kernel meldet:

kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
kernel: ata1.00: cmd 25/00:08:be:49:7c/00:00:17:00:00/e0 tag 0 dma 4096 in
kernel:          res 40/00:00:02:4f:c2/24:00:00:00:00/00 Emask 0x4 (timeout)
kernel: ata1.00: status: { DRDY }
kernel: ata1: hard resetting link
kernel: ata1: link is slow to respond, please be patient (ready=0)
kernel: ata1: softreset failed (device not ready)
kernel: ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
kernel: ata1.00: qc timeout (cmd 0xec)
kernel: ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
kernel: ata1.00: revalidation failed (errno=-5)
kernel: ata1.00: disabled

kernel: ata1: exception Emask 0x40 SAct 0x0 SErr 0x800 action 0x6 frozen t4
kernel: ata1: SError: { HostInt }
kernel: ata1: hard resetting link
kernel: ata1: link is slow to respond, please be patient (ready=0)
kernel: ata1: softreset failed (device not ready)
kernel: ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
kernel: ata1: EH complete
kernel: sd 0:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
kernel: end_request: I/O error, dev sda, sector 394021310
kernel: __ratelimit: 2 messages suppressed
kernel: raid1: sda2: rescheduling sector 389812280
kernel: sd 0:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
kernel: end_request: I/O error, dev sda, sector 781417478
kernel: end_request: I/O error, dev sda, sector 781417478
kernel: md: super_written gets error=-5, uptodate=0
kernel: raid1: Disk failure on sda2, disabling device.
kernel: raid1: Operation continuing on 1 devices.

Von den ersten Anzeichen bis zum tatsächlichen Ausfall und dem damit verbundenen Datenverlust hat es also fast ein halbes Jahr gedauert.


#001d, erstellt: 2009-09-22, aktualisiert: 2009-10-04, src, meta
Start, Impressum, zurück: Die Stämme Mirror, vor: SQL im __destruct(or)