Современные жесткие диски довольно “умные” устройства и, кроме основных присущих им как устройствам хранения и обработки данных свойств, поддерживают технологию самотестирования, анализа состояния, и накопления статистических данных об ухудшении собственных характеристик S.M.A.R.T. (S elf-M onitoring A nalysis a nd R eporting T echnology). Основы S.M.A.R.T. были разработаны в 1995 г. совместными усилиями ведущих производителями жестких дисков (HDD). В последующие годы стандарты S.M.A.R.T дорабатывались в соответствии с изменениями технологий и оборудования (SMART II и SMART III) и продолжают совершенствоваться в настоящее время.
    Жесткий диск, начиная с момента его изготовления, постоянно отслеживает определенные параметры своего состояния и отражает их в специальных характеристиках - атрибутах (Attribute), сохраняющихся в постоянном запоминающем устройстве, как правило, в специально выделенной части дисковой поверхности, доступной только внутренней микропрограмме накопителя - служебной зоне . Данные атрибутов могут быть считаны, в соответствии со спецификацией ATA (AT A ttachment) по командам поддержки SMART (SMART READ DATA и еще более десятка команд), которые передаются в накопитель специальным программным обеспечением, как например, утилитами от производителей оборудования или универсальными программами тестирования и мониторинга состояния HDD (udisks, smartctl, GSmartControl, gnome-disks и т.п.). Современные стандарты ATA включают в себя поддержку протокола SCT (SMART Command Transport), обеспечивающего считывание журналов статистики устройства. Журнал статистики устройства - это доступный только для чтения журнал SMART, передаваемый накопителем при получении команд READ LOG EXT, READ LOG DMA EXT или SMART READ LOG.
    Атрибут представляет собой характеристику определенного состояния жесткого диска, которая изменяется в процессе эксплуатации, принимая числовое значение от максимального, установленного в момент изготовления данного устройства, до минимального, при достижении которого, работоспособность накопителя не гарантируется. Все атрибуты идентифицируются своим цифровым номером, большинство из которых одинаково интерпретируется жесткими дисками разных моделей. Некоторые из них могут использоваться только конкретным производителем оборудования, и поддерживаться отдельными моделями накопителей. Так, например, атрибут с идентификатором 7 , характеризующий количество ошибок установки головок на требуемую дорожку поверхности дискаSeek_Error_Rate не имеет смысла для твердотельных дисков (SSD) и, соответственно, не поддерживается ими, а атрибут с идентификатором 9 ,характеризующий суммарное время работы накопителя за весь срок эксплуатации и обозначаемый как Power_On_Hours ,поддерживается как SSD, так и традиционными HDD.
    Атрибуты состоят из нескольких полей, (наиболее часто обозначаемых как Val, Worst, Tresh, RAW ), каждое из которых является определенным показателем, характеризующим техническое состояние накопителя на данный момент времени. Программы считывания S.M.A.R.T. выводят содержимое атрибутов, как правило, в виде нескольких колонок:
Pre-Failure (PF, 01h)
- при достижении порогового значения данного типа атрибутов диск требует замены. Иногда данный бит флагов обозначают как Life Critical (CR)
или Pre-Failure warranty (PW)
O
nline test (OC, 02h)– атрибут обновляет значение при выполнении off-line/on-line встроенных
тестов SMART;
P
erfomance R
elated (PE или PR , 04h)– атрибут характеризует производительность;
E
rror R
ate (ER , 08h)– атрибут отражает счетчики ошибок оборудования;
E
vent C
ounts (EC, 10h) – атрибут представляет собой счетчик событий;
S
elf P
reserving (SP, 20h) – самосохраняющися атрибут;
Некоторые из программ могут интерпретировать флаги в виде текстовых описаний, близких по смыслу к рассмотренным выше. Один атрибут может иметь несколько установленных в единицу значений флагов,
например, атрибут с идентификатором 05
отражающий количество переназначенных из-за сбоев секторов из резервной области, имеет установленные флаги SP+EC+OC – самосохраняющийся,
счетчик событий, обновляется при автономном и интерактивном режиме накопителя.
    Для анализа состояния накопителя, пожалуй самым важным значением атрибута является Value - условное число (обычно от 0 до 100 или до 253), заданное производителем. Значение Value изначально установлено на максимум при производстве накопителя и уменьшается в случае ухудшения его параметров. Для каждого атрибута существует пороговое значение, при достижения которого, производитель не гарантирует его работоспособность - поле Threshold . Если значение Value приближается или становится меньше значения Threshold , - накопитель пора менять.
Перечень атрибутов и их значения жестко не стандартизированы и некоторые из них могут определяться изготовителем накопителя, но основная часть интерпретируются одинаково. Например, атрибут с идентификатором 05 (Reallocated sector count ) будет характеризовать число забракованных и переназначенных из резервной области секторов диска, как для устройств производства компании Seagate Technology, так и для устройств производства Western Digital . Набор поддерживаемых атрибутов зависит от модели накопителя и может значительно отличаться по составу для разных моделей.
    Наиболее распространенным программным средством для получения данных S.M.A.R.T в среде Linux, является утилита smartctl из комплекта smartmontools , как правило, входящего в состав устанавливаемого по умолчанию программного обеспечения любого дистрибутива. При необходимости, обновить версию, а также скачать документацию на английском языке можно на сайте проекта smartmontools.org .
Для работы с утилитой smartctl требуются права суперпользователя root .
Формат командной строки smartctl :
smartctl параметры устройство
Примеры использования smartctl
smartctl –help или smartctl --usage - отобразить подсказку об использовании команды.
Параметры smartctl :
-V, --version, --copyright, --license - отобразить версию, информацию копирайта и лицензии.
-i, --info - отобразить идентификационную информацию для устройства.
-g NAME, --get=NAME - отобразить параметры настроек диска (all, aam, apm, lookahead, security, wcache, rcache, wcreorder)
-a, --all - отобразить все данные SMART указанного диска.
-x, --xall - отобразить все технические данные для указанного диска.
--scan - выполнить поиск дисковых устройств.
-q TYPE, --quietmode=TYPE установить режим детализации вывода для smartctl (errorsonly, silent, noserial)
-d TYPE, --device=TYPE - установить тип устройства (ata, scsi, sat[,auto][,N][+TYPE], usbcypress[,X], usbjmicron[,p][,x][,N], usbsunplus, marvell, areca,N/E, 3ware,N, hpt,L/M/N, megaraid,N, cciss,N, auto, test) Обычно установка типа устройства требуется в тех случаях, когда утилита smartctl не может определить его автоматически.
-b TYPE, --badsum=TYPE - задать реакцию на обнаружение ошибок контрольных сумм (warn, exit, ignore)
-r TYPE, --report=TYPE - опция предназначена для разработчиков smartmontools и позволяет получить детализированную информацию при выполнении транзакций функции управления устройствами ввода/вывода ioctl (ioctl, ataioctl, scsiioctl и уровень отладки). Подробности - man smartctl
-n MODE, --nocheck=MODE - режим запрета на выполнение тестов для режимов энергосбережения (never, sleep, standby, idle). Обычно используется для предотвращения запуска шпиндельного двигателя по команде smartctl.
-s VALUE, --smart=VALUE - отключение или включение SMART (on/off)
-o VALUE, --offlineauto=VALUE - запрет или разрешение автоматического выполнения тестов в неинтерактивном режиме (в режиме простоя накопителя), принимаемые значения - on/off
-S VALUE, --saveauto=VALUE автосохранение атрибутов (on/off)
-s NAME[,VALUE], --set=NAME[,VALUE] - запрет/разрешение параметров оборудования накопителя (aam,, apm,, lookahead,, security-freeze, standby,, wcache,, rcache,, wcreorder,)
-H, --health - отобразить состояние накопителя (SMART health status)
-c, --capabilities - отобразить информацию о поддерживаемых возможностях SMART указанного жесткого диска.
-A, --attributes - отобразить атрибуты SMART
-f FORMAT, --format=FORMAT
- задать формат отображаемых атрибутов SMART (old, brief, hex[,id|val]). В основном, влияет на формат отображаемых значений идентификаторов атрибутов и формат отображения их флагов:
old
- идентификаторы атрибутов выводятся в десятичной системе счисления, значения флагов отображаются в шестнадцатеричной и интерпретируются в виде текста.
hex
- то же, что и в предыдущем случае, но идентификаторы атрибутов отображаются в шестнадцатеричной системе счисления.
brief
- компактный вывод, идентификаторы отображаются в десятичной системе счисления, флаги отображаются в виде символов с расшифровкой в нижней части таблицы:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-- 114 100 006 - 78309029
. . . . . .
254 Free_Fall_Sensor -O--CK 100 100 000 - 0
||||||_ K auto-keep
|||||__ C event count
||||___ R error rate
|||____ S speed/performance
||_____ O updated online
|______ P prefailure warning
-l TYPE, --log=TYPE - отобразить указанный журнал устройства (selftest, selective, directory[,g|s], xerror[,N][,error], xselftest[,N][,selftest],background, sasphy[,reset], sataphy[,reset], scttemp, scttempint,N[,p], scterc[,N,M], devstat[,N], ssd, gplog,N[,RANGE], smartlog,N[,RANGE]
-v N,OPTION , --vendorattribute=N,OPTION - установить параметр для определенного производителем атрибута с идентификатором N
-F TYPE, --firmwarebug=TYPE - адаптация программы для учета ошибок в аппаратной прошивке накопителя (none, nologdir, samsung, samsung2, samsung3, xerrorlba, swapid)
-P TYPE, --presets=TYPE - предустановки параметров диска. По умолчанию, обнаружив информацию о накопителе в своей базе, утилита smartctl , использует набор параметров, доступный для данной модели. Опция use - использовать предустановки для данного накопителя, ignore - не использовать, show - отобразить предустановки для данного диска, showall - отобразить предустановки для указанной модели. Примеры:
smartctl –P ignore /dev/hdb
- игнорировать предустановки для диска /dev/hdb;
smartctl –P show /dev/sdb
- отобразить предустановки для указанного диска;
smartctl –P showall ‘ST9250315AS’
- - отобразить предустановки для указанной модели
диска - ST9250315AS;
smartctl –P showall ‘ST3750515AS’ ‘SD15’
- отобразить предустановки для указанной
модели диска ST3750515AS с прошивкой SD15;
-B [+]FILE, --drivedb=[+]FILE - прочитать и изменить базу данных моделей дисков из файла FILE. Знак “+” перед именем файла, означает добавление новых записей в базу, перед уже существующими.
По умолчанию, база данных хранится в файле /usr/share/smartmontools/drivedb.h
DEVICE SELF-TEST OPTIONS =====
-t TEST, --test=TEST - запустить выполнение теста TEST Run test. TEST: offline, short, long, conveyance, force, vendor,N, select,M-N, pending,N, afterselect,
-C, --captive - выполнение тестов в режиме захвата накопителя. Используется совместно с параметром -t для тестов не в режиме offline . Использование данного параметра может вызвать занятость устройства на все время выполнения теста и привести к нарушению работы системы и потере данных. Не стоит использовать опцию -c для выполнения тестов накопителей с монтированными разделами. Для SCSI устройств данная опция означает выполнение встроенных тестов в режиме "Foreground mode" .
-X, --abort - принудительно завершить тест, выполняющийся без ключа --captive .
Примеры использования smartctrl.
smartctl --info /dev/sdb - отобразить идентификационную информацию для устройства /dev/sdb. Пример вывода команды:
=== START OF INFORMATION SECTION === Device Model: ST9500620NS Serial Number: 9XF0AW8T Firmware Version: SN01 User Capacity: 500,107,862,016 bytes Device is: Not in smartctl database ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Tue Oct 28 15:05:31 2014 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled
smartctl --all /dev/hdа - отобразить все данные SMART для устройства /dev/hda
Пример отображаемых данных:
=== START OF INFORMATION SECTION === Device Model: ST9500620NS Serial Number: 9XF0AW8T Firmware Version: SN01 User Capacity: 500,107,862,016 bytes Device is: Not in smartctl database ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Tue Oct 28 15:05:45 2014 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: (0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (634) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: (1) minutes. Extended self-test routine recommended polling time: (102) minutes. Conveyance self-test routine recommended polling time: (2) minutes. SCT capabilities: (0x10bd) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 082 064 044 Pre-fail Always - 190274202 3 Spin_Up_Time 0x0003 096 096 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 72 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 070 060 030 Pre-fail Always - 11302732 9 Power_On_Hours 0x0032 073 073 000 Old_age Always - 24037 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 72 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 081 048 045 Old_age Always - 19 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 38 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 73 194 Temperature_Celsius 0x0022 019 052 000 Old_age Always - 19 (0 14 0 0) 195 Hardware_ECC_Recovered 0x001a 118 100 000 Old_age Always - 190274202 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.
smartctl -A -v 9,minutes /dev/hda - отобразить все данные атрибутов SMART для устройства /dev/hda и атрибут с идентификатором 9 (время нахождения во включенном состоянии) интерпретировать как внутреннее значение, задаваемое в минутах, а не в часах.
smartctl --smart=on --offlineauto=on --saveauto=on /dev/hda - включить SMART для диска /dev/hda, разрешить автоматическое выполнение оффлайн-тестов и самосохранение атрибутов. Команду можно выполнять на работающей системе. Фактически, это установка стандартных параметров эксплуатации для обычного дискового накопителя.
smartctl --test=long /dev/hda
- выполнить расширенные встроенные тесты для диска /dev/hda.Команду можно использовать на работающей системе. Для просмотра результатов выполнения тестов используется команда вывода внутреннего журнала после завершения теста
smartctl -l selftest /dev/hda
smartctl --attributes --log=selftest --quietmode=errorsonly /dev/had - отобразить данные внутреннего журнала самотестирования и атрибуты ошибок.
smartctl -s on -t offline /dev/hdc - включить SMART и выполнить оффлайн-тест для диска /dev/hdc. Если при тестировании будет обнаружена ошибка, то информация по ней будет записана во внутренний журнал, просмотреть который можно с использованием параметра -l error .
smartctl -q silent -a /dev/had - проверить данные SMART без вывода полученной информации.Обычно используется в скриптах. После выполнения команды проверяется код возврата (переменная $? командной оболочки)для определения факта выхода значения какого – либо атрибута за предельную величину или наличия записи об ошибках в журналах устройства.
smartctl -q errorsonly -H -l selftest /dev/had - выводить информацию только при наличии ошибочного состояния SMART или если какой-либо из внутренних тестов завершился с ошибкой.
smartctl -t select,10-100 -t select,30-300 -t afterselect,on -t pending,45 /dev/hda - выполнить внутренний тест в заданной области блоков LBA и после его завершения сканировать оставшуюся часть диска. Если при сканировании будет выполнено выключение питания, то продолжить его через 45 минут после включения.
smartctl --all --device=3ware,0 /dev/sda - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware.
smartctl -a -d 3ware,0 /dev/twe0 - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware RAID 6000/7000/8000.
smartctl -a -d 3ware,0 /dev/twa0 - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware RAID 9000
smartctl -t short -d 3ware,3 /dev/sdb - запустить выполнение коротких внутренних тестов для 4-го диска, второго дискового SCSI устройства /dev/sdb
smartctl -a -d hpt,1/3 /dev/sda - получить данные SMART диска, подключенного к 3-му каналу первого контроллера HighPoint RocketRAID
Расшифровка атрибутов S.M.A.R.T
Идентификаторы атрибутов указаны в десятичной системе счисления, а в скобках они же – в шестнадцатеричной.
Оценка технического состояния жесткого диска по данным S.M.A.R.T
Набор атрибутов поддерживаемых конкретной моделью жесткого диска, даже если он минимален, позволяет с высокой достоверностью определить техническое состояние и перспективы эксплуатации устройства. Можно определить время нахождения во включенном состоянии по значению атрибута 9 , а в совокупности со значением атрибута 12 - количество включений /выключений электропитания, и следовательно, – круглосуточный или периодический режим эксплуатации. Интенсивность использования, температурный режим, негативные внешние воздействия – все эти факты легко отслеживаются по абсолютным значениям соответствующих атрибутов. Подобным же образом, можно оценить и уровень износа оборудования, качество поверхности и тракта записи/чтения.
Минимально информативный контроль состояния дисков может выполняться даже на уровне BIOS. В случае достижения критического значения любого атрибута, характеризующего работоспособность, при включенном мониторинге состояния S.M.A.R.T в настройках BIOS, загрузка операционной системы приостанавливается и на экран выводится сообщение:
Primary Master Hard Disk: S.M.A.R.T status BAD!, Backup and Replace.
Press F1 to Resume
Таким образом, без установки или запуска дополнительного программного обеспечения, имеется возможность вовремя определить факт критического состояния накопителя средствами Базовой Системы Ввода-Вывода (BIOS) при включении компьютера.
Техническое состояние жесткого диска, не достигшее критического порога, характеризуется абсолютным значением атрибутов, отражающих счетчики сбоев, обнаруженных и исправленных оборудованием накопителя.
Изменение абсолютных значений атрибутов нужно рассматривать в динамике, и в логической взаимосвязи друг с другом.
Выполнение встроенных тестов S.M.A.R.T
Набор встроенных тестов S.M.A.R.T определяется производителем и может значительно отличаться для разных моделей жестких дисков. В основном, встроенные тесты SMART представлены короткими тестами (short self-test) и длинными (extended sels-test). Короткие тесты выполняют сканирование небольшой части дисковой поверхности, определенной производителем, и выполняются, в среднем, около 1 минуты. Длинные тесты выполняют сканирование всей рабочей поверхности диска и могут выполняться, в зависимости от быстродействия и объема диска, даже несколько часов. Также, для современных дисков, можно выполнять селективные тесты (selective self-test), параметры которых задаются пользователем и тесты после транспортировки устройства (conveyance self-test). Выполнение тестов можно прервать, если не задан режим захвата накопителя (captive) и накопитель поддерживает команду отмены теста. Что касается режима захвата накопителя при выполнении тестов captive , то пользоваться им нужно осторожно, если диск используется системой.
Примеры:
smartctl --test=short /dev/sdb - запустить короткий тест. В ответ на команду, будет выведена информация:
=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Short self-test routine immediately in off-line mode". Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful. Testing has begun (previous test aborted). Please wait 1 minutes for test to complete. Test will complete after Fri Dec 5 16:08:09 2014 Use smartctl -X to abort test.
Что означает, что диску отправлена команда на выполнение короткого теста, диск ее воспринял успешно, тест будет продолжаться 1 минуту, и для принудительного его прекращения можно воспользоваться командой smartctl –X.
Результат выполнения теста можно проверить, просмотрев журнал тестов командой smartctl –l selftest . В ответ будет получена информация журнала selftest :
=== START OF READ SMART DATA SECTION === SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 831 -
Колонки журнала:
Num
- номер записи.
Test_Description
- описание теста.
Status
- статус завершения (выполнен без ошибок)
Remaining
- процент оставшегося времени до завершения теста, если он еще не завершен (00%)
LifeTime(hours)
- время работы накопителя с начала эксплуатации.
LBA_of_first_error
- номер логического блока LBA где обнаружена первая ошибка при выполнении теста. В данном примере, ошибок нет.
Для запуска длинного теста используется команда:
smartctl --test=long /dev/sdb
В ответ на команду выводится информация о начале теста:
=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Extended self-test routine immediately in off-line mode". Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful. Testing has begun. Please wait 70 minutes for test to complete. Test will complete after Fri Dec 5 17:15:44 2014
Как видно, длинный тест для данной модели накопителя будет выполняться 70 минут.
Результат выполнения можно проверить командой smartctl –l selftest /dev/sda
Список команд ATA для работы с S.M.A.R.T
SMART_READ_VALUES 0xd0 SMART_READ_THRESHOLDS 0xd1 SMART_AUTOSAVE 0xd2 SMART_SAVE 0xd3 SMART_IMMEDIATE_OFFLINE 0xd4 SMART_READ_LOG_SECTOR 0xd5 SMART_WRITE_LOG_SECTOR 0xd6 SMART_ENABLE 0xd8 SMART_DISABLE 0xd9 SMART_STATUS 0xda SMART_AUTO_OFFLINE 0xdb
Дополнительно по теме оборудования в Linux:
Жесткий диск - сложное электронно-механическое устройство, имеющее свою технологию самодиагностики, которая может предсказать о скором выходе из строя вашего жесткого диска. Что обычно является очень грустным событием...
Технология S.M.A.R.T. (англ. S elf M onitoring A nalysing and R eporting T echnology ) - технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя.
Мы не будем рассматривать данную технологию во всех подробностях, т.к. это слишком широкий вопрос и у каждого из производителей накопителей своё видение и количество отслеживаемых параметров. Рассмотрим наиболее важные с практической точки зрения.
Для этого нам потребуется программа для просмотра отслеживаемых параметров.
В ней на вкладке "Хранение данных->SMART" выбираем жёсткий диск и в окне показываются отслеживаемые параметры:
01 Raw Read Error Rate - количество ошибок при чтении. У современных дисков очень большая плотность хранения данных, поэтому с ошибками они считывают данные постоянно, а информация восстанавливается за счёт кода коррекции ошибок ECC. Именно эти ошибки и считает этот параметр. В жёстких дисках фирмы Seagate эти некритичные ошибки показываются, остальные производители предпочитают об этом скромно умалчивать. Для дисков Seagate можно считать очень хорошим состояние когда параметры Raw Read Error Rate и Hardware ECC Recovered равны. Это значит что сколько было ошибок столько и было исправлено с помощью кода коррекции. Если же эти значения не равны то всё же не стоит бояться. Это не критичный параметр и диск может прожить ещё годы без каких либо проблем.
03 Spinup Time - время раскрутки диска до рабочего состояния. Беспокоиться стоит только если значение меньше половины от начального. Но тут ещё есть несколько нюансов, таких как сколько пластин в жестком диске. Максимум в настоящее время это 5 пластин (Hitachi), разумеется для раскрутки такого пакета дисков понадобится времени больше чем для 1-ой пластины. Силу инерции никто не отменял.
04 Start/Stop Count - общее количество стартов/остановок шпинделя. Для Seagate количество остановок шпинделя при переходе в режим энергосбережения.
05 Reallocated Sector Count - число переназначенных секторов. То есть когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным», и переносит данные в специально отведённую резервную область. Вообще это страшный параметр, если значение его равно более 10 то это как минимум значит что пора вроверять всю поверхность диска чтобы понять будет ли этот процесс продолжаться. Судя по практике переназначенными секторами страдают ноутбучные диски гдето через год использования. Потому как они работают в очень жестких условиях. Я не говорю об ударах - большинство от этого более-менее защищены. Причина - температура. Корпус ноутбука обычно плохо продувается и диск перегревается, затем мы выключаем ноутбук и идём куда? Ну правильно, на улицу! А там -10 по цельсию. Вот как раз скорость нагрева-остывания и разрушает нежный магнитный слой на пластинах диска. По спецификациям всех производителей дисков так называемый "временной градиент температур", то есть скорость изменения температуры должна быть не более 20 град/час - в рабочем состоянии и не более 30 град/час в выключенном. Это правило нарушается всегда, но для ноутбуков особенно часто и жестоко.
09 Power-on Time Count (Power-on Hours) - количество времени проведённого во включённом состоянии. Обычно у современных дисков измеряется в часах (у Fujitsu в секундах). У старых дисков Maxtor, не у тех которые сейчас выпускаются Seagate под этой маркой, а у оригинальных Maxtor время изменяется в минутах. Это весьма полезный параметр если вы покупаете старый диск, то хочется же знать сколько он в своей жизни отработал. А кроме того обычно это время совпадает с временем работы компьютера и можно определить сколько человек проводит за компьютером в среднем. Как показывает практика и мой опрос на одном из крупных форумов посвящённых компьютерному железу диски с временем наработки более 20000 часов (примерно 2.5 года постоянной работы) уже имеют какие то дефекты, например те же "переназначенные" секторы и не так уж далеки от старческой смерти. Из тех же спецификаций производителей можно узнать что диски предназначенные для настольных компьютеров не предназначены для круглосуточной работы, а рассчитаны на работу в режиме 8/5, то есть 8 часов 5 дней в неделю. Это получается около 2400 часов в год. И получается что гарантия рассчитана для 3-х лет - 7200 часов, для 5 лет - 12000 часов. Не так то уж и много, учитывая что в году 8760 часов.
0A Spinup Retry Count - Число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то вероятнее всего повреждение механической части/подшипников. Встречается очень редко, современные диски делают с гидродинамическими подшипниками и в случае неисправности такого подшипника он заклинивает сразу и намертво или работает долго и счастливо. Не так давно этим сильно страдали диски Toshiba и в меньшей степени Western Digital. Заклинивание происходит от перегрева.
0С Power Cycle Count - число циклов включения/выключения диска.
С2 Temperature - температура диска. К сожалению датчики температуры стоят у дисков разных производителей в разных местах, поэтому бывают и завышения и занижения реальной температуры. Но в среднем как показало недавнее исследование Google оптимальная рабочая температура находится в пределах от 35 до 45 градусов. Выше 50 градусов эксплуатация крайне не рекомендуется, но такую температуру и даже выше часто можно увидеть в ноутбуках.
Число секторов, являющихся кандидатами на замену. Они не были ещё определены как плохие, но считывание с них отличается от чтения стабильного сектора, это так называемые подозрительные или нестабильные сектора. В случае успешного последующего прочтения сектора он исключается из числа кандидатов. В случае повторных ошибочных чтений накопитель пытается восстановить его и выполняет операцию переназначения. Значение не равное нулю встречается обычно если на диске уже есть переназначенные сектора. Если это так, то с высокой вероятностью можно сказать что диск активно "сыпется", то есть разрушается магнитный слой пластин жесткого диска.
Кол-во нескорректированных ошибок, то есть серьёзное повреждение поверхности диска. Появляются такие ошибки когда заканчивается место в резервной зоне диска для переназначения секторов. Так же могут появляться при резком отключении питания в момент когда диск записывает данные - это так называемые "программные бэд блоки". Если их количество один два, а остальные параметры касающиеся поверхности диска в норме то беспокоиться не стоит. Если же велико, то данные надо спасать и готовить "тело на вынос". :)
С7 Ultra ATA CRC Error Rate - количество ошибок при передаче во внешнем интерфейсе. Обычно в этом виноват кабель или плохой контакт кабеля с разъёмами, особенно проявляется на SATA дисках. Встречается весьма часто.
С8 Write Error Rate - ошибки при записи на диск. Встречается редко. Обычно на очень старых дисках. Если есть ошибки то это означает физический износ привода головок жесткого диска. Или же при серьёзных повреждения поверхности диска. (когда количество переназначенных секторов и нескоректированных ошибок превышают все разумные значения).
Вот мы и кратенько рассмотрели основные параметры системы самодиагностики жестких дисков. Если есть желание узнать об этом подробнее то можно обратиться к материалам википедии:
К сожалению SMART не всегда может предсказать смерть диска. Как показало исследование всё того же Google около 50% дисков умирают резко и без видимых причин. Но в одном эта технология точно полезна. По ней можно быстро узнать состояние поверхности диска, то есть параметры:
05 Reallocated Sector Count
C5 Current Pending Sector Count
С6 Offline Uncorrectable Sector Count
И очень полезно знать время которое за свою жизнь проработал диск, чтобы примерно угадать что от него можно ждать.
А теперь немного о будущем. В продаже уже появилось достаточное количество предложений действительно "жестких дисков" . Они выполнены на микросхемах твердотельной памяти типа flash и гораздо более надёжны и по механическим воздействиям и по температуре. Однако производители ещё не договорились о стандарте системы самодиагностики для этого вида накопителей. Но она будет гораздо проще чем для старых добрых электромеханических дисков. И главное с гораздо более высокой вероятностью будет предсказывать возможность выхода из строя! Флэш память более предсказуема в этом смысле. Чтож, будем ждать этого светлого будущего!
Письмо. Здравствуйте админ! Ответьте мне пожалуйста на такой вопрос. Скачал программу HDDScan для тестирования состояния своего почти нового жёсткого диска, в данной программе есть средство показывающее S.M.A.R.T моего винчестера, самый важный параметр в нём Reallocated Sector Count (обозначающий число переназначенных сбойных секторов) показывает текущее значение Value 100. Пороговое значение Threshold , то есть значение ниже которого нельзя опускаться 36. Скажите админ, в каком состоянии этот диск и стоит ли им пользоваться, не грозит ли это мне потерей данных?
Вот ещё один диск, но скорее всего его нужно менять, так ли это?
HDDScan
Друзья статья, которую вы сейчас читаете, является продолжением другой и я бы на вашем месте в первую очередь ознакомился с ней- , в ней мы рассмотрели многочисленные причины образования на жёстком диске различных бэд-блоков (сбойных секторов) и почему некоторые из них исправимы, а другие нет, так же мы узнали как на ферромагнитные пластины винчестера наносится информация, что такое сектор и многое другое.
В этой статье мы будем работать в программе HDDScan, с помощью неё узнаем всё о состоянии нашего жёсткого диска, проверим его различными тестами, узнаем показатели S.M.A.R.T данного винчестера, обнаружим 63 логических сбойных сектора и исправим их.
Что такое S.M.A.R.T?
Уже давно всем известная фирма IBM в 1992 г, разработала технологию, контролирующую все критически важные параметры жёсткого диска и в самом начале она называлась Predictive Failure Analysis (PFA). Затем в 1992 год, компаниями Compaq, Seagate, Quantum, Conner была придумана и предложена более усовершенствованная технология IntelliSafe. И только в 1995 году, крупнейшие производители жёстких дисков разработали усовершенствованную технологию, которая используется до сих пор и называется S.M.A.R.T (от англ. self-monitoring, analysis and reporting technology - технология самоконтроля, анализа и отчётности).
Жёсткие диски, поддерживающие технологию S.M.A.R.T, имеют встроенный процессор, ведущий счёт отработанным часам винчестера, а так же определяет число сбойных секторов (бэд-блоков), температуру и многое другое, подробно читаем ниже.
Что бы узнать всё, что может сказать нам S.M.A.R.T, нужно просто запустить программу способную прочесть все эти показатели. Подобных программ довольно много и хочу сказать в своё время я их все перепробовал. HDDScan пользовался тоже, удобная, простая, надёжная и бесплатная, работает без установки, так что можете носить её с собой на флешке. Идём на сайт производителя
Сохранность наших файлов и данных напрямую зависит от состояния жесткого диска, на котором они хранятся. Важно иметь полное представление о работе этого устройства и вовремя спрогнозировать возможные сбои. Это даст возможность перенести важную информацию на резервный носитель. Полное представление о том, в каком состоянии механическая часть жесткого диска, поверхность физических дисков даёт технология S.M.A.R.T.
Сокращение S.M.A.R.T. обозначает в свободном переводе технология самоконтроля, анализа и отчета. Соответственно названию она занимается самоконтролем диска, анализом параметров на предмет предполагаемого сбоя и отчета по набору атрибутов.
Одна группа атрибутов отражает состояние диска в данный момент, другая фиксирует механический износ деталей устройства. У каждого атрибута есть свой номер и значение(Value ). Диск хранит значение атрибута в удобном для себя шестнадцатеричном формате (Raw value ), а программа пересчитывает его в понятные нам десятичные цифры. Современная система информационной безопасности позволяет обеспечить такие параметры диска, при которых злоумышленник не сможет получить доступ к конфиденциальной информации.
Система DLP создает защитный цифровой барьер, который и препятствует утечкам информации. Для оценки состояния есть пороговые значения атрибутов (Threshold ), их определяет производитель диска. Значение ниже порога, уже не нормальная работа жесткого диска или вообще неисправность. Очень полезное для прогноза сбоев, наихудшее значение атрибута (Worst ),показывает худшее число, которое принимал параметр за весь период работы диска. Дополнительно многие программы показывают значение атрибута в цвете (зеленый, желтый, красный) или шкалой. Value обычно имеет диапазон от 0 до 100 , но есть атрибуты со значениями выше 200.
Атрибутов S.M.A.R.T. достаточно много, рассмотрим основные и жизненно важные. Набор параметров возьмем из статьи о программе для проверки жесткого диска. Как выглядит таблица S.M.A.R.T. показано на картинке ниже.
Здесь есть номер атрибута, его описание, значение Value , значение Worst , Raw value в hex формате и пороговое значение Threshold . Рядом с атрибутом кружок, по цвету которого можно оценить значение атрибута.
001 Raw Read Error Rate
— Как часто появляются ошибки чтения из-за аппаратной части накопителя. Ошибок нужно бы поменьше.
003 Spin Up Time
– Как быстро диск набирает рабочую скорость. С износом повышается.
004 Start/Stop Count
– Количество запусков и остановок диска. Не критично.
005 Reallocation Sector Count
– Важный атрибут. Количество переназначения нечитаемых (Bad ) секторов в резервную область диска.
Сбойный сектор заменяется запасным из резервной области.
При попадании на Bed головка уходит на переназначенный сектор, считывает информацию и возвращается. Операция переназначения называется Remap . Большое количество переназначенных секторов говорит о дефекте поверхности диска и возможно скорой потери данных.
007 Seek Error Rate
– Ошибки позиционирования магнитных головок диска. Вызываются износом механики или поверхности.
008 Seek time Performance
– Как быстро позиционируются головки.
Повышается с износом.
009 Power-On Hours Count
– Время работы диска. В качестве Threshold
время наработки
на отказ при тестах производителя.
010 Spin Retry Count
– Счетчик числа повторной попытки раскрутить диск до рабочей скорости. Если таких попыток становиться много, скорый отказ неизбежен.
011 Recalibration Retries
– Счетчик повтора рекалибровки при неудачной первой попытке. Показывает износ механики.
012 Device Power Cycle Count
– Сколько раз включился-выключился диск. Чистая статистика использования.
013 Soft read error rate
– Число программных ошибок при чтении. К механике не имеет отношения и не критичен.
183 SATA Downshift Error Count
– Присутствует у дисков производства Samsung и Western Digital. Информационный параметр, не критичен, но указывает на старение диска.
184 End To End Error Count
– Диск проверяет и сравнивает данные, которые переданы и которые приняты материнской платой. Атрибут выводит количество ошибок сравнения. Не критичен.
187 Reported Uncorrectable Error
– Не восстановимые ошибки. Чем меньше ошибок, тем лучше. Значение ухудшается при износе.
188 Reported Command Timeouts
– Рапорт о задержке команды. Не критичен.
190 Airflow Temperature
– Температура внутри корпуса жесткого диска. Указаны минимальное и максимальное значения.
194 HDA Temperature
– Показания термодатчика внутри корпуса диска, используются для расчета атрибута 190.
195 Hardware ECC Recovered
– Сколько производилось коррекций ошибок аппаратной частью диска. Повышение числа предупреждает о возможном отказе.
196 Reallocation Event Count
– Еще один важный атрибут. Считает удачные и неудачные попытки Remap
. Показание растет
даже после полного использования резервной области диска. Критичен.
197 Current Pending Errors Count
– Число секторов диска операции, с которыми выдают ошибки. Программа готовит их для возможного переназначения (Remap ). Рост количества секторов сигнализирует о возможном сбое и потере информации.
198 Uncorrectable Errors Count
– Число ошибок обращения к сектору, которые нельзя исправить. Это критично.
199 UltraDMA CRC Errors
– Ошибки контрольной суммы при передаче данных. Говорит скорее о неисправном шлейфе или окисленных контактах разъёма, чем о неисправном диске.
200 Write Error Rate
— Количество ошибок записи на диск. Увеличивается со сроком эксплуатации.
201 Soft Read Error Rate
– Как часто появляются программные ошибки чтения информации. Не критично.
Из описанных параметров можно получить полное представление о состоянии поверхности диска и ресурсе механики.
Если какой либо из критичных параметров достиг значения Threshold
нужно немедленно делать резервную копию информации. При сбоях по критичным атрибутам восстановление утраченных данных крайне затруднено или часто вообще невозможно.
При выводе параметров S.M.A.R.T значение Value должно превышать Threshold (критическое значение параметра), данное значение должно быть высоким.
Зеленый маркер атрибута свидетельствует о том, что параметр атрибута соответствует нормальному.
Желтый маркер свидетельствует о небольшом расхождении.
Красный - это сильные расхождения, с таким параметром жесткий диск может выйти из строя в любую минуту, хранение на нем данных небезопасно.
Raw Read Error Rate - этот атрибут отображает частоту ошибок при чтении с диска.
Spin Up Time - атрибут раскрутки диска до рабочего состояния, некачественный блок питания может влиять на разницу с эталонным значением.
Start/Stop Count - количество запусков и остановок жесткого диска.
Reallocated Sector Count - счетчик перераспределенных секторов, показывающий количество резервных секторов способных заменить сбойные, наиболее значимый для работоспособности винчестера параметр. При обнаружении системой винчестера ошибки чтения/записи, сектор перезаписывается в резервную область, этот параметр наиболее четко показывает работоспособность вашего винчестера и самое главное исправить этот атрибут нельзя никакими программами. При критически низком показателе этого параметра, стоит задуматься о смене жесткого диска.
Seek Error Rate - значение частоты ошибок при позиционировании головок, сообщает о перегреве винчестера или неустойчивом положении в корзине, решение возможно в более надежном закреплении жесткого диска.
Power-on Hours Count - атрибут отображающий количество часов во включенном состоянии.
Spin Retry Count - количество повторов раскрутки диска при неудачной предыдущей.
Recalibration Retries - этот атрибут указывает какое количество повторений калибровки было совершено, при условии, что первая попытка была неудачной. Указывает на проблемы с механической чатстью жесткого диска.
Device Power Cycle Count - количество полных циклов включения/выключения устройства.
Emergency Retract Count - атрибут парковки головок при чрезвычайных ситуациях, пропажа питание или сильное его понижение, бывает при плохом контакте разъема питания или глюках платы HDD.
Load/unload Cycle Count - количество циклов вывода головок в рабочее положение.
HDA Temperature - температура жесткого диска.
Reallocation Event Count - счетчик операций ремаппинга, показывает количество попыток перенесения сбоящих секторов в резервную область.
Current Pending Errors Count - счетчик секторов считывание которых затруднено, к данным секторам относятся сектора которые не удалось прочитать с первого раза так называемые бэд-блоки, исправить возможно принудительной записью в них информации и ее прочтением, эту процедуру можно совершить программой HddScan.
Uncorrectable Errors Count - счетчик некорректируемых ошибок, указывает на дефекты поверхности жесткого диска.
UltraDMA CRC Errors - ошибки внешнего интерфейса, возникающие при некачественном шлейфе SATA.
Multi Zone Error Rate - частота появления ошибок при записи данных.