The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Показатели SMART Новый HDD"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы OpenNET: Виртуальная конференция (Public)
Изначальное сообщение [ Отслеживать ]

"Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 22-Окт-09, 16:10 
Доброе время суток.

Прошу помочь. Есть сервер(SuSE 11.1+samba 3.2.4-5.2+squid+dhcp+dns) вообщем ничего необычного.
Во время работы случайным образом (раз в 3 дня или раз в 1.5 недели) зависаел:
перестают работать все сервисы,
войти в систему не получается, так как не вводится даже логин, при этом нажимается Ctrl+Alt+Del,
в /var/log/messages с момента зависания перестают писаться сообщения.

грешил на HDD, заменил его. И вот сервер снова завис (на следующий день после настройки формирования отчетов sarg).
Предполагаю что снова проблемы с диском (не смотря на то, что новый), так как smartctl по критичной позиции Seek_Error_Rate выдает значение 529016 (за 7 дней работы) которое постоянно увеличивается.
Вот остальные значения показателей:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   253   006    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       6
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   253   030    Pre-fail  Always       -       529016
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       207
10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       6
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   052   049   045    Old_age   Always       -       48 (Lifetime Min/Max 19/51)
194 Temperature_Celsius     0x0022   048   051   000    Old_age   Always       -       48 (0 19 0 0)
195 Hardware_ECC_Recovered  0x001a   095   068   000    Old_age   Always       -       202043904
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

Подскажите, критично ли увеличение этого параметра?
В чем ещё может быть причина, и как её выявить, если в логах нет сообщений об ошибке в момент зависания.

PS: сейчас на сервере диск Seagete ST3250410AS (для системы, данные крутяться на зеркале).


Высказать мнение | Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Показатели SMART Новый HDD"  +/
Сообщение от PJ (ok) on 22-Окт-09, 17:42 
>
>PS: сейчас на сервере диск Seagete ST3250410AS (для системы, данные крутяться на
>зеркале).

У Seagate своеобразная интерпретация параметров SMART

(взял с
Model Family:     Seagate Barracuda 7200.7 and 7200.7 Plus family
Device Model:     ST340014A
)

1 Raw_Read_Error_Rate     0x000f   072   067   006    Pre-fail  Always       -       68563956
  
  7 Seek_Error_Rate         0x000f   089   060   030    Pre-fail  Always       -       832888136
  
195 Hardware_ECC_Recovered  0x001a   072   066   000    Old_age   Always       -       68563956


Raw_Read_Error_Rate и Hardware_ECC_Recovered увеличиваются постоянно, с момента первого включения. Т.е., "если мы ошиблись" (Raw_Read_Error_Rate), "то аппаратно это исправили" (Hardware_ECC_Recovered).

Так что на эти параметры в случае Seagate ориентироваться не стоит.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

3. "Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 23-Окт-09, 14:38 
>У Seagate своеобразная интерпретация параметров SMART
>...

Да, в процессе изучения SMART я находил информацию, что значение поля RAW_VALUE бывает обратно пропорционально значению VALUE - на который и нужно обращать внимание относительно THRESH. Но я взял для тестирования ещё один купленный на прошлой неделе диск 500 Gb ST3500418AS, хотел заменить им. Но столкнулся с тем, что у него увеличивалось не только значение
  7 Seek_Error_Rate         0x000f   100   253   030    Pre-fail  Always       -       95116
но и растет значение
  1 Raw_Read_Error_Rate     0x000f   111   100   006    Pre-fail  Always       -       32850529
пропорционально
195 Hardware_ECC_Recovered  0x001a   046   041   000    Old_age   Always       -       32850529

очень походе на данные приведенные Вами. И я решил что диск описанный ранее лучше (так как хоть один критичный показатель не увеличивается)
>
>Так что на эти параметры в случае Seagate ориентироваться не стоит.

Рад бы но пока качество диска это у меня единственное объяснения зависания ПК.
Всё таки какой лучше? к чему стремиться?

Может стоит обратить внимание на показатель температуры?


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

2. "Показатели SMART Новый HDD"  +/
Сообщение от sHaggY_caT (ok) on 22-Окт-09, 17:42 
>Подскажите, критично ли увеличение этого параметра?
>В чем ещё может быть причина, и как её выявить, если в
>логах нет сообщений об ошибке в момент зависания.
>
>PS: сейчас на сервере диск Seagete ST3250410AS (для системы, данные крутяться на
>зеркале).

Попробуйте вставить SATA-шный бэкплейн в PCI-слот, и посмотреть, что будет

Так же, стоит погонять на тестах вроде memtest...

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

4. "Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 23-Окт-09, 14:49 
>Попробуйте вставить SATA-шный бэкплейн в PCI-слот, и посмотреть, что будет
>

к сожалению, такой pci карты нет. Но попробую переткнуть в другой SATA разъем. Так как шлейф менял.

>Так же, стоит погонять на тестах вроде memtest...

Это уже делал, одним из первых.
Ешё есть предположения в возможном конфликте ПО с оборудованием, но как это поймать не знаю. Может стоит установить какой нибудь монитор для слежения за системой? Подскажите какую стоит взять.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

5. "Показатели SMART Новый HDD"  +/
Сообщение от sonkilla (ok) on 23-Окт-09, 21:44 
как вариант ide порт то есть? найдите винт под него поставьте систему и посмотрите возможно сата контролеер моск парит.В дагонку откройте кейс проверьте всю плату на наличие беремености кодеров.Однажды папал похожую ситуацию проблема была решена заменой 2х вздутых кондеров.
З.Ы. Главное при пайке иметь хороший пояльник =)
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

6. "Показатели SMART Новый HDD"  +/
Сообщение от nrz on 10-Ноя-09, 07:51 
>Есть сервер(SuSE 11.1+samba 3.2.4-5.2+squid+dhcp+dns) вообщем ничего необычного.
>Во время работы случайным образом (раз в 3 дня или раз в 1.5 недели) зависаел:
> перестают работать все сервисы,

Температура?

> войти в систему не получается, так как не вводится даже логин,

А попереключать консоли?

>при этом нажимается Ctrl+Alt+Del,
> в /var/log/messages с момента зависания перестают писаться сообщения.

Для linux'а именно из-за дисков такое поведение не характерно.
Какие-нибудь сообщения о дисках он просто должен сказать.
На основную консоль должно было что-то прилететь.

>грешил на HDD, заменил его.

Это Вы зря, конечно.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

7. "Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 10-Ноя-09, 09:35 
>Температура?

Вот текущее значение 46 (Lifetime Min/Max 19/51)

>А попереключать консоли?

На момент последнего зависания забыл про это совсем

>Для linux'а именно из-за дисков такое поведение не характерно.
>Какие-нибудь сообщения о дисках он просто должен сказать.
>На основную консоль должно было что-то прилететь.

Вход в систем не был осуществлен. Сервер был в текстовом режиме на моменте "Login:"
По этому ничего я и не видел. Думаю переключение консоли помогло бы. Буду ждать очередного сбоя.

>Это Вы зря, конечно.

Не зря при тестировании из mhdd, он был хуже чем тот, который установил. Но действительно замена не помогла.
Заметил что после настройки операций выполняющих частую работу с данными, расположенными на этом диске:
сбора статистики ipcad,
частые (1 раз в 6 мин) формирований отчетов lightsquid  (база маленька)
Система зависает. В связи с этим решил отключить сбор статистики ipcad и формирование отчетов настроил 1 раз в неделю.

Заметил, что у используемого сейчас диска, в отличии от других seagate не изменяется значение параметра Raw_Read_Error_Rate. Оно постоянно равно 0, при этом значение Hardware_ECC_Recovered увеличивается (122045005)

Хочу ещё раз заменить HDD и настроить ipcad и формирование отчетов, также часто.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

8. "Показатели SMART Новый HDD"  +/
Сообщение от mclroy email on 10-Ноя-09, 10:44 
>>Температура?
>Вот текущее значение 46 (Lifetime Min/Max 19/51)

Качественно охлаждаете, но можно лучше.

>>Для linux'а именно из-за дисков такое поведение не характерно.
>>Какие-нибудь сообщения о дисках он просто должен сказать.
>>На основную консоль должно было что-то прилететь.
>Вход в систем не был осуществлен. Сервер был в текстовом режиме на моменте "Login:"

Даже если так, на консоли все равно сообщения должны быть,
если сообщения дублируются на консоль - посмотрите /etc/rsyslog.conf
Если уж совсем зависло, то это уже какие-то проблемы ядра или аппаратные.
Тогда нужно ядро запускать в debug режиме или добиваться от него нужных сообщений еще как-то. Пишите, если смогу помочь.

>>Это Вы зря, конечно.
>Не зря при тестировании из mhdd, он был хуже чем тот, который
>установил. Но действительно замена не помогла.

Зря. Даже если диск совсем оторвать, ядро еще будет жить.
В крайнем случае, увидите panic...
Т.е. Ваш случай - это не проблема с диском.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

11. "Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 11-Ноя-09, 05:17 
>Даже если так, на консоли все равно сообщения должны быть,
>если сообщения дублируются на консоль - посмотрите /etc/rsyslog.conf
>Если уж совсем зависло, то это уже какие-то проблемы ядра или аппаратные.

У меня openSuSE 11.1, файла /etc/rsyslog.conf нет. есть /etc/syslog-ng/syslog-ng.conf ,- это оно? Если да то,что там должно быть?

>Тогда нужно ядро запускать в debug режиме или добиваться от него нужных
>сообщений еще как-то. Пишите, если смогу помочь.

Как понимаю параметр debug настраивается в grub. Правильно ли мыслю? и какой параметр нужно добавить?

>Зря. Даже если диск совсем оторвать, ядро еще будет жить.
>В крайнем случае, увидите panic...
>Т.е. Ваш случай - это не проблема с диском.

Думаю настроить debug и ждать паники. Просто предположение, что проблема в диске мне больше нравилась, диск заменил и работает :-).. Ядро я ещё мало знаю, чтобы выявлять внутренние конфликты.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

15. "Показатели SMART Новый HDD"  +/
Сообщение от mclroy email on 11-Ноя-09, 13:44 
>У меня openSuSE 11.1, файла /etc/rsyslog.conf нет. есть /etc/syslog-ng/syslog-ng.conf ,- это оно?
>Если да то,что там должно быть?

Что-то по аналогии с:
log { source(src); filter(f_emergency); destination(console); };
log { source(s_sys); filter(f_filter1); destination(d_cons); };
Зависит от конкретного стиля.

>Как понимаю параметр debug настраивается в grub. Правильно ли мыслю? и какой
>параметр нужно добавить?

Да. И можно прочие параметры загрузки ядра попробовать.
Посмотрите в:
/usr/share/doc/kernel-doc-xxxxxxx/Documentation/kernel-parameters.txt

>Думаю ... ждать паники.

Это вряд ли, если виснет. Я сам уже давно панику не видел.

>Просто предположение, что проблема в диске
>мне больше нравилась, диск заменил и работает :-)..

Всегда хочется попроще.

>Ядро я ещё мало знаю, чтобы выявлять внутренние конфликты.

Не думаю, что Ваш случай - это проблемы собственно ядра.
Такие спонтанные зависания - намек на аппаратные проблемы.
Платформа, собственно, аппаратная какая?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

9. "Показатели SMART Новый HDD"  +/
Сообщение от lavr email on 10-Ноя-09, 12:04 
>[оверквотинг удален]
>
>Система зависает. В связи с этим решил отключить сбор статистики ipcad и
>формирование отчетов настроил 1 раз в неделю.
>
>Заметил, что у используемого сейчас диска, в отличии от других seagate не
>изменяется значение параметра Raw_Read_Error_Rate. Оно постоянно равно 0, при этом значение
>Hardware_ECC_Recovered увеличивается (122045005)
>
>Хочу ещё раз заменить HDD и настроить ipcad и формирование отчетов, также
>часто.

хоть PATA и SATA диски производятся с очень низким качеством, судя по SMART они у вас
в нормальном состоянии.
Смотрите есть ли реакция на обработку прерываний от клавиатуры: CAPS, NUM, SCROLL,
если да то уже есть над чем подумать, еще лучше получить panic и после перезагрузки
посмотреть на чем...
Узкие места у вас: samba, squid(ограничения) и dns (возможно сетевая карта или SATA контроллер),
отключите все ненужное: usb, serial, lpt и смотрите дальше
Shared IRQ - нагрузка, балансировка?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

12. "Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 11-Ноя-09, 06:42 
> Смотрите есть ли реакция на обработку прерываний от клавиатуры: CAPS, NUM, SCROLL,

Да при нажатии этих клавиш лампочки загораются. Буду пробовать переключиться в другую консоль (Alt+F2) или смотреть журнал (Alt+F10).
>если да то уже есть над чем подумать, еще лучше получить panic
>и после перезагрузки
>посмотреть на чем...

С получением и анализом паники я ещё не работал..как это делать? какие настройки нужно установить и где?

> Узкие места у вас: samba, squid(ограничения) и dns (возможно сетевая карта
>или SATA контроллер),

Согласен что они узкие, просмотр
>отключите все ненужное: usb, serial, lpt и смотрите дальше
> Shared IRQ - нагрузка, балансировка?

К серверу кроме локалки, клавы и мышки ничего не подключено.
что такое Shared IRQ и как с этим работать?


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

13. "Показатели SMART Новый HDD"  +/
Сообщение от lavr email on 11-Ноя-09, 11:55 
>> Смотрите есть ли реакция на обработку прерываний от клавиатуры: CAPS, NUM, SCROLL,
>
>Да при нажатии этих клавиш лампочки загораются. Буду пробовать переключиться в другую
>консоль (Alt+F2) или смотреть журнал (Alt+F10).
>>если да то уже есть над чем подумать, еще лучше получить panic
>>и после перезагрузки
>>посмотреть на чем...
>
>С получением и анализом паники я ещё не работал..как это делать? какие
>настройки нужно установить и где?

зависит от OS, посмотрите в документации системы

>> Узкие места у вас: samba, squid(ограничения) и dns (возможно сетевая карта
>>или SATA контроллер),

samba при большом кол-ве одновременного трансфера подсаживает дисковую подсистему и сеть
squid - если не ограничивать соединения может привести систему к ступору, например
разные виндовые качалки по http в несколько потоков, ну например один клиент через
squid качает один файл в 200 потоков, сколько таких может быть..?
dns - без ограничения рекурсивных запросов...

и тд и тп

>Согласен что они узкие, просмотр
>>отключите все ненужное: usb, serial, lpt и смотрите дальше
>> Shared IRQ - нагрузка, балансировка?
>
>К серверу кроме локалки, клавы и мышки ничего не подключено.
>что такое Shared IRQ и как с этим работать?

если попроще, прочитайте обязательно:

http://faqs.org.ru/hardw/mb/irq_faq.htm
http://ru.osdev.wikia.com/wiki/PIC

в рамках Linux (за порядок не скажу, посмотрите tlk и plug&play для начала):

http://www.tldp.org/LDP/tlk/tlk-toc.html
http://tldp.org/LDP/lkmpg/2.6/html/x1256.html
http://tldp.org/HOWTO/Plug-and-Play-HOWTO-7.html
http://tldp.org/HOWTO/KernelAnalysis-HOWTO-6.html

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

10. "Показатели SMART Новый HDD"  +/
Сообщение от anonymous (??) on 10-Ноя-09, 21:35 
>Прошу помочь. Есть сервер(SuSE 11.1+samba 3.2.4-5.2+squid+dhcp+dns) вообщем ничего необычного.
>Во время работы случайным образом (раз в 3 дня или раз в
>1.5 недели) зависаел:
> перестают работать все сервисы,
> войти в систему не получается, так как не вводится даже логин,
>при этом нажимается Ctrl+Alt+Del,
> в /var/log/messages с момента зависания перестают писаться сообщения.

включите magic sysrq и в момент зависаний попытайтесь им воспользоваться.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

14. "Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 11-Ноя-09, 13:21 
Только что сбой повторился.
Реакции на нажатие NUM, Cups, Alt+F10 нет.

После перезагрузки обнаружил, что сбито время на час вперед и
В /var/log/warn такая запись:
smartd: Device /dev/sda [SAT], ATA error count increased from 9 to 11

вот вывод smartctl -l error /dev/sda

Error 13 occurred at disk power-on lifetime: 732 hours (30 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 2e 51 1c ed

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  37 00 01 2e 51 1c ed 00      04:45:00.584  SET MAX ADDRESS EXT
  27 00 00 2e 51 1c e0 00      04:45:00.583  READ NATIVE MAX ADDRESS EXT
  37 00 00 2e 51 1c ed 00      04:45:06.807  SET MAX ADDRESS EXT
  27 00 01 2e 51 1c e0 00      04:45:06.807  READ NATIVE MAX ADDRESS EXT
  37 00 01 2e 51 1c ed 00      04:45:06.683  SET MAX ADDRESS EXT

Error 12 occurred at disk power-on lifetime: 732 hours (30 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 2e 51 1c ed

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  37 00 01 2e 51 1c ed 00      04:45:00.584  SET MAX ADDRESS EXT
  27 00 00 2e 51 1c e0 00      04:45:00.583  READ NATIVE MAX ADDRESS EXT
  37 00 00 2e 51 1c ed 00      04:45:00.583  SET MAX ADDRESS EXT
  27 00 01 6f 59 1c e0 00      04:44:59.242  READ NATIVE MAX ADDRESS EXT
  29 00 01 6f 59 1c e0 00      04:44:59.242  READ MULTIPLE EXT

Error 11 occurred at disk power-on lifetime: 699 hours (29 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 2e 51 1c ed

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  37 00 01 2e 51 1c ed 00      07:41:24.637  SET MAX ADDRESS EXT
  27 00 00 2e 51 1c e0 00      07:41:24.637  READ NATIVE MAX ADDRESS EXT
  37 00 00 2e 51 1c ed 00      07:41:30.847  SET MAX ADDRESS EXT
  27 00 01 2e 51 1c e0 00      07:41:30.847  READ NATIVE MAX ADDRESS EXT
  37 00 01 2e 51 1c ed 00      07:41:30.723  SET MAX ADDRESS EXT

Error 10 occurred at disk power-on lifetime: 699 hours (29 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 2e 51 1c ed

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  37 00 01 2e 51 1c ed 00      07:41:24.637  SET MAX ADDRESS EXT
  27 00 00 2e 51 1c e0 00      07:41:24.637  READ NATIVE MAX ADDRESS EXT
  37 00 00 2e 51 1c ed 00      07:41:24.637  SET MAX ADDRESS EXT
  27 00 01 6f 59 1c e0 00      07:41:23.289  READ NATIVE MAX ADDRESS EXT
  29 00 01 6f 59 1c e0 00      07:41:23.289  READ MULTIPLE EXT

Error 9 occurred at disk power-on lifetime: 255 hours (10 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 2e 51 1c ed

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  37 00 01 2e 51 1c ed 00      00:09:14.238  SET MAX ADDRESS EXT
  27 00 00 2e 51 1c e0 00      00:09:14.238  READ NATIVE MAX ADDRESS EXT
  37 00 00 2e 51 1c ed 00      00:09:14.068  SET MAX ADDRESS EXT
  27 00 01 2e 51 1c e0 00      00:09:14.068  READ NATIVE MAX ADDRESS EXT
  37 00 01 2e 51 1c ed 00      00:09:11.490  SET MAX ADDRESS EXT

Разбираюсь с debug и magic sysrq

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

16. "Показатели SMART Новый HDD"  +/
Сообщение от mclroy email on 11-Ноя-09, 14:41 
>Только что сбой повторился.
>Реакции на нажатие NUM, Cups, Alt+F10 нет.

А Вы его гоняете с X'ами или без X'ов?
Почему именно Alt+F10? А прочие варианты Alt+F1 или Alt+F2, например?

>После перезагрузки обнаружил, что сбито время на час вперед и

Скорее всего после возврата на зимнее время система не обновила аппаратные часы.
Он только зависал и не было перезагрузки?

>В /var/log/warn такая запись:
>smartd: Device /dev/sda [SAT], ATA error count increased from 9 to 11
>вот вывод smartctl -l error /dev/sda
>Error 13 occurred at disk power-on lifetime: 732 hours (30 days + 12 hours)

Не та причина, чтобы машина повисла.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

17. "Показатели SMART Новый HDD"  +/
Сообщение от lavr email on 11-Ноя-09, 16:52 
>[оверквотинг удален]
>
>Error 13 occurred at disk power-on lifetime: 732 hours (30 days +
>12 hours)
>  When the command that caused the error occurred, the device
>was active or idle.
>
>  After command completion occurred, registers were:
>  ER ST SC SN CL CH DH
>  -- -- -- -- -- -- --
>  10 51 01 2e 51 1c ed

ну и что? система рухнула на лету, smartctl -l error имеет смысл смотреть после
прогона тестов

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

18. "Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 11-Ноя-09, 22:28 
>mclroy:
>Такие спонтанные зависания - намек на аппаратные проблемы.
>Платформа, собственно, аппаратная какая?

Зависания не совсем спонтанные, думаю большая вероятность варианта
> lavr "Узкие места у вас: samba, squid"

Хочу на выходных большим объемом запросов к samba и squid спровоцировать сбой.

-----------------------------------
Вот подробное описание конфигурации:
Материнская плата:GA-EP45-DS5 http://www.gigabyte.ru/products/mb/specs/ga-ep45-ds5_10.html
RAM: 2Gb
Процессор:    Intel Core 2 Duo E8200
HDD:
    /dev/sda SATA HDD ST3250410AS - система (данные SQUID+DHCP+DNS и логи системы)(обычный HDD)
        /dev/sda1 /     EXT3
        /dev/sda2 swap    swap
    /dev/sdb SATA HDD WD5002ABYS-0 - рейдовский вариант HDD
        /dev/sdb1         fd Linux raid auto
        /dev/sdb2        fd Linux raid auto
    /dev/sdc SATA HDD WD5002ABYS-0 - рэйдовский вариант
        /dev/sdc1         fd Linux raid auto
        /dev/sdc2        fd Linux raid auto
Mdadm RAID:
    /dev/md0 /data     - RAID раздел с данными (Samba шары)
        /dev/sdb1
        /dev/sdc1
    /dev/md1 /bkp     - RAID раздел для резервных копии данных и системы
        /dev/sdb1     
        /dev/sdc1
Видео: Radeon HD 2400 XT
Вторая сетевая карта:D-Link DFE 520TX

Вариант с проблемой SATA изначально отклонил, так как на этом же контроллере работает софтовый RAID из двух SATA дисков WDC Raid edition, и перед зависанием ни каких намеков на сбой от mdadm в журнале /var/log/messages и /var/log/warn.И по этому более детально не работал в этом направлении.

Есть ли смысл задаваться вопросом запуска mdadm в debug режиме?

>mclroy:
>А Вы его гоняете с X'ами или без X'ов?
>Почему именно Alt+F10? А прочие варианты Alt+F1 или Alt+F2, например?

X-ов нет, установил текстовый вариант сервера.
alt+f10, это консоль с выводом информации из системного журнала.

> lavr:
>ну и что? система рухнула на лету, smartctl -l error имеет смысл смотреть после
>прогона тестов

учту. Кстати прогонял быстрый самотест
smartctl -t short /dev/sda
всё ок

Установил lm_sensors для отслеживания температуры. На текущий момент температура процессора
Core0 45 С
Core1 47 C

Такая же как и у жесткого диска (47 С)


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

19. "Показатели SMART Новый HDD"  +/
Сообщение от mclroy email on 11-Ноя-09, 22:58 
>Зависания не совсем спонтанные, думаю большая вероятность варианта
>> lavr "Узкие места у вас: samba, squid"
>Хочу на выходных большим объемом запросов к samba и squid спровоцировать сбой.

Samba или squid скорее сами упадут, чем сервер повиснет.

>Вариант с проблемой SATA изначально отклонил, так как на этом же контроллере
>работает софтовый RAID из двух SATA дисков WDC Raid edition, и
>перед зависанием ни каких намеков на сбой от mdadm в журнале
>/var/log/messages и /var/log/warn.И по этому более детально не работал в этом
>направлении.

mdadm ничего не скажет про сам sata-контроллер, так что в нем тоже может быть проблема.
Проверьте целостность установленных пакетов в системе.

>Есть ли смысл задаваться вопросом запуска mdadm в debug режиме?

Нет.

>X-ов нет, установил текстовый вариант сервера.

Правильно.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

20. "Показатели SMART Новый HDD"  +/
Сообщение от lavr email on 12-Ноя-09, 12:34 
>>mclroy:
>>Такие спонтанные зависания - намек на аппаратные проблемы.
>>Платформа, собственно, аппаратная какая?
>
>Зависания не совсем спонтанные, думаю большая вероятность варианта
>> lavr "Узкие места у вас: samba, squid"
>
>Хочу на выходных большим объемом запросов к samba и squid спровоцировать сбой.
>

грешен, люблю Gigabyte, но модели материнок не без проблем...

>[оверквотинг удален]
>X-ов нет, установил текстовый вариант сервера.
>alt+f10, это консоль с выводом информации из системного журнала.
>
>> lavr:
>>ну и что? система рухнула на лету, smartctl -l error имеет смысл смотреть после
>>прогона тестов
>
>учту. Кстати прогонял быстрый самотест
>smartctl -t short /dev/sda
>всё ок

быстрый short тест мало что дает.

>Установил lm_sensors для отслеживания температуры. На текущий момент температура процессора
>Core0 45 С
>Core1 47 C
>
>Такая же как и у жесткого диска (47 С)

Железо:

Советую отрубить USB, Audio в BIOS'е (BIOS желательно обновить до крайнего)
Обычно на Gigabyte'ах два контроллера:
- JMicron
- ICHX или ICHXY - те диски что подключены к ICH советую перевести в SATA150

- за REALTEK RTL8111/8168B PCI Express Gigabit Ethernet controller и драйвер r8169
в Linux'е ничего не скажу, не знаю

ps. Проблемы с ICH контроллером SATA возможны, одну причину написал, другая - драйвер
в Linux и если в BIOS выставлен режим AHCI, то работа драйвера в режиме AHCI.

pps. Ну и зависит от версии ядра

Верхнее про железо и соответственно см. версию ядра и драйверов указанного железа,
да, SATA диски, особенно Maxtor и ряд WD требуют хорошего блока питания.

Soft:

- первоначальные направления даны

прим: на такой железный конфиг лучше ставить x86-64 и RAM=4GB

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

21. "Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 21-Ноя-09, 16:37 
Добрый день. Прошу прощения за столь длительный перерыв.

По поводу debug режима ядра. Нашел как его устанавливать в SuSE:
Делается это не включением параметров запуска или пересборкой ядра, а установкой уже готового ядра из http репозитариев.

Установил это ядро, хочу запустить сервер в этом режиме.
Включил режим Magic SysRq

Вопрос:
1. Версия текущего ядра vmlinux-2.6.27.7-9-pae
    А debug vmlinux-2.6.27.37-0.1-debug
Повлияет ли это как либо на работу сервера?
2. После запуска этого ядра, что должно измениться? Что смотреть?

3. В дополнение к этому:
Хочу изменить параметры squid
    debug_options c ALL,1 на ALL,9
Что смотреть после этого в cache.log (как я понял дополнительная информация по работе squid будет писаться туда)

4. Какой параметр отвечает за количество потоков разрешенных одному пользователю? Думал что это children но это не он.

5. Был вариант что сбой связан с драйвером, что нужно включать чтобы выявить ошибку драйвера?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

22. "Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 22-Ноя-09, 11:57 
>прим: на такой железный конфиг лучше ставить x86-64 и RAM=4GB

Действительно я при установке SuSE 11.1 использовал i586, исправлюсь.
Оперативки будет 4G уже в новом сервере.

ещё мне порекомендовали следующее:
top , затем нажать 1 и смотреть значения load average.
На разных консолях запустить вывод содержимого лог файлов (например tail -f /var/log/messages)
после чего запустить и подсчет IP статистики (ipcad) и регулярное формирование отчетов (lightsquid).


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

23. "Показатели SMART Новый HDD"  +/
Сообщение от isy (ok) on 08-Дек-09, 02:48 
3/12/09
Был очередной сбой.
Пришлось нажать кнопку Reset.
Диагностику проводил чужими руками (удаленно):
По началу система реагировала на нажатие NumLock, но после попытки переключаться между открытыми заранее мной сессиями (Alt+F2, Alt+F3 и т.д.) система перестала реагировать даже и на NumLock.
Дал команду выполнить перезагрузку Reset-ом.
В итогое система не загрузилась, как выяснилось вместе с файловой системой был поврежден и загрузчик.

Восстановил файловую систему,
Восстановил Загрузчик.

Далее:
В BIOS отключил: USB, Аудио -Azalia Codec, Onboard H\W 1394.
Было выключено SMART Capability - это критично?
Что касается дисков (IDE/RAID):
SATA RAID/AHCI Mode: Desabled
SATA Port0-3 Native Mode: Desabled
Onboard SATA/IDE Device: Enabled
Onboard SATA/IDE Ctrl Mode: IDE


04/12/09
Снова сбой, на этот раз "УДАЧНО" вечером в пятницу.
Клавиатура не реагирует на Num Lock, и другие "моргающие" клавиши, переключение между консолями не работает. При этом сработало, не понятно по чему, то ли  Ctrl+Alt+Del, то ли Alt+SysRq+O.

После перезугрузки система выполнила проверку и восстановление файловой таблицы, всё снова работает.
Подозрительные, для меня, строки журналах:
==/var/log/messages.log
Dec  4 19:32:50 bs-proxy smartd[3612]: Device: /dev/sdd [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 101 to 100

/dev/sdd - это диск из программного mdadm RAID 1
При этом для других дисков : /dev/sda, /dev/sdb, /dev/sdc

Критично ли это?

Включил - HDD SMART Capability.

Сейчас докачивается дистрибутив SuSE 11.2-86_64 протестирую на домашнем сервере потом буду внедрять на работе.

PS: Скоро будет новый сервер:
Плата MB Intel S3210SHLX
Пpоцессоp iCore 2 Q9550


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

24. "Показатели SMART Новый HDD"  +/
Сообщение от PJ (ok) on 09-Дек-09, 11:05 
>3/12/09
>Был очередной сбой.
>Dec  4 19:32:50 bs-proxy smartd[3612]: Device: /dev/sdd [SAT], SMART Usage Attribute:
>194 Temperature_Celsius changed from 101 to 100
>

Ну а винт пощупать руками? Или SMART врет, или действительно имеет место перегрев.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

25. "Показатели SMART Новый HDD"  +/
Сообщение от PJ (ok) on 09-Дек-09, 11:17 

>==/var/log/messages.log
>Dec  4 19:32:50 bs-proxy smartd[3612]: Device: /dev/sdd [SAT], SMART Usage Attribute:
>194 Temperature_Celsius changed from 101 to 100

store# smartctl -a /dev/ad4
smartctl version 5.38 [i386-portbld-freebsd7.0] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     ST3160813AS
Serial Number:    9SY2QH5K
Firmware Version: CC2J
User Capacity:    160,041,885,696 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Wed Dec  9 11:13:38 2009 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
<skipped>
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

190 Airflow_Temperature_Cel 0x0022   058   054   045    Old_age   Always       -       42 (Lifetime Min/Max 23/45)
194 Temperature_Celsius     0x0022   042   046   000    Old_age   Always       -       42 (0 19 0 0)

42 градуса. Файлопомойка в miniATX корпусе без особой системы охлаждения.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

26. "Показатели SMART Новый HDD"  +/
Сообщение от mclroy on 09-Дек-09, 12:49 
>>Dec  4 19:32:50 bs-proxy smartd[3612]: Device: /dev/sdd [SAT], SMART Usage Attribute:
>>194 Temperature_Celsius changed from 101 to 100
>
>Home page is http://smartmontools.sourceforge.net/

Читаем там же:

http://smartmontools.sourceforge.net/faq.html#disk-temperature

Why is my disk temperatures reported by smartd as 150 Celsius?

It's not. Please read the end of the smartd man page (NOTES). For example, in the message:
'Device: /dev/hda, SMART Attribute: 194 Temperature_Celsius changed from 94 to 93'
the value given is the Normalized not the Raw Attribute value (the disk temperature in this case is about 22 Celsius). The -R and -r Directives modify this behavior, so that the information is printed with the Raw values as well, for example:
'Device: /dev/hda, SMART Attribute: 194 Temperature_Celsius changed from 94 [Raw 22] to 93 [Raw 23]'
Here the Raw values are the actual disk temperatures in Celsius. The way in which the Raw values are printed, and the names under which the Attributes are reported, is governed by the various '-v Num,Description' Directives described in the smartd man page. Please see the smartctl manual page for further explanation of the differences between Normalized and Raw Attribute values.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру