> то вот с парнями занимающимися ФС и блочным уровнем это не работает.именно по этой причине их лишней работой и не перегружают - для мордокниги нужна производительность, ее и пилите. А надежность - вон, у оракла много лишних денег, правда, он их никому не дает, потому и много...
> Ну так к особо крупным клиентам - может и первым самолетом кто-нибудь относительно вменяемый
> прилететь.
ну прилетит, а дальше-то что? Если разведет руками и скажет "ой, оно тут уже не чинится" - так я тоже умею.
> Smart к этому моменту скорее всего будет содержать уже полдюжины индикаторов проблем.
читайте гуглодоки, они рулез. Вообще не нашлось корреляции между состоянием смартовых индикаторов и вероятностью внезапного отказа на большой выборке, увы. Может с тех пор смарт и стал получше, но вряд ли что глобально изменилось.
> Если тот за несколько попыток не того - вот честно, лучше оставить его в покое.
а вот этого они как раз и не умеют. Поэтому вместо одного ненужного файла в tmp - получаем убитый диск. А бегать при любом мелком сбое за специализированным софтом и хардом мало кто может себе позволить. (да и толку, если это экзотическая система, а не fat)
В каком-нибудь 2004м в подобных случаях я переключал диск в pio (чтобы нормально работали таймауты, а не dma reset по всей роже), искал в логе сбойный блок, оно там обычно было, и добавлял его в badlist - те fs так умели. Хрен с ним, с тем файлом, он уже мертвенький - зато остальной сервер я не буду переустанавливать, а просто склонирую. Попробуйте повторить этот фокус с lvm, xfs или чем там модно? Даже если в файл попало, а не в чортов журнал.
> Ну да, странная хня иногда случается.
ничего странного - ibm запатентовала sector marks, [пере]записываемые вместе с данными, еще в 97м году. Нет метки - нет сектора, вообще нет его такого.