S.M.A.R.T. で HDD の健全性を確認するメモです。
ここ最近、HDD, RAID に関するトラブルが続いていてげんなりしているのですが、そういえば S.M.A.R.T. なんてのもあったけどどうなんだろと思いちょっと見てみました。
まず、S.M.A.R.T. って何だという事ですが、Wikipedia によるとこういうものらしいです。
- Self-Monitoring, Analysis and Reporting Technology の略
 - HDD 搭載機能で早い話がヘルスチェック機能
 - 検査項目は数値として記録されるのでモニタリングしとくといいことあるかも
 
ぼんやりとは認識していましたが、あんまり役に立たないよとかいう情報もあったりでずっとスルーしていました。
Adaptec 製の RAID カードを使って、arcconf コマンドが使える場合には下記のように実行すると S.M.A.R.T. 情報が確認できると思います。
# arcconf getsmartstats 1 <tabular>
tabular オプションを付けるとリストで表示してくれるので確認しやすいと思います。
実行結果はこんな感じ。かなり長いので 1 HDD の 1 項目だけを抜粋。形式は tabular のものです。
PhysicalDriveSmartStats          
    channel ........................................ 0
    id ............................................. 3
    nonSpinning .................................... false
    isDescriptionAvailable ......................... false
   Attribute                     
       id ............................................. 0x01
       normalizedCurrent .............................. 100
       normalizedWorst ................................ 100
       rawValue ....................................... 0
全部の項目を理解した訳ではないのですが、とりあえず「Attribute」に表示される id と rawValue を確認していけば良さそうな感じがします。
Wikipedia には「閾値」って項目もあると書いてたんですけど見当たらず。これは別途設定が必要なんだろうか。
normalizedCurrent と normalizedWorst はどの値も固定のように見えるのですが、そもそも「閾値」がないから機能してないとか ?
Wikipedia には S.M.A.R.T. の主な検査項目として一覧が載っていますが、これはベンダーによって差異があるもようです。今回チェックした SATA の HDD には確かにない項目もありました。
全項目を目視していくのは辛いし、??? な部分も多いので出てきた結果と Wikipedia の表を比べて、とりあえず大事そうな所だけを抜粋。
| 01 | Raw Read Error Rate | データ読み込み時のエラー数。磁気ディスクまたは磁気ヘッドの故障の可能性 | 
|---|---|---|
| 05 | Reallocated Sectors Count | 自動修復した不良セクタの数 | 
| 09 | Power-On Hours | 工場出荷状態から現在までの通電時間。単位がよくわからない。秒 ? | 
| C1 | Load/Unload Cycle Count | 磁気ヘッドが磁気ディスクと退避場所を往復した回数。2005 年以降の 2.5inc だと約 60 万回がメーカー保証値 | 
| C4 | Reallocation Event Count | 発生したセクタ代替処理の総数。失敗もカウント | 
| C5 | Current Pending Sector Count | 代替処理待ちのセクタ数 (= 未対処の不良セクタ数) | 
| C6 | Off-Line Scan Uncorrectable Sector Count | オフラインスキャンで見つかった回復不可能な不良セクタ数。数値が増加する場合は故障の可能性大 | 
| DC | Disk Shift | プラッタが当初の固定位置よりズレた距離 | 
項番 09, 項番 C1 あたりは HDD の寿命推測に使えそうな値です。
実際、正常に取れているのか不明な項目もあるのですが、今回たまたま見た中で「DC」が記録されていた HDD を発見 !
プラッタって HDD の中にある円盤のヤツの事ですけどこれがズレてるって…
実際はベンダー製の HDD 診断ツール何かで細かくチェックしてみないとわからないかもしれませんが、今後の予防交換材料としては使えそうなのでちょっとノウハウを溜めてみたいと思います。