SSD 與 SMART 資料

SMART 代表「自我監控,分析和報告技術」。顧名思義,這是一種記錄硬碟(HDD)或固態硬碟(SSD)健康情形資料的工具。SMART 資料是一種寶貴的工具,因為它會硬碟出現問題或使用壽命到達前發出預警,因此使用者有機會可以在發生故障之前更換。

由於硬碟本身無法進行深度資料分析,因此有效地向使用者或系統管理員提供報告就非常重要。唯有當某些屬性已經超過預定門檻值時,硬碟才能報告,然後唯有韌體已設下門檻值時,硬碟才能報告。

SMART 已經推出許多年,比 SSD 還早上市。一開始,SMART 是使用在 HDD 上,後來,這個新技術被發明成為旋轉式硬碟的簡易替代品時,即適用於 SSD。遺憾的是,不論您使用何種儲存技術,都沒有行業標準可以告訴您哪個編號的 SMART 屬性是在描述硬碟哪一項具體的物理屬性。SSD 與 HDD 之間,甚至不同的 SSD 廠商之間,屬性描述符都會有所不同。

有多種第三方公用程式可以檢索並報告硬碟的 SMART 資料,這些程式通常是免費軟體及共享軟體。但除非第三方軟體廠商向硬碟廠商詢問正確的 SMART 屬性,否則其定義和閾值(如果適用)可能會誤標屬性,並可能導致偽陽性或偽陰性的不實故障報告。

有些例子顯示,當「開機時數計數」屬性回報數字給公用程式時,不相容的公用程式可能會將該數字錯誤標示為「程式錯誤計數」或「已回報的無法修正錯誤」。更糟糕的是,第三方公用程式的故障閾值可能不適用於相應的 SSD,因此 SMART 公用程式會在製造商知道應是可接受操作的情況下,回報故障。

由於這些可能發生的混亂情況,Crucial 建議僅使用我們的 Storage Executive 軟體,作為在 Crucial SSD 上準確檢索並分析 SMART 資料的工具。Storage Executive 中永遠設定為適合所有 Crucial SSD(最舊版除外)的正確屬性描述和閾值(適用時)。

描述 Crucial 定義的 SMART 屬性

Crucial SSD 會記錄多種不同的屬性,以供 Storage Executive 檢索用。有些屬性會回報與 SSD 有關的關鍵資訊,而其他的僅為參考資訊。

在此,我們將討論一些比較重要的屬性,如果 SATA 和 PCle 的屬性名稱不相同,則會顯示兩種名稱:

屬性 202:剩餘產品壽命百分比(PCIe 上的已使用產品壽命百分比)

此屬性正如其名,代表估計在任意時間點,硬碟剩餘多少預計壽命。若 SSD 為全新,屬性 202 回報為「100」,當它達到指定的壽命時,就會顯示為「0」,回報已剩餘 0% 的壽命。

但重要的是要瞭解使用預計壽命的含義-這並不表示當計數器達到 0 時硬碟將發生故障,這不過是表示您可能需要盡快更換您的 SSD。

NAND 快閃記憶體裝置的壽命由另一項特性定義:資料保存。資料保存指裝置可以在未通電狀態下,安全儲存並允許成功檢索使用者資料的時間。當 SSD 或其他 NAND 快閃記憶體裝置為全新時,未通電時的資料保存可長達數年。但是,它們與人類的記憶很類似,寫入資料就會因為磨耗而變短年限(資料讀取不會直接導致磨耗)。

JEDEC 是為使用半導體的設備和組件建立標準及規範的行業組織。美光(Micron)是 JEDEC 的主要成員,以特定方式定義資料保存:針對客戶端應用程式(如商業或個人電腦)中的 SSD,在未通電狀態且儲存於 30 °C(86 °F)時,SSD 的資料應可保存一年。對大部分的電腦使用者來說,這樣的時間應該足夠了,真的需要時候,也可以從已擱置一段時間未使用的硬碟中檢索任何資料。

您或許能從此描述中看出,隨著壽命計數器從 100% 開始倒數計時,可預期 SSD 能正常運作。但隨著時間過去,資料保存將持續降低,從一年降至六個月再到三個月,以此類推。最後,在超過硬碟保固的壽命一段時間後,任何新的寫入資料都無法在斷電後保存。

不過,SSD 韌體已經考量到這點。隨著 SSD 持續老化,修正錯誤(ECC)、讀取重試、適應性讀取參數、後台資料維護以及韌體中的其他調整,都可以針對因資料保存能力逐漸降低而引起的問題進行修正。隨著 NAND 資料區塊的衰退,可以使用機載備用件來代替,以繼續正常作業。當然,這些後台作業全都是在有電源時進行,這就是為什麼要在未通電狀態下定義資料保存。

在某些舊版 Crucial SSD 和 NVMe 型號上,此屬性也會顯示為「已使用壽命百分比」,而且與剩餘產品壽命類似,但只是會以相反方式計算。全新 SSD 的屬性 202 將回報為「0」,當它達到指定的壽命時,就會顯示為「100」,回報已使用 100% 的壽命。在這些型號上,隨著更多寫入作業完成,百分比則會超過 100,但仍有相同的資料保存問題。

屬性 5:淘汰 NAND 區塊

SMART 屬性 5 可在持續評估 NAND 區塊品質的程序中,追蹤淘汰的區塊數量。除了上述的磨損和資料保存問題之外,SSD 韌體還會因數種原因而淘汰 NAND 區塊。淘汰原因之一是在垃圾收集期間刪除資料或移動資料時,無法擦除資料區塊。由於相關資料已經刪除,或已成功複製到 SSD 上的新位置,因此這類型故障對使用者資料會造成的風險較低。

較新款的 Crucial SSD 會利用此種屬性來測量超級區塊,超級區塊是由許多單一區塊組成。依屬性 5 測量時,區塊總數將不會增加,直到許多單一區塊被淘汰為止。

屬性 180:未使用的預留區塊計數(PCIe SSD 上的可用備用區塊)

同樣,顧名思義,這是指在需要淘汰不良區塊的情況下,可用的額外區塊數量。這個數量依據下方 NAND 架構、韌體架構和硬碟使用容量會有所不同,但通常以數千個開始。

隨著淘汰區塊數量的增加,此數量會減少。當屬性 180 達到 0 的時候,韌體會將 SSD 置於唯讀模式。SSD 將無法作為普通硬碟使用,但使用者應該能夠檢索儲存的資料,並傳輸到新的裝置。

如同屬性 5,新版 Crucial SSD 也使用此屬性來測量超級區塊,意即淘汰許多單一區塊後,這種區塊的總數才會減少,而且能馬上顯示出比全新零件比舊版零件低得多的值。

屬性 210:RAIN 成功恢復頁面計數

RAIN 與使用硬碟陣列中的 RAID 以獲得資料冗餘非常像。但 RAIN 冗餘可在硬碟內完成,使用者可完全掌握。RAIN 可提供 SSD 用來保護使用者資料並延長硬碟壽命的功能。

RAIN 事件很少見,但是如果這類事件增加,就要確認上方某些屬性,並看看是否需要更換硬碟。頻繁發生的 RAIN 事件,可能會導致效能明顯下降。使用奇偶校驗冗餘功能來復原資料,可讓硬碟繼續正常運作,但會消耗一些 I/O 頻寬。如果效能經常降低,則可能是因為重新建立 RAIN,而且可能引起問題。

屬性 174:意外斷電次數(PCIe SSD 上不安全的關機次數)

在電腦系統中正常斷電之前,會先從主機發送一條訊息至 SSD,提醒即將斷電。此警示訊息會讓 SSD 有時間完成所有正在進行的作業。完成後,SSD 會向主機傳送「確認」訊息,主機便會完成關機。

電源在許多情況下會意外關閉,這將影響到 SSD。幾乎在所有情況下,SSD 都能彌補這一點,雖然下一次開機的時間可能會長一點(幾秒鐘,而不是幾百毫秒),但系統將會重新啟動。

屬性 174 通常僅提供資訊。但是,如果這種事件大量發生,就表示您可能需要訓練使用者正確的完成作業系統關機,或者可能是電源供應器或連接有問題。

屬性 194:外殼溫度(PCIe 裝置溫度)

Crucial Storage Executive 軟體會報告目前溫度和使用壽命的最高溫度(以攝氏為單位),溫度由 SSD 上的感測器測量得出。大部分 Crucial SSD 的指定操作溫度範圍是 0°C 至 70°C(或 32°F 至 158°F)。任何紀錄高於 70°C 的溫度都可能導致產品保固無效,因此應該要定期監測溫度。若溫度經常超過 65°C,則建議採取改善通風和風扇等修正措施。

總結

SMART 在監視 SSD 健康情形方面應該是極為有用的工具。但 SMART 不是全面的診斷工具。從 SMART 屬性收集的資訊以及作業系統診斷資訊,可為標準的故障排除實務提供良好起點。

錯誤地報告或誤解 SMART 資料可能導致錯誤的結論,很遺憾這可能會造成功能完善的硬碟遭退回。因此,有必要重申 Crucial 強烈建議只使用 Crucial Storage Executive 軟體來讀取 Crucial SSD 的 SMART 資料。

© 2019 Micron Technology, Inc. 保留所有權利。資訊、產品和/或規格若有變動,恕不另行通知。Crucial 或 Micron Technology, Inc. 對於排版或影像的疏失或錯誤概不負責。美光、美光標誌、Crucial 和 Crucial 標誌,皆為 Micron Technology, Inc. 的商標或註冊商標。PCI Express 與 PCIe 是 PCI-SIG 的註冊商標。其他所有商標及服務標誌皆屬其各自擁有者所有。