一、含義
MTBF,即平均故障間隔時間,英文全稱是“Mean Time Between Failure”。是衡量一個產品(尤其是電器產品)的可靠性指標。單位為“小時”。它反映了產品的時間質量,是體現產品在規定時間內保持功能的一種能力。具體來說,是指相鄰兩次故障之間的平均工作時間,也稱為平均故障間隔。概括地說,產品故障少的就是可靠性高,產品的故障總數與壽命單位總數之比叫“故障率”(Failure rate)。它僅適用于可維修產品。同時也規定產品在總的使用階段累計工作時間與故障次數的比值為MTBF。磁盤陣列產品一般MTBF不能低于50000小時。
二、計算方法
失效時間是指上一次設備恢復正常狀態(圖中的up time)起,到設備此次失效那一刻(圖中的down time)之間間隔的時間。
MTBF值是產品設計時要考慮的重要參數,可靠度工程師或設計師經常使用各種不同的方法與標準來估計產品的MTBF值。相關標準包括MIL-HDBK-217F、Telcordia SR332、Siemens Norm、Fides或UTE C 80-810(RDF2000)等。不過這些方法估計到的值和實際的平均故障間隔仍有相當的差距。計算平均故障間隔的目的是為了找出設計中的薄弱環節。
MTBF的數學式表達:
另外,在工程學上,常用希臘字母θ來表示MTBF,既有:
在概率論中,可用?(t)形式的概率密度方程表示MTBF,既有:
此處?指的是直到下次失效經過時長的概率密度方程——滿足標準概率密度方程——
三、由來
下圖為浴盆曲線,那么浴盆曲線與產品壽命有什么關系呢?
電子產品的壽命一般都符合浴盆曲線,可分為三個階段:
早夭期:由于設計,原材料,生產等可能出現的原因而導致一個較高失效率的階段,也稱失效率遞減階段,可通過環境應力篩選加以剔除,保證產品的可靠性。
穩定器:這一階段產品失效率近似一個常數,只有隨機失效產生,MTBF即要得到這一階段的壽命。
耗損期:硬件故障期,產品這時已達到設計壽命,進入報廢階段。
四、電腦的關系
可靠性
電源供應器對電腦來說,重要性不言而喻。影響電源供應器壽命的因素很多,如負載大小、振動和周邊的環境溫度等。其中,環境溫度很重要,所以選擇合適的風扇,排放出由電源供應器內部的熱量非常關鍵。電源供應器的MTBF,在很大程度上是由其內部的電解電容器MTBF值所決定的。因隨著溫度的上升,電容器的壽命急劇縮短,所以電源供應器的工作溫度如能得到降低,其壽命就會更長一些。
當評價電源供應器所標稱壽命時,電源供應器是否運行在額定的滿負載狀況是另一重要考慮因素。如果電源供應器裝有合適的散熱器而散熱風扇風量足夠大,在低于滿負載的情況下連續工作,電源供應器就能有更長的壽命。一般電腦電源供應器壽命按照3-5年計算元件的可能失效周期,MTBF在80,000-100,000小時之間。
不同的電源供應器廠家,其產品設計、用料也往往差別很大,工作壽命自然不同。
除電源供應器外,硬碟的溫度也不可小視。硬碟動不動就7200rpm-15000rpm,想想看硬碟內的馬達每天轉24小時,平均工作溫度在四、五十度的高熱是免不了。筆者曾測量過一臺散熱不夠好的伺服器硬碟,溫度超過40℃。對硬碟來說,如果機殼內部的溫度降低了,這將意味著減少主軸馬達液態軸承的軸承潤滑劑以及磁碟潤滑劑的蒸發,這將大大降低其損壞的機率。據Seagate公司公開的某型號硬碟數據,在34℃時的MTBF為150,000小時,但在25℃時,會達到230,000小時。
散熱效果
為降低硬碟溫度,可增加散熱風扇。市面上是有賣硬碟專用的散熱模組,有的則是一顆風扇再加上一塊硬碟大小的鋁制散熱片,其實沒有必要這么復雜。
如采用小型風鼓(BLOWER),風量增加,散熱效果更好。但是,增加風扇或風鼓一定要考慮振動的問題。要知道風扇較高的轉速才能達到一定的風量,但如采用較劣質的風扇,轉速雖高,但壽命短且振動厲害,對硬碟壽命會帶來不利影響,安裝硬碟時加吸震軟墊、機箱機殼底部的吸震片都有一定效用。
優質的電源供應器當然要搭配高品質的風扇,如HG2-6400P選用的是NMB鋼珠軸承風扇,比傳統油封軸承風扇壽命高出2倍。這款電源供應器還加入了風扇轉速控制線路,可以根據電源內部的溫度調節風扇轉速,在延長使用壽命的同時,也更好的控制了風扇噪音和震動。
影響
如何保養和維護好伺服器,最大限度的延長其使用壽命,是大家都非常關心的話題。灰塵對伺服器構成的威脅不容忽視。按筆者的電子產品維修經驗,在灰塵比較大的環境中工作,由于PCB吸附灰塵,而灰塵的沉積會影響電子元器件的熱量散發,這將導致元件溫度上升,進而出現熱穩定性下降甚至產生漏電,嚴重時導致燒毀。另外,灰塵也會吸收水分,腐蝕電子線路,造成一些莫名其妙的短路問題。所以灰塵體積雖小,但對伺服器的危害不可低估。
盡管伺服器機房有相對較好的環境,但灰塵仍會不斷累積。所以,有必要定期進行清理,可使用上圖美國生產CRC牌防塵噴劑、也可用有防靜電(ESD)功能的小毛刷小心進行清掃,或使用吹風球清潔灰塵,減少出故障的機率。在清理機箱內部的灰塵時,切記斷開電源,小心操作,特別是面板進風口和電源(排風口)的附近,以及板卡的插接部位灰塵最多。清理電源里的灰塵最好將電源供應器拆下,用防塵噴劑、吹氣球仔細清掃干凈后再裝回。
五、分析目的
1、針對高頻率故障零件的重點對策及零件壽命延長的技術改造依據。
2、進行零件壽命周期的推算及維修計劃編制。
3、有關點檢對象、項目的選擇與點檢基準的設定、改善。
4、用于指導內外部維修工作分配。根據公司內設備修復能力的評價,以設備類型、作業種類的不同來決定內部分別承擔工作的維修質量與設備效率方面的風險,作為維修外包的重要參考。
5、設定備品備件基準。機械、電氣零件的各儲備項目及基本庫存數量,應根據MTBF的記錄分析來判斷,使其庫存水平達到最經濟的狀況。
6、作為選擇維修技術方法改善重點的參考依據。為了提高設備開動率,必須縮短與設備停機相關的長時間維修作業及工程調整、切換的時間。因此,有必要對維護作業方法進行檢驗,而其檢驗的項目、優先順序的選擇等基本情況,均需要依據MTBF的分析記錄表。
7、用于設備對象設定預估運行時間標準,及其維護作業的選定與維護時間標準的研究。維修計劃預估時間標準的設定及維護作業的選定,必須考慮設備維護重復周期或標準時間值與實際維護時間的差異及相應維護作業特性等因素,因此,MTBF分析表是非常必要的。
8、圖樣整理及重新選定重點設備或零件時的參考。MTBF的分析記錄表所記錄的設備零件改造項目或摩擦劣化等信息,以及設備圖樣修改或前期制作等情況,通過能經常作分析檢驗及重要性排序管理,可以使工程圖樣管理變得更容易。
9、運行操作標準的設定、修訂及決定設備維護業務的責任分派。
10、提供設備的可靠性、可維修性設計的技術資料。維護技術最重要的是以MTBF分析表為基礎,收集有關設備的可靠性、可維修性設計的技術信息,以便提供給設計部門在設計設備時參考。