在系統(tǒng)的高可靠性(也稱為可用性,英文描述為HA,High Available)里有個(gè)衡量其可靠性的標(biāo)準(zhǔn)——X個(gè)9,這個(gè)X是代表數(shù)字3~5。X個(gè)9表示在系統(tǒng)1年時(shí)間的使用過程中,系統(tǒng)可以正常使用時(shí)間與總時(shí)間(1年)之比,我們通過下面的計(jì)算來感受下X個(gè)9在不同級(jí)別的可靠性差異。
3個(gè)9:(1-99.9%)*365*24=8.76小時(shí),表示該系統(tǒng)在連續(xù)運(yùn)行1年時(shí)間里最多可能的業(yè)務(wù)中斷時(shí)間是8.76小時(shí)。
4個(gè)9:(1-99.99%)*365*24=0.876小時(shí)=52.6分鐘,表示該系統(tǒng)在連續(xù)運(yùn)行1年時(shí)間里最多可能的業(yè)務(wù)中斷時(shí)間是52.6分鐘。
5個(gè)9:(1-99.999%)*365*24*60=5.26分鐘,表示該系統(tǒng)在連續(xù)運(yùn)行1年時(shí)間里最多可能的業(yè)務(wù)中斷時(shí)間是5.26分鐘。
那么X個(gè)9里的X只代表數(shù)字3~5,為什么沒有1~2,也沒有大于6的呢?我們接著往下計(jì)算:
1個(gè)9:(1-90%)*365=36.5天
2個(gè)9:(1-99%)*365=3.65天
6個(gè)9:(1-99.9999%)*365*24*60*60=31秒
可以看到1個(gè)9和、2個(gè)9分別表示一年時(shí)間內(nèi)業(yè)務(wù)可能中斷的時(shí)間是36.5天、3.65天,這種級(jí)別的可靠性或許還不配使用“可靠性”這個(gè)詞;而6個(gè)9則表示一年內(nèi)業(yè)務(wù)中斷時(shí)間最多是31秒,那么這個(gè)級(jí)別的可靠性并非實(shí)現(xiàn)不了,而是要做到從“5個(gè)9” 到“6個(gè)9”的可靠性提升的話,后者需要付出比前者幾倍的成本。
可用度A |
9的個(gè)數(shù) |
年停機(jī)時(shí)間(分鐘) |
適用產(chǎn)品 |
0.999 |
三個(gè)9 |
500 |
電腦或服務(wù)器 |
0.9999 |
四個(gè)9 |
50 |
企業(yè)級(jí)設(shè)備 |
0.99999 |
五個(gè)9 |
5 |
一般電信級(jí)設(shè)備 |
0.999999 |
六個(gè)9 |
0.5 |
更高要求電信級(jí)設(shè)備 |
【MTBF】MTBF,即平均故障間隔時(shí)間,英文全稱是“Mean Time Between Failure”。是衡量一個(gè)產(chǎn)品(尤其是電器產(chǎn)品)的可靠性指標(biāo)。單位為“小時(shí)”。具體來說,是指相鄰兩次故障之間的平均工作時(shí)間,也稱為平均故障間隔。
概括地說,產(chǎn)品故障少的就是可靠性高,產(chǎn)品的故障總數(shù)與壽命單位總數(shù)之比叫“故障率”(Failure rate)。它僅適用于可維修產(chǎn)品。同時(shí)也規(guī)定產(chǎn)品在總的使用階段累計(jì)工作時(shí)間與故障次數(shù)的比值為MTBF。磁盤陣列產(chǎn)品一般MTBF不能低于50000小時(shí)。
【失效率】失效率是指工作到某一時(shí)刻尚未失效的產(chǎn)品,在該時(shí)刻后,單位時(shí)間內(nèi)發(fā)生失效的概率。一般記為λ,它也是時(shí)間t的函數(shù),故也記為λ(t),稱為失效率函數(shù),有時(shí)也稱為故障率函數(shù)或風(fēng)險(xiǎn)函數(shù)。
失效率 λ=1/MTBF,單位1FITs=10-9(1/h)
【MTTR】MTTR,全稱是Mean Time To Repair,即平均修復(fù)時(shí)間。是指可修復(fù)產(chǎn)品的平均修復(fù)時(shí)間,就是從出現(xiàn)故障到修復(fù)中間的這段時(shí)間。MTTR越短表示易恢復(fù)性越好。
MTTR也必須包含獲得配件的時(shí)間,維修團(tuán)隊(duì)的響應(yīng)時(shí)間,記錄所有任務(wù)的時(shí)間,還有將設(shè)備重新投入使用的時(shí)間。是一個(gè)縮寫的平均時(shí)間恢復(fù)或平均修復(fù)時(shí)間代表的平均時(shí)間將有缺陷的部件或系統(tǒng)恢復(fù)工作秩序。
它是衡量一個(gè)系統(tǒng)的可維護(hù)性和可預(yù)測(cè)的平均所需的時(shí)間讓系統(tǒng)工作的情況下再次出現(xiàn)系統(tǒng)故障。 MTTR可以從幾個(gè)毫秒,如不間斷電源(UPS)的許多數(shù)小時(shí)甚至數(shù)天的情況下的應(yīng)用軟件或復(fù)雜的機(jī)制。
【修復(fù)率】修復(fù)率(μ) repair rate 產(chǎn)品維修性的一種基本參數(shù)。修理時(shí)間已達(dá)到某個(gè)時(shí)刻但尚未修復(fù)的產(chǎn)品,在該時(shí)刻后的單位時(shí)間內(nèi)完成修理的概率。
經(jīng)常用到所謂4個(gè)9或者5個(gè)9,也就是99.99%與99.999%。那么,4個(gè)9或者5個(gè)9的差距有多大,差距是0.009%,還不到0.01%。但對(duì)于系統(tǒng)而言,恰恰是這不到0.01%的差距,決定了系統(tǒng)完全不在一個(gè)檔次上。
所謂5個(gè)9的系統(tǒng),一年內(nèi)不能正常工作的時(shí)間少于5分15秒。對(duì)應(yīng)4個(gè)9的系統(tǒng)是不超過52分36秒。這些都是理論上的數(shù)據(jù),在實(shí)際工作中有些故障導(dǎo)致的宕機(jī)時(shí)間遠(yuǎn)超過5分鐘,即使采用大型主機(jī),也有宕機(jī)4個(gè)多小時(shí)的慘痛教訓(xùn)。問題出在哪里?
一個(gè)系統(tǒng)的可靠性并不完全取決于硬件,而由軟件和硬件共同來決定,如果是軟件問題,最好的解決辦法就是打補(bǔ)丁、升級(jí),再好的硬件也沒有辦法解決軟件的問題。要提高系統(tǒng)的可靠性,軟件是沒有太好辦法的,只有依靠廠商服務(wù)來解決問題。
用戶可以選擇的只有硬件,其中,包括網(wǎng)絡(luò)、服務(wù)器以及存儲(chǔ)設(shè)備。其中,網(wǎng)絡(luò)可以借助多運(yùn)營商接入來解決,存儲(chǔ)有RAID、快照等應(yīng)對(duì)技術(shù),通過備份來提高數(shù)據(jù)安全性。但對(duì)于服務(wù)器來說,更多用戶的選擇是采用雙機(jī)集群的方法。
采用雙機(jī)集群的方案是達(dá)不到5個(gè)9的要求的。原因很簡單,雙機(jī)集群是通過集群軟件來構(gòu)建方案的,當(dāng)其中的一臺(tái)服務(wù)器產(chǎn)生故障的時(shí)候,切換到備份主機(jī)繼續(xù)工作,保持業(yè)務(wù)連續(xù)性。設(shè)備之間也可以依靠心跳線連接對(duì)故障進(jìn)行判定。
對(duì)于集群而言,故障切換是有嚴(yán)格要求的,要求主機(jī)、備用機(jī)的環(huán)境是一致的。在應(yīng)用實(shí)踐中,要求管理要到位,例如同步升級(jí)、升級(jí),打補(bǔ)丁。如果管理不到位,很有可能會(huì)導(dǎo)致切換失敗。這也是為什么,系統(tǒng)可以在演示環(huán)境下成功切換,但現(xiàn)實(shí)中往往做不到的原因。
來源:硬件十萬個(gè)為什么