服務(wù)器的散熱永遠(yuǎn)是業(yè)界的關(guān)注點,在計算密度越來越高,電力消耗越來越大的今天,服務(wù)器,尤其是大量應(yīng)用服務(wù)器的數(shù)據(jù)中心,散熱問題永遠(yuǎn)“揮之不散”,現(xiàn)在,由于外部散熱難以完全解決問題,而且散熱效率較低,造成服務(wù)器內(nèi)部局部過熱,從而不能達(dá)到服務(wù)器散熱的要求,于是越來越多的服務(wù)器廠商已經(jīng)將服務(wù)器的散熱聚焦于服務(wù)器內(nèi)部。
對于服務(wù)器散熱來說,尤其是內(nèi)部散熱,單純的增加風(fēng)扇數(shù)量或增加風(fēng)扇轉(zhuǎn)速并不能很好的解決問題,風(fēng)扇越多,轉(zhuǎn)速越快,耗電也就越多,噪音也會越大,對于用戶來說,耗電和噪音也是很大的問題,如果可以根據(jù)服務(wù)器內(nèi)部部件的運行情況試試調(diào)整散熱――尤其是風(fēng)扇,那么服務(wù)器的散熱效果非但不會打折扣,還會有效降低服務(wù)器耗電和噪音。
英特爾熱管理架構(gòu)工程師Kaleen Man女士為大家講解了英特爾在服務(wù)器關(guān)鍵元器件散熱中的技術(shù),她表示2007年基于英特爾處理器的服務(wù)器已經(jīng)對中央處理器(CPU)、北橋(MCH)、FB-Dimm內(nèi)存全部提供了災(zāi)難過熱保護(hù)、閉路循環(huán)保護(hù)(CLTT)和用于風(fēng)扇轉(zhuǎn)速控制(FSC)的傳感器。也就是說,對于服務(wù)器主要容易過熱的部件――處理器、北橋和 內(nèi)存,英特爾都提供了基于傳感器的溫度保護(hù)技術(shù)。
我們知道,英特爾的雙核/四核采用了Bensley平臺,而Bensley平臺采用了全新的FB-Dimm內(nèi)存技術(shù),這是因為一方面考慮內(nèi)存容量的可擴(kuò)充性,另一方面考慮提升內(nèi)存的性能,通過FB-Dimm內(nèi)存上的AMB芯片來串行連接后面的內(nèi)存,增加系統(tǒng)內(nèi)存容量,通過串行技術(shù)可以將內(nèi)存峰值帶寬提高到21GB/s。FBDIMM的功耗非常高,產(chǎn)生的熱量比較大,而FB-Dimm內(nèi)存的性能與AMB芯片的工作溫度有很大的關(guān)系,這對服務(wù)器的散熱設(shè)計提出了很高了要求,要達(dá)到理論的內(nèi)存峰值帶寬,在FB-Dimm內(nèi)存的工藝設(shè)計上Intel與各大內(nèi)存廠商還需要下更多的功夫去改進(jìn)。
針對于FB-Dimm內(nèi)存的散熱,尤其是其AMB芯片的散熱,Kaleen Man女士講解了針對FB-Dimm內(nèi)存的熱管理技術(shù),英特爾將內(nèi)存溫度分為了三個階段:AMB.TempLow、AMB.TempMid、AMB.TempHi。同時,為AMB芯片溫度設(shè)定了四個散熱階段,其基本技術(shù)就是“內(nèi)存工作閑時降低風(fēng)扇轉(zhuǎn)速,內(nèi)存工作忙時增加風(fēng)扇轉(zhuǎn)速”,但是需要指出的是,CLTT散熱階段,由于傳感器可能會有的5~6度左右的測溫誤差,于是當(dāng)出現(xiàn)-5度誤差的時候,可能現(xiàn)在的AMB溫度已經(jīng)進(jìn)入了危險區(qū)間,針對于此,英特爾特別設(shè)計在此時,由MCH觸發(fā)內(nèi)存保護(hù)機(jī)制,從而避免AMB溫度過高。
我們知道串行的FB-Dimm內(nèi)存,可以過片上的AMB芯片來串行連接后面的內(nèi)存,增加系統(tǒng)內(nèi)存容量,于是就會有很多內(nèi)存工作與同一平臺上,但是有時候,整個內(nèi)存系統(tǒng)只有幾片內(nèi)存非常繁忙并且過熱,英特爾針對于此特別對每個安裝的內(nèi)存進(jìn)行AMB溫度寄存器優(yōu)化,每個分支(Branch)有獨立的熱保護(hù)機(jī)制。對于如何進(jìn)行閉路循環(huán)熱保護(hù)CLTT的檢測參數(shù)的設(shè)置,Kaleen Man女士表示,F(xiàn)B-Dimm內(nèi)存的耐溫性能、耗電值以及OEM廠商提供的廠商信息、最終用戶希望的溫度控制都是可以作為參考的,而且,優(yōu)化的設(shè)置可以減少為保護(hù)內(nèi)存而設(shè)置的保護(hù)帶,提高性能并改善噪音。另外,內(nèi)存上的用于風(fēng)扇速度控制的AMB傳感器是非常重要的一部分,整個內(nèi)存的散熱要根據(jù)其中最熱的內(nèi)存――即與觸發(fā)熱保護(hù)溫度最接近的內(nèi)存來決定風(fēng)扇速度的加快和降低。
在本次講座中,Kaleen Man女士著重提到,英特爾將為北橋MCH提供全新的廣發(fā)的熱管理技術(shù),在2007年將作為重點之一。同樣的,MCH的溫度也被劃分為三個級別:TSFSC、Throttling limit以及Term Trip。這其中值得注意的是,如果北橋MCH超過熱保護(hù)極限Throttling limit時,MCH將在0.5ms內(nèi)將其與內(nèi)存和I/O的傳輸切換到預(yù)設(shè)的安全值,即降低內(nèi)存與I/O性能以保護(hù)系統(tǒng)不會因過熱而出現(xiàn)物理損害。
當(dāng)然,散熱系統(tǒng)的實施是內(nèi)存和傳感器的整合,每一個風(fēng)扇和傳感器都可以相互連接,在2007年,將會有處理器、內(nèi)存、北橋互連的負(fù)責(zé)整體散熱的傳感器,同時,因為溫度讀取會有一定延時,可能會造成讀取溫度不是實時溫度的準(zhǔn)確值。因此新的北橋MCH的溫度控制,將會是整合的規(guī)模可擴(kuò)展的溫度控制。
對于處理器和MCH來說,災(zāi)難性的熱保護(hù)是最為重要的,如果出現(xiàn)災(zāi)難性的過熱,硬件設(shè)備往往會因為電子遷移現(xiàn)象、過熱現(xiàn)象而出現(xiàn)物理損害。同時,由于可能出現(xiàn)的異常的散熱失效,如散熱系統(tǒng)故障,風(fēng)扇停轉(zhuǎn),處理器、北橋和內(nèi)存的Term Trip信號――即考慮誤差修正的過熱區(qū)間,將會精確的降低系統(tǒng)功耗,從而避免永久的物理損害,當(dāng)然,Term Trip信號也會觸發(fā)系統(tǒng)日志,從而為系統(tǒng)工程師的事件診斷提供幫助。
當(dāng)然,英特爾提供了一整套完備的驗證程序,以驗證散熱系統(tǒng)是否可以保證所有元件的熱保護(hù),系統(tǒng)工程師將就FSC進(jìn)行數(shù)學(xué)建模工作,最終FSC在模型中達(dá)到一定值之后即可滿足所有元器件的散熱要求。同時,數(shù)值讀取會有一定的傳感器誤差,因此過熱保護(hù)臨界需要防護(hù)帶,因此內(nèi)存的CLTT設(shè)定會有一定的范圍界定。
標(biāo)簽: 點擊: 評論: