日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

并行文件系統(tǒng)構(gòu)筑高性能計(jì)算數(shù)據(jù)基石

 figol 2009-09-15

    長(zhǎng)期以來,磁盤帶寬的增長(zhǎng)速度都遠(yuǎn)小于計(jì)算能力的增長(zhǎng)速度,而雙核、四核乃至多核服務(wù)器的普及與發(fā)展讓這種不匹配的差距進(jìn)一步拉大。包括RAID陣列等, 我們目前有多種技術(shù)可提高I/O性能,并行文件系統(tǒng)也是其中之一。它可以把多個(gè)結(jié)點(diǎn)上的磁盤組織成為一個(gè)大的存儲(chǔ)系統(tǒng),提供更大的存儲(chǔ)容量和聚集的I/O 帶寬,并隨系統(tǒng)規(guī)模的擴(kuò)大而擴(kuò)展,在多種存儲(chǔ)環(huán)境下發(fā)揮著重要的作用,尤其是集群結(jié)構(gòu)的高性能計(jì)算領(lǐng)域。

高性能計(jì)算的存儲(chǔ)基石

    隨著網(wǎng)絡(luò)的高速發(fā)展,如何管理高速網(wǎng)絡(luò)上互聯(lián)的計(jì)算機(jī)的集群系統(tǒng),建立一種性能優(yōu)越的并行文件系統(tǒng)是一件非常重要的事情,這樣可以使整個(gè)集群系統(tǒng)可以具備 高可用性、可擴(kuò)展性和高可靠性,從而構(gòu)建出上千節(jié)點(diǎn)的超大規(guī)模集群計(jì)算機(jī),為整個(gè)網(wǎng)絡(luò)提供性價(jià)比高的集群服務(wù)器和超強(qiáng)的網(wǎng)格節(jié)點(diǎn)。

    目前各個(gè)研究機(jī)構(gòu)和商業(yè)團(tuán)體對(duì)并行文件系統(tǒng)的研究比較看重,取得了不少的技術(shù)進(jìn)步和 相關(guān)的商業(yè)產(chǎn)品,我們對(duì)整個(gè)分布式并行文件系統(tǒng)研究情況大致可以分為三類: 商業(yè)用途的并行文件系統(tǒng);公開的分布式并行文件系統(tǒng);供研究的并行文件系統(tǒng)。

 并行文件系統(tǒng)工作原理

    其中較為成熟的商用并行文件系統(tǒng),像 IBM 的 GPFS,Intel 的 PFS 等在性能,可用性上均有良好表現(xiàn),但都價(jià)格昂貴,且需要特殊的存儲(chǔ)設(shè)備的支持,給普通用戶構(gòu)建集群服務(wù)器帶來困難。對(duì)于公開源碼的并行文 件系統(tǒng),聲譽(yù)最好的是 Clemson 大學(xué)和 NASA 實(shí)驗(yàn)室聯(lián)合開發(fā)的 PVFS,它相對(duì)與傳統(tǒng)的集中存儲(chǔ) NFS 具有良好的性能。由于它采用單一元數(shù)據(jù)服務(wù)器的集中管理方式和存儲(chǔ)節(jié)點(diǎn)的靜態(tài)配置,因而不具備容錯(cuò)性和動(dòng)態(tài)可擴(kuò)展性。

    另外,由 HP、Intel 贊助,Cluster File System 公司開發(fā)的面向?qū)ο蟠鎯?chǔ)的并行文件系統(tǒng) Lustre 吸收了很多文件系統(tǒng)(Code, InterMezzo)的優(yōu)點(diǎn)。它采用智能化的對(duì)象存儲(chǔ)設(shè)備(Object Storage Device),在性能方面具有很大優(yōu)勢(shì),在可用行和動(dòng)態(tài)可擴(kuò)展性上的表現(xiàn)仍然有待研究和完善。而 XFS是作為最早的 Serverlesss分布式文件系統(tǒng),主要側(cè)重于通過合作式緩存來提高讀寫性能,不具備系統(tǒng)的在線動(dòng)態(tài)擴(kuò)展功能,并沒能真正實(shí)用起來。

    我們對(duì)這些系統(tǒng)分別做出分析,讓我們可以更深入的了解并行文件系統(tǒng)的構(gòu)成和功能。

xFS:走入象牙塔的學(xué)院派
   
    xFS作為一種采用無服務(wù)方式以提供可擴(kuò)展的文件服務(wù)的機(jī)群文件系統(tǒng)。它同 zebra 一樣,xFS 集成了存儲(chǔ)分組結(jié)構(gòu)和日志結(jié)構(gòu),并且也實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)于元數(shù)據(jù)管理的彼此分離。

    xFS 通過全部分布數(shù)據(jù)存儲(chǔ)于元數(shù)據(jù)管理的功能減少了集中的瓶頸。為了獲得更高的性能,xFS 采用了合作緩存,一種通過各客戶緩存的協(xié)調(diào)合作來替代傳統(tǒng)的集中的服務(wù)端緩存。在 xFS 中,任何機(jī)器都可以緩存、存儲(chǔ)或則控制任意的數(shù)據(jù)塊,這種方式可以提供比傳統(tǒng)文件系統(tǒng)結(jié)構(gòu)更好的性能和可擴(kuò)展性。

xFS并行文件系統(tǒng)存取原理

    xFS 的一個(gè)主要的特點(diǎn)是它的合作緩存的算法,即是“N-Chance”算法。 這種算法動(dòng)態(tài)地把每個(gè)客戶端的緩存分開成塊,以提供給當(dāng)?shù)氐暮湍切┐鎯?chǔ)在合作緩存的應(yīng)用程序的應(yīng)用。算法的置換機(jī)制是綜合應(yīng)用了當(dāng)?shù)?#8220;LRU”信息和重復(fù) 避免(duplicate avoidance)以決定所最應(yīng)該置換的塊。

    實(shí)際上,xFS 所應(yīng)用的緩存結(jié)構(gòu)與遠(yuǎn)端緩存結(jié)構(gòu)以及“Feeley”描述的全局存儲(chǔ)服務(wù)(GMS)具有相類似的構(gòu)想。GMS 比“N-Chance”算法更具有通用性,但它沒有提供一致性機(jī)制并且依靠一種集中式的算法來決定塊的置換。Sarkar andHartman 提出了一種基于提示(hint-based)的合作緩存方式,這種方式可以減少客戶機(jī)在通過提示調(diào)用和置換塊是對(duì)管理者的依靠性。實(shí)驗(yàn)表明這種方式可以在 增加少量的負(fù)載的情況下獲得同 xFS 所相似的效果。

    xFS的缺陷包括:它必須維護(hù)在文件級(jí)粒度下的緩存一致性,否則可能導(dǎo)致在某些情況下的共享錯(cuò)誤問題(false-sharing problem)。同時(shí)不具備系統(tǒng)的在線動(dòng)態(tài)擴(kuò)展功能,這使得xFS在集群文件系統(tǒng)中并沒有真正得到應(yīng)用,實(shí)際上局限于實(shí)驗(yàn)室的象牙塔中。

COSMOS:自主研發(fā)的實(shí)用型文件系統(tǒng)

    COSMOS 并行系統(tǒng)是我們國(guó)家自己研制的一種可擴(kuò)展單一映象集群的文件系統(tǒng),它部署在曙光 3000 超級(jí)服務(wù)器上,具有很好的操作性能。COSMOS 的底層基于AIX文件系統(tǒng)JFS,系統(tǒng)中每個(gè)節(jié)點(diǎn)通過高速網(wǎng)絡(luò)互相連接,COSMOS 構(gòu)建于這些操作系統(tǒng)平臺(tái)之上,向用戶提供文件服務(wù)。

COSMOS分片數(shù)據(jù)管理模式

    在整個(gè)COSMOS 并行系統(tǒng)中,系統(tǒng)是由核心相關(guān)層(kernel)和用戶層兩部分組成。核心層是在虛擬文件系統(tǒng)一級(jí)中實(shí)現(xiàn)的,它接收來自邏輯文件系統(tǒng)的 I/O 請(qǐng)求,并以一定的格式轉(zhuǎn)發(fā)給用戶層。而 COSMOS 的用戶層是由 3 類用戶進(jìn)程構(gòu)成,被分別稱為客戶(client)、元數(shù)據(jù)管理器(manager)和存儲(chǔ)服務(wù)器(storage),它們協(xié)調(diào)工作,共同完成核心層轉(zhuǎn)發(fā)過 來的I/O請(qǐng)求。

    其中storage實(shí)現(xiàn)具體的數(shù)據(jù)存儲(chǔ), client完成數(shù)據(jù)及元數(shù)據(jù)的緩存,而manager負(fù)責(zé)緩存一致性的維護(hù)及元數(shù)據(jù)的存儲(chǔ)管理。需要存取 COSMOS 文件系統(tǒng)的節(jié)點(diǎn)要配置 client,本地磁盤上存有 COSMOS 子文件數(shù)據(jù)的節(jié)點(diǎn)要配置 storage,對(duì)于 manager,通常是平均每數(shù)個(gè)節(jié)點(diǎn)才配置一個(gè)。
   
    COSMOS 中文件數(shù)據(jù)的定位是由管理服務(wù)器來完成的,并且在 COSMOS 中實(shí)現(xiàn)的是分布式的元數(shù)據(jù)管理機(jī)制以提供可擴(kuò)展的定位服務(wù)。另外,管理服務(wù)器的另一個(gè)任務(wù)是維持緩存的一致性。在 COSMOS 中,每一個(gè)管理服務(wù)器負(fù)責(zé)維護(hù)整個(gè)文件系統(tǒng)的一個(gè)子集的位置信息,管理服務(wù)器可以應(yīng)用這種信息來轉(zhuǎn)發(fā) I/O 需求到正確的位置信息(合作緩存或附屬存儲(chǔ)器)。管理服務(wù)器也控制對(duì)相同數(shù)據(jù)塊的并行存取。COSMOS 利用一個(gè)管理服務(wù)器映射來實(shí)現(xiàn)分布式元數(shù)據(jù)管理。這種映射包括了一系列的機(jī)器標(biāo)志符,運(yùn)用這個(gè)可以知道哪個(gè)機(jī)器管理文件系統(tǒng)的哪一部分子集。

    相比較 xFS,COSMOS 的低層是基于 JFS 來實(shí)現(xiàn)的,沒有實(shí)現(xiàn)日志管理功能,因此元數(shù)據(jù)的內(nèi)容和組織是不同的。在 COSMOS 中,沒有必要記錄在一個(gè)節(jié)點(diǎn)中記錄每個(gè)數(shù)據(jù)塊的磁盤位置信息,而是“塊組 ID,起始節(jié)點(diǎn)”對(duì)信息被記錄在節(jié)點(diǎn)中。起始節(jié)點(diǎn)標(biāo)志了起始?jí)K存儲(chǔ)在哪個(gè)機(jī)器上。因?yàn)椴煌木彺嬉恢滦詤f(xié)議,緩存相關(guān)的元數(shù)據(jù)的內(nèi)容和組織也是不相同的。 為了減少網(wǎng)絡(luò)的負(fù)載,COSMOS 直接將元數(shù)據(jù)和目錄文件存儲(chǔ)在管理服務(wù)器上,這是與 xFS 不同的另一個(gè)方面,在 xFS 中,目錄文件和元數(shù)據(jù)都存儲(chǔ)在存儲(chǔ)服務(wù)器上,這是由 xFS 采用的日志結(jié)構(gòu)所決定的。

GPFS:商業(yè)并行文件系統(tǒng)代表
    我們?cè)倏纯?GPFS 這個(gè)商業(yè)產(chǎn)品,GPFS 是用于 IBM Linux 集群系統(tǒng)的高性能、可擴(kuò)展、并行文件系統(tǒng)。它可以通過所有的集群節(jié)點(diǎn)來共享文件。GPFS 可以充分利用 IBM Linux 集群系統(tǒng)中的“虛擬”共享磁盤,使得在多節(jié)點(diǎn)上運(yùn)行的多個(gè)應(yīng)用程序可以同時(shí)讀寫同一文件;它包含了 IBM 可擴(kuò)展集群系統(tǒng)技術(shù)(RSCT),可將存儲(chǔ)內(nèi)容自動(dòng)恢復(fù)到活節(jié)點(diǎn);在發(fā)生故障時(shí),記錄(日志)能夠快速恢復(fù)數(shù)據(jù),并恢復(fù)數(shù)據(jù)的一致性;具有文件訪問的單一 鏡像,可以從任意節(jié)點(diǎn)訪問文件,而無需改變應(yīng)用程序。

GPFS文件管理模式

    在 GPFS 中,通過它的共享磁盤結(jié)構(gòu)來實(shí)現(xiàn)它的強(qiáng)大的擴(kuò)展性,一個(gè) GPFS 系統(tǒng)由許多集群節(jié)點(diǎn)組成,GPFS 文件系統(tǒng)和應(yīng)用程序在上面運(yùn)行。這些節(jié)點(diǎn)通過光纖交換機(jī)連接磁盤和子磁盤。所有的節(jié)點(diǎn)對(duì)所有的磁盤有相同的訪問權(quán)。文件被分割存儲(chǔ)在文件系統(tǒng)中所有的磁盤 上。用來連接文件系統(tǒng)和磁盤的光纖通道是由存儲(chǔ)區(qū)域網(wǎng)(SAN)所組成,例如光纖通道或者 iSCSI。還有個(gè)別的磁盤依附于一些 I/O 節(jié)點(diǎn),它們通過一個(gè)運(yùn)行在通用的網(wǎng)絡(luò)上的軟件層來實(shí)現(xiàn)存取,例如 IBM 的運(yùn)行于 SP switch 上的虛擬共享磁盤。

    GPFS 依靠一個(gè)組服務(wù)層,通過監(jiān)測(cè)節(jié)點(diǎn)和通訊連接出錯(cuò)的早期征兆,來監(jiān)測(cè)節(jié)點(diǎn)錯(cuò)誤,并且提供了一個(gè)組成員協(xié)議。當(dāng)一個(gè)節(jié)點(diǎn)出現(xiàn)錯(cuò)誤時(shí),這個(gè)服務(wù)層通知其余的節(jié)點(diǎn) 組成員變化了,通過早期的行為來觸發(fā)恢復(fù)程序。導(dǎo)致通訊失敗的原因,如網(wǎng)絡(luò)適配器損壞、線纜松動(dòng)導(dǎo)致孤立節(jié)點(diǎn)、光纖交換機(jī)可以產(chǎn)生了一個(gè)不可識(shí)別的網(wǎng)絡(luò)分 區(qū)等。

    因?yàn)?GPFS 把數(shù)據(jù)和元數(shù)據(jù)條塊化存儲(chǔ)在文件系統(tǒng)中的所有磁盤上,所以損失單個(gè)磁盤也 會(huì)不同程度的影響文件。因此,典型的 GPFS 用雙重附帶的 RAID 控制器。大型的 GPFS 文件系統(tǒng)分布在多個(gè) RAID 上,這種情況下,文件系統(tǒng)塊大小和 RAID 的匹配就非常重要,這樣可以防止寫數(shù)據(jù)時(shí)發(fā)生奇偶校驗(yàn)的錯(cuò)誤。

    作為 RAID 的替代或補(bǔ)充,GPFS 支持替代機(jī)制,它為每個(gè)數(shù)據(jù)和元數(shù)據(jù)塊都分配空間,將兩份拷貝存在兩個(gè)不同的磁盤上。當(dāng)一個(gè)磁盤不可靠時(shí),GPFS會(huì)追蹤上面文件塊的更新,以便磁盤恢復(fù) 時(shí)恢復(fù)數(shù)據(jù)。如果磁盤完全無效了,它會(huì)用備份來代替所有可能影響到其他磁盤的塊。數(shù)據(jù)和元數(shù)據(jù)可以單獨(dú)的運(yùn)行這種恢復(fù)機(jī)制。事實(shí)上當(dāng)一個(gè)磁盤部分磁道不可 讀時(shí),元數(shù)據(jù)的恢復(fù)保證了只需要恢復(fù)很少的幾個(gè)數(shù)據(jù)塊,而不需要徹底的去恢復(fù)很多文件。

PVFS:虛擬并行文件系統(tǒng)
    PVFS用來為運(yùn)行 Linux 操作系統(tǒng)的 PC 群集創(chuàng)建一個(gè)開放源碼的并行文件系統(tǒng)。PVFS 已被廣泛地用作臨時(shí)存儲(chǔ)的高性能的大型文件系統(tǒng)和并行 I/O 研究的基礎(chǔ)架構(gòu)。作為一個(gè)并行文件系統(tǒng),PVFS將數(shù)據(jù)存儲(chǔ)到多個(gè)群集節(jié)點(diǎn)的已有的文件系統(tǒng)中,而且多個(gè)客戶端可以同時(shí)訪問這些數(shù)據(jù)。

    PVFS 具有很多優(yōu)點(diǎn),它可以提供一個(gè)全局命名空間,可以將數(shù)據(jù)分配到多個(gè)磁盤上,并且允許使用不同的用戶界面,還可以包含其它的 I/O 接口來支持大型文件。該并行文件系統(tǒng)最早是Clemson 大學(xué)的并行虛擬文件系統(tǒng)(PVFS)項(xiàng)目,由于該并行文件系統(tǒng)可開放源代碼進(jìn)行二次開發(fā),因此在高性能計(jì)算系統(tǒng)的并行文件系統(tǒng)中占有獨(dú)特的地位。

    為高速訪問群集中的文件系統(tǒng),PVFS 將文件數(shù)據(jù)進(jìn)行條塊化劃分,分散存儲(chǔ)到某些群集節(jié)點(diǎn)(稱作 I/O 節(jié)點(diǎn))的多個(gè)磁盤上。條塊化數(shù)據(jù)的方法可在群集上提供相當(dāng)大的存儲(chǔ)容量,具體容量取決于群集中節(jié)點(diǎn)的數(shù)量。PVFS 所帶來的存儲(chǔ)容量可以為用戶提供整個(gè)集群內(nèi)的大型全局操作空間。

    與很多網(wǎng)絡(luò)文件系統(tǒng)或并行文件系統(tǒng)一樣,PVFS 是利用客戶端-服務(wù)器架構(gòu)實(shí)現(xiàn)的。它利用一組協(xié)作的用戶空間進(jìn)程(daemon),提供一個(gè)群集范圍內(nèi)的一致的命名空間,并將數(shù)據(jù)條塊化,分配到多個(gè)群集節(jié)點(diǎn)中。

    PVFS 客戶和服務(wù)器之間的消息傳遞通過 TCP/IP 來完成,提供可靠的通訊環(huán)境。所有的 PVFS 文件系統(tǒng)數(shù)據(jù)都保存在 I/O 節(jié)點(diǎn)的本地文件系統(tǒng)中,本地的文件系統(tǒng)可以是一個(gè)硬盤驅(qū)動(dòng)器上的一個(gè)分區(qū),可以是整個(gè)磁盤驅(qū)動(dòng)器,也可以利用本地所支持的 Linux 文件系統(tǒng)(例如 ext2,ext3 和 ReiserFS)所提供的多個(gè)磁盤驅(qū)動(dòng)器的邏輯卷。

    PVFS 使用管理節(jié)點(diǎn),I/O 節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)三種類型的節(jié)點(diǎn)。一個(gè)群集節(jié)點(diǎn)可以提供其中的一種功能,也可以同時(shí)提供其中的兩種功能或三種功能。但是 PVFS 還是存在不少問題,比方說它的集中的元數(shù)據(jù)管理可能成為整個(gè)系統(tǒng)的瓶頸,可擴(kuò)展性受到一定限制。還有它的系統(tǒng)中的數(shù)據(jù)沒有采取相應(yīng)的容錯(cuò)機(jī)制,系統(tǒng)的可用 性有待提高。由于是采用的靜態(tài)配置,因此不具備動(dòng)態(tài)擴(kuò)展性。

Lustre:前景廣闊的分布式并行文件系統(tǒng)
    最后我們談?wù)労苡星熬暗姆植际讲⑿形募到y(tǒng)——Lustre。Lustre 是 HP,Intel,Cluster File System 公司聯(lián)合美國(guó)能源部開發(fā)的 Linux 集群并行文件系統(tǒng)。該系統(tǒng)目前推出 1.4.6 的發(fā)布版本,是第一個(gè)基于對(duì)象存儲(chǔ)設(shè)備的,開源的并行文件系統(tǒng)。整個(gè)系統(tǒng)由客戶端,兩個(gè) MDS,OSD 設(shè)備池通過高速的以太網(wǎng)所構(gòu)成。目前可以支持 1000 個(gè)客戶端節(jié)點(diǎn)的 I/O 請(qǐng)求,兩個(gè) MDS采用共享存儲(chǔ)設(shè)備的 Active-Standby 方式的容錯(cuò)機(jī)制,存儲(chǔ)設(shè)備跟普通的,基于塊的 IDE 存儲(chǔ)設(shè)備不同,是基于對(duì)象的智能存儲(chǔ)設(shè)備。

Lustre分布式并行文件系統(tǒng)

    Lustre 采用分布式的鎖管理機(jī)制來實(shí)現(xiàn)并發(fā)控制,元數(shù)據(jù)和文件數(shù)據(jù)的通訊鏈路分開管理。與 PVFS 相比,Lustre 雖然在性能,可用行和擴(kuò)展性上略勝一躊,但它需要特殊設(shè)備的支持,而且分布式的元數(shù)據(jù)服務(wù)器管理還沒有實(shí)現(xiàn)。下一個(gè)版本的 Lustre 系統(tǒng)將會(huì)加入分布式元數(shù)據(jù)管理,使得其性能得到進(jìn)一步的提升。

    我們期待并行文件系統(tǒng)的發(fā)展,作為網(wǎng)絡(luò)集群系統(tǒng)的重要組成部分,并行文件系統(tǒng)的發(fā)展將會(huì)向著高可用性、可擴(kuò)展性和高可靠性方向發(fā)展,像分布式的元數(shù)據(jù)管理這些技術(shù)將會(huì)不斷的應(yīng)用和改進(jìn)到分布式并行文件系統(tǒng)中,我們期待著這個(gè)領(lǐng)域的繼續(xù)突破。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多