我們都知道CPU上下文切換,會增加系統(tǒng)負載。那什么是CPU上下文,為什么要切換? 什么是CPU上下文我們都知道,Linux 是一個多任務(wù)操作系統(tǒng),它支持遠大于 CPU 數(shù)量的任務(wù)同時運行。當(dāng)然,這些任務(wù)實際上并不是真的在同時運行,而是因為系統(tǒng)在很短的時間內(nèi),將 CPU 輪流分配給它們,造成多任務(wù)同時運行的錯覺。 而在每個任務(wù)運行前,CPU 都需要知道任務(wù)從哪里加載、又從哪里開始運行,也就是說,需要系統(tǒng)事先幫它設(shè)置好 CPU 寄存器和程序計數(shù)器(Program Counter,PC)。 CPU 寄存器,是 CPU 內(nèi)置的容量小、但速度極快的內(nèi)存。而程序計數(shù)器,則是用來存儲 CPU 正在執(zhí)行的指令位置、或者即將執(zhí)行的下一條指令位置。它們都是 CPU 在運行任何任務(wù)前,必須的依賴環(huán)境,因此也被叫做 CPU 上下文。 而這些保存下來的上下文,會存儲在系統(tǒng)內(nèi)核中,并在任務(wù)重新調(diào)度執(zhí)行時再次加載進來。這樣就能保證任務(wù)原來的狀態(tài)不受影響,讓任務(wù)看起來還是連續(xù)運行。 根據(jù)任務(wù)的不同,CPU的上下文切換可以分為不同的場景,也就是進程上下文切換、線程上下文切換、中斷上下文切換。 進程上下文切換Linux 按照特權(quán)等級,把進程的運行空間分為內(nèi)核空間和用戶空間,分別對應(yīng)著下圖中, CPU 特權(quán)等級的 Ring 0 和 Ring 3。
換個角度看,也就是說,進程既可以在用戶空間運行,又可以在內(nèi)核空間中運行。進程在用戶空間運行時,被稱為進程的用戶態(tài),而陷入內(nèi)核空間的時候,被稱為進程的內(nèi)核態(tài)。 從用戶態(tài)到內(nèi)核態(tài)的轉(zhuǎn)變,需要通過系統(tǒng)調(diào)用來完成。比如,當(dāng)我們查看文件內(nèi)容時,就需要多次系統(tǒng)調(diào)用來完成:首先調(diào)用 open() 打開文件,然后調(diào)用 read() 讀取文件內(nèi)容,并調(diào)用 write() 將內(nèi)容寫到標準輸出,最后再調(diào)用 close() 關(guān)閉文件。 那么,系統(tǒng)調(diào)用的過程有沒有發(fā)生 CPU 上下文的切換呢?答案自然是肯定的。 CPU 寄存器里原來用戶態(tài)的指令位置,需要先保存起來。接著,為了執(zhí)行內(nèi)核態(tài)代碼,CPU 寄存器需要更新為內(nèi)核態(tài)指令的新位置。最后才是跳轉(zhuǎn)到內(nèi)核態(tài)運行內(nèi)核任務(wù)。 而系統(tǒng)調(diào)用結(jié)束后,CPU 寄存器需要恢復(fù)原來用戶保存的狀態(tài),然后再切換到用戶空間,繼續(xù)運行進程。所以,一次系統(tǒng)調(diào)用的過程,其實是發(fā)生了兩次 CPU 上下文切換。 不過,需要注意的是,系統(tǒng)調(diào)用過程中,并不會涉及到虛擬內(nèi)存等進程用戶態(tài)的資源,也不會切換進程。這跟我們通常所說的進程上下文切換是不一樣的:
所以,系統(tǒng)調(diào)用過程通常稱為特權(quán)模式切換,而不是上下文切換。但實際上,系統(tǒng)調(diào)用過程中,CPU 的上下文切換還是無法避免的。 那么,進程上下文切換跟系統(tǒng)調(diào)用又有什么區(qū)別呢? 首先,你需要知道,進程是由內(nèi)核來管理和調(diào)度的,進程的切換只能發(fā)生在內(nèi)核態(tài)。所以,進程的上下文不僅包括了虛擬內(nèi)存、棧、全局變量等用戶空間的資源,還包括了內(nèi)核堆棧、寄存器等內(nèi)核空間的狀態(tài)。 因此,進程的上下文切換就比系統(tǒng)調(diào)用時多了一步:在保存當(dāng)前進程的內(nèi)核狀態(tài)和 CPU 寄存器之前,需要先把該進程的虛擬內(nèi)存、棧等保存下來;而加載了下一進程的內(nèi)核態(tài)后,還需要刷新進程的虛擬內(nèi)存和用戶棧。 如下圖所示,保存上下文和恢復(fù)上下文的過程并不是“免費”的,需要內(nèi)核在 CPU 上運行才能完成。 根據(jù)測試報告,每次上下文切換都需要幾十納秒到數(shù)微秒的 CPU 時間。這個時間還是相當(dāng)可觀的,特別是在進程上下文切換次數(shù)較多的情況下,很容易導(dǎo)致 CPU 將大量時間耗費在寄存器、內(nèi)核棧以及虛擬內(nèi)存等資源的保存和恢復(fù)上,進而大大縮短了真正運行進程的時間。這也正是上一節(jié)中我們所講的,導(dǎo)致平均負載升高的一個重要因素。 另外,我們知道, Linux 通過 TLB(Translation Lookaside Buffer)來管理虛擬內(nèi)存到物理內(nèi)存的映射關(guān)系。當(dāng)虛擬內(nèi)存更新后,TLB 也需要刷新,內(nèi)存的訪問也會隨之變慢。特別是在多處理器系統(tǒng)上,緩存是被多個處理器共享的,刷新緩存不僅會影響當(dāng)前處理器的進程,還會影響共享緩存的其他處理器的進程。 知道了進程上下文切換潛在的性能問題后,我們再來看,究竟什么時候會切換進程上下文。 顯然,進程切換時才需要切換上下文,換句話說,只有在進程調(diào)度的時候,才需要切換上下文。Linux 為每個 CPU 都維護了一個就緒隊列,將活躍進程(即正在運行和正在等待 CPU 的進程)按照優(yōu)先級和等待 CPU 的時間排序,然后選擇最需要 CPU 的進程,也就是優(yōu)先級最高和等待 CPU 時間最長的進程來運行。 那么,進程在什么時候才會被調(diào)度到 CPU 上運行呢? 最容易想到的一個時機,就是進程執(zhí)行完終止了,它之前使用的 CPU 會釋放出來,這個時候再從就緒隊列里,拿一個新的進程過來運行。其實還有很多其他場景,也會觸發(fā)進程調(diào)度,在這里我給你逐個梳理下。 其一,為了保證所有進程可以得到公平調(diào)度,CPU 時間被劃分為一段段的時間片,這些時間片再被輪流分配給各個進程。這樣,當(dāng)某個進程的時間片耗盡了,就會被系統(tǒng)掛起,切換到其它正在等待 CPU 的進程運行。 其二,進程在系統(tǒng)資源不足(比如內(nèi)存不足)時,要等到資源滿足后才可以運行,這個時候進程也會被掛起,并由系統(tǒng)調(diào)度其他進程運行。 其三,當(dāng)進程通過睡眠函數(shù) sleep 這樣的方法將自己主動掛起時,自然也會重新調(diào)度。 其四,當(dāng)有優(yōu)先級更高的進程運行時,為了保證高優(yōu)先級進程的運行,當(dāng)前進程會被掛起,由高優(yōu)先級進程來運行。 最后一個,發(fā)生硬件中斷時,CPU 上的進程會被中斷掛起,轉(zhuǎn)而執(zhí)行內(nèi)核中的中斷服務(wù)程序。 了解這幾個場景是非常有必要的,因為一旦出現(xiàn)上下文切換的性能問題,它們就是幕后兇手。 線程上下文切換說完了進程的上下文切換,我們再來看看線程相關(guān)的問題。 線程與進程最大的區(qū)別在于,線程是調(diào)度的基本單位,而進程則是資源擁有的基本單位。說白了,所謂內(nèi)核中的任務(wù)調(diào)度,實際上的調(diào)度對象是線程;而進程只是給線程提供了虛擬內(nèi)存、全局變量等資源。所以,對于線程和進程,我們可以這么理解:
這么一來,線程的上下文切換其實就可以分為兩種情況: 第一種, 前后兩個線程屬于不同進程。此時,因為資源不共享,所以切換過程就跟進程上下文切換是一樣。 第二種,前后兩個線程屬于同一個進程。此時,因為虛擬內(nèi)存是共享的,所以在切換時,虛擬內(nèi)存這些資源就保持不動,只需要切換線程的私有數(shù)據(jù)、寄存器等不共享的數(shù)據(jù)。 到這里你應(yīng)該也發(fā)現(xiàn)了,雖然同為上下文切換,但同進程內(nèi)的線程切換,要比多進程間的切換消耗更少的資源,而這,也正是多線程代替多進程的一個優(yōu)勢。 中斷上下文切換為了快速響應(yīng)硬件的事件,中斷處理會打斷進程的正常調(diào)度和執(zhí)行,轉(zhuǎn)而調(diào)用中斷處理程序,響應(yīng)設(shè)備事件。而在打斷其他進程時,就需要將進程當(dāng)前的狀態(tài)保存下來,這樣在中斷結(jié)束后,進程仍然可以從原來的狀態(tài)恢復(fù)運行。 對同一個 CPU 來說,中斷處理比進程擁有更高的優(yōu)先級,所以中斷上下文切換并不會與進程上下文切換同時發(fā)生。同樣道理,由于中斷會打斷正常進程的調(diào)度和執(zhí)行,所以大部分中斷處理程序都短小精悍,以便盡可能快的執(zhí)行結(jié)束。 另外,跟進程上下文切換一樣,中斷上下文切換也需要消耗 CPU,切換次數(shù)過多也會耗費大量的 CPU,甚至嚴重降低系統(tǒng)的整體性能。所以,當(dāng)你發(fā)現(xiàn)中斷次數(shù)過多時,就需要注意去排查它是否會給你的系統(tǒng)帶來嚴重的性能問題。 |
|
來自: thchen0204 > 《2018》