Nginx的高并發(fā)得益于其采用了epoll模型,與傳統(tǒng)的服務器程序架構不同,epoll是linux內核2.6以后才出現(xiàn)的。下面通過比較Apache和Nginx工作原理來比較。
傳統(tǒng)Apache都是多進程或者多線程來工作,假設是多進程工作(prefork),apache會先生成幾個進程,類似進程池的工作原理,只不過這里的進程池會隨著請求數目的增加而增加。對于每一個連接,apache都是在一個進程內處理完畢。具體是 recv(),以及根據 URI 去進行磁盤I/O來尋找文件,還有 send()都是阻塞的。其實說白了都是 apche 對于套接字的I/O,讀或者寫,但是讀或者寫都是阻塞的,阻塞意味著進程就得掛起進入sleep狀態(tài),那么一旦連接數很多,Apache必然要生成更多的進程來響應請求,一旦進程多了,CPU對于進程的切換就頻繁了,很耗資源和時間,所以就導致apache性能下降了,說白了就是處理不過來這么多進程了。其實仔細想想,如果對于進程每個請求都沒有阻塞,那么效率肯定會提高很多。
Nginx采用epoll模型,異步非阻塞。對于Nginx來說,把一個完整的連接請求處理都劃分成了事件,一個一個的事件。比如accept(), recv(),磁盤I/O,send()等,每部分都有相應的模塊去處理,一個完整的請求可能是由幾百個模塊去處理。真正核心的就是事件收集和分發(fā)模塊,這就是管理所有模塊的核心。只有核心模塊的調度才能讓對應的模塊占用CPU資源,從而處理請求。拿一個HTTP請求來說,首先在事件收集分發(fā)模塊注冊感興趣的監(jiān)聽事件,注冊好之后不阻塞直接返回,接下來就不需要再管了,等待有連接來了內核會通知你(epoll的輪詢會告訴進程),cpu就可以處理其他事情去了。一旦有請求來,那么對整個請求分配相應的上下文(其實已經預先分配好),這時候再注冊新的感興趣的事件(read函數),同樣客戶端數據來了內核會自動通知進程可以去讀數據了,讀了數據之后就是解析,解析完后去磁盤找資源(I/O),一旦I/O完成會通知進程,進程開始給客戶端發(fā)回數據send(),這時候也不是阻塞的,調用后就等內核發(fā)回通知發(fā)送的結果就行。整個下來把一個請求分成了很多個階段,每個階段都到很多模塊去注冊,然后處理,都是異步非阻塞。異步這里指的就是做一個事情,不需要等返回結果,做好了會自動通知你。 select/epoll的特點 select的特點:select 選擇句柄的時候,是遍歷所有句柄,也就是說句柄有事件響應時,select需要遍歷所有句柄才能獲取到哪些句柄有事件通知,因此效率是非常低。但是如果連接很少的情況下, select和epoll的LT觸發(fā)模式相比, 性能上差別不大。 Epoll模型主要負責對大量并發(fā)用戶的請求進行及時處理,完成服務器與客戶端的數據交互。其具體的實現(xiàn)步驟如下: epoll的操作就這么簡單,總共不過4個 API:epoll_create, epoll_ctl, epoll_wait和close。 可以舉一個簡單的例子來說明Apache的工作流程,我們平時去餐廳吃飯。餐廳的工作模式是一個服務員全程服務客戶,流程是這樣,服務員在門口等候客人(listen),客人到了就接待安排的餐桌上(accept),等著客戶點菜(request uri),去廚房叫師傅下單做菜(磁盤I/O),等待廚房做好(read),然后給客人上菜(send),整個下來服務員(進程)很多地方是阻塞的。這樣客人一多(HTTP請求一多),餐廳只能通過叫更多的服務員來服務(fork進程),但是由于餐廳資源是有限的(CPU),一旦服務員太多管理成本很高(CPU上下文切換),這樣就進入一個瓶頸。 不管是Nginx還是Squid這種反向代理,其網絡模式都是事件驅動。事件驅動其實是很老的技術,早期的select、poll都是如此。后來基于內核通知的更高級事件機制出現(xiàn),如libevent里的epoll,使事件驅動性能得以提高。事件驅動的本質還是IO事件,應用程序在多個IO句柄間快速切換,實現(xiàn)所謂的異步IO。事件驅動服務器,最適合做的就是這種IO密集型工作,如反向代理,它在客戶端與WEB服務器之間起一個數據中轉作用,純粹是IO操作,自身并不涉及到復雜計算。反向代理用事件驅動來做,顯然更好,一個工作進程就可以run了,沒有進程、線程管理的開銷,CPU、內存消耗都小。 所以Nginx、Squid都是這樣做的。當然,Nginx也可以是多進程 + 事件驅動的模式,幾個進程跑libevent,不需要Apache那樣動輒數百的進程數。Nginx處理靜態(tài)文件效果也很好,那是因為靜態(tài)文件本身也是磁盤IO操作,處理過程一樣。至于說多少萬的并發(fā)連接,這個毫無意義。隨手寫個網絡程序都能處理幾萬的并發(fā),但如果大部分客戶端阻塞在那里,就沒什么價值。 再看看Apache或者Resin這類應用服務器,之所以稱他們?yōu)閼梅掌?,是因為他們真的要跑具體的業(yè)務應用,如科學計算、圖形圖像、數據庫讀寫等。它們很可能是CPU密集型的服務,事件驅動并不合適。例如一個計算耗時2秒,那么這2秒就是完全阻塞的,什么event都沒用。想想MySQL如果改成事件驅動會怎么樣,一個大型的join或sort就會阻塞住所有客戶端。這個時候多進程或線程就體現(xiàn)出優(yōu)勢,每個進程各干各的事,互不阻塞和干擾。當然,現(xiàn)代CPU越來越快,單個計算阻塞的時間可能很小,但只要有阻塞,事件編程就毫無優(yōu)勢。所以進程、線程這類技術,并不會消失,而是與事件機制相輔相成,長期存在。 總言之,事件驅動適合于IO密集型服務,多進程或線程適合于CPU密集型服務,它們各有各的優(yōu)勢,并不存在誰取代誰的傾向。
|
|