 編譯器是連接人類世界與機器世界之間的一座橋梁,它可將程序員理解的高級語言,轉換成程序高效執(zhí)行的機器碼。在 C/C++ 編譯器里,有 VC、Borland C++、GCC、Watcom C/C++ 等國外熱門編譯器,但屬于國內自主研發(fā)的編譯器較少。畢竟開發(fā)一款實用的編譯器不易,涉及前端詞法、語法分析、語意分析、大量的編譯優(yōu)化等工作。而有一支團隊,不惜花費十余年精力完全自主研發(fā)出一款 YC 編譯器和 YC 瀏覽器內核。為何他們不遺余力地自主研發(fā)編譯器和瀏覽器內核?這款編譯器有何優(yōu)點呢?下面由 YC 編譯器的主要作者之一——楊曉兵,來講述這背后十多年來的漫漫研發(fā)路。初衷:“做一些對軟件行業(yè)進步有幫助的東西”十多年前,我在中國科學院電子學研究所工作,參與設計一些硬件電路。當時我對硬件的興趣遠超軟件,后創(chuàng)業(yè)專門從事軟件工作。我在創(chuàng)業(yè)的過程中發(fā)現,做此類軟件雖能賺錢,但無論做得怎樣,對軟件科學的進步都無絲毫作用。盡管付出很多,卻無成就感。操作系統(tǒng)、數據庫、編譯器以及瀏覽器內核是不需要特殊專業(yè)知識的、開發(fā)難度非常大、最基礎的軟件產品。我想從這幾種軟件中選擇其中一項來自主研發(fā),雖然不能肯定做出什么成就,但我有希望能做出一些對軟件行業(yè)進步有所幫助的東西,使自己不枉踏入軟件這個行業(yè)。根據當時的情況,我發(fā)現可先從瀏覽器內核下手,于是我除了維護原有產品外,把主要精力都投入到瀏覽器的研發(fā)中。 兩年后,我們研發(fā)完成瀏覽器內核的基本功能,如 HTML 的解析和顯示、JavaScript 腳本的執(zhí)行等。此時,我們發(fā)現 HTML 的標準越來越復雜,導致開發(fā)難度越來越大,如果按照這樣的發(fā)展,瀏覽器內核將無法走入市場。于是我重新思考:如果把 C 語言處理成像 JavaScript 腳本嵌入到 HTML 中,用內嵌 C 代碼的 HTML 超文本做軟件的人機交互界面,這款內核應該會有點競爭優(yōu)勢。于是我們花費兩年半的時間將標準 C 語言以 JavaScript 相似的方式在 HTML 中執(zhí)行,并擴展了一個 HTML 標簽:<user>,每個 user 標簽都可以用屬性 src 指定一個 C 源碼文件,user標簽的顯示界面和所有行為都由它的 C 代碼決定。同時將 C 編譯器做成一個函數,用該函數編譯生成 C 程序的可執(zhí)行代碼,執(zhí)行代碼可被存入文件或直接執(zhí)行。此時,我們將編譯器取名為 YC 編譯器,瀏覽器內核取名為 YC 瀏覽器。隨后,我們繼續(xù)完善瀏覽器內核,將其中的一些內核代碼獨立出來用內嵌編譯器動態(tài)編譯執(zhí)行,并將大部分內核源代碼開源。與此同時,我們又遇到一個問題:YC 編譯器雖然編譯速度較快,生成的卻是字節(jié)碼,執(zhí)行速度慢,而且與原生代碼相互調用(特別是回調函數)的處理相當繁瑣。因此用當時的 YC 編譯器難以勝任開源代碼的編譯工作。為了解決自編譯瀏覽器內核代碼的問題,我們決定修改 YC 編譯器,使它的字節(jié)碼轉換為原生的執(zhí)行碼,并擴展語法,使之具有少量的 C++ 語法。這個工作持續(xù)了三年。三年后,YC 編譯器功能增多,它提供一個函數像調用動態(tài)鏈接庫一樣直接調用 C 源碼中的函數。此時,瀏覽器內核開源部分都可以用 YC 編譯器實時編譯執(zhí)行了。我們繼續(xù)改進瀏覽器內核,將速度很慢的 JavaScript 字節(jié)碼改為二進制原生代碼,使 JavaScript 的執(zhí)行速度約提高約 100 多倍。同時將瀏覽器內核代碼全部模塊化并開源,每個模塊都用 YC 編譯器動態(tài)編譯執(zhí)行,編譯器的部分源碼也開源(如內嵌匯編編譯器源碼、反匯編源碼、C/C++ 字節(jié)碼的執(zhí)行源碼等),所有的開源代碼均由內嵌的 YC 編譯器自動檢測編譯,動態(tài)執(zhí)行。這個工作大概耗時四年。開發(fā)至此,我想起谷歌和火狐瀏覽器都已開源,為什么不去看看它們的源代碼呢?于是找到這兩個瀏覽器的源碼。當時由于一些原因,我分析谷歌瀏覽器源碼沒有編譯通過,而火狐的源碼很順利就編譯成功了,于是我就走上了分析火狐源碼之路。下載的火狐源碼由純 C 代碼和 C++ 代碼兩部分組成,經 Visual C++ 2013 編譯生成一個 xul.dll 文件和一個 firefox.exe 文件。我首先分析了它的 C 代碼,將所有的輸出函數全部改為類接口,并讓 xul.dll 通過 YC 編譯器函數 YC_cppLoad() 進行實時編譯,然后用類接口調用 C 源碼中的函數。這一步進行得很順利,若修改了火狐的 C 代碼,只要重新運行火狐瀏覽器便可生效,無需其它操作。接下來開始分析火狐 C++ 代碼。YC 編譯器只實現了少數幾個 C++ 語法,不能編譯火狐 C++ 代碼,故分析起來非常困難。為什么火狐 C 代碼容易分析,而它的 C++ 代碼難以分析呢?原來我用 YC 編譯器將它的 C 代碼生成匯編代碼文件、變量結構定義文件、宏定義文件和預編譯文件,通過這幾個文件,大大減少了分析難度。因此我再次決定修改 YC 編譯器,使之完全支持 C++11 標準,因為火狐 C++ 代碼幾乎使用了所有的 C++11 語法特性。先使用 STL 標準模板庫代碼進行編譯器的修改和調試,出乎預料,這個過程竟用了三年時間!之后,我用 YC++ 編譯器開始調試火狐 C++ 代碼。原以為 STL 那么復雜的代碼都可以編譯通過并正確執(zhí)行,火狐 C++ 代碼應該能很快就編譯通過。沒想到,很多語法細節(jié) STL 沒有用到,而火狐 C++ 源碼用到了。于是又繼續(xù)修改 YC 編譯器,對火狐 C++ 的各個模塊進行編譯,這個過程持續(xù)了一年多。雖然 YC 編譯器可以編譯全部火狐 C++ 代碼,但如何生成執(zhí)行代碼呢?先從主程序 Firefox.cpp 入手,經整理,這個程序可用 YC 編譯器生成執(zhí)行代碼 Firefox.exe,并能順利運行。由于火狐 C++ 各模塊耦合緊密,很難拆分,經過一個多月的工作,仍未能將其拆成多個獨立的源碼模塊以便于用 YC 編譯器實時編譯,動態(tài)執(zhí)行,這也許是我對火狐 C++ 源碼的整體結構還不甚清楚之故,只見其樹木不見其森林。當我準備對火狐 C++ 代碼進行再一次總體分析時,有個偶然的機會參與到一個學校管理系統(tǒng)的開發(fā)中,因原有的管理系統(tǒng)經常出故障,操作極其不方便。盡管沒有開發(fā) Web 服務程序的經歷,但我做的軟件與 Web 服務器有極大關系。經了解,要開發(fā)這種管理系統(tǒng)需要的軟件有:Apache 或 Nginx 服務器,數據庫 MySQL 或其它,編程工具 ASP 或 JSP 或 PHP 等,于是啟發(fā)我們自己研發(fā)這些工具。YC 的 C/C++ 和 JavaScript 編譯器和 HTML 解析器正好派上用場。經過一段時間,一個穩(wěn)定的、可任意擴展的、多線程高并發(fā)的 HTTP 服務器就完成了。該服務器處理 YSP 文件生成網頁傳給瀏覽器。YSP 是我設計的與 ASP、JSP 和 PHP 功能相似的一種網頁編程語言。YC 服務器執(zhí)行 YSP 文件中的內嵌 C/C++ 或 JavaScript 代碼,生成 HTML 超文本傳給終端設備。工具做好后,不久便做出了管理系統(tǒng)的雛形,這個雛形在發(fā)布的 YC 編譯器中可見到。做了上述這些工作后,我想是時候該寫本書介紹一下 YC 編譯器了,經過一段時間編寫的《YC編譯器—多語言程序設計》(暫名)即將出版。 當我把書完成后,便立即投入64位的C/C++和JavaScript編譯器的開發(fā),目前開發(fā)進展順利,已進入測試階段。編者后記: 三年時間,可將一個呱呱落地的嬰兒變成蹦蹦跳跳的幼兒,可將一名懵懂的職場新人變成沉穩(wěn)的老兵。而楊曉兵團隊沉下心,迎難而上,花費三年又三年、再一年、兩年、四年的時間只為突破一個個技術難點,最終自研出 YC 編譯器和 YC 瀏覽器內核。 在這過程中,楊曉兵坦言最大的挑戰(zhàn)不僅是技術,還有思維的高度。這期間不僅有大量的研發(fā)工作,還為了優(yōu)化,多次重寫代碼,讓他堅持下來的是想為計算機軟件科學的發(fā)展做貢獻的匠心。 目前楊曉兵團隊正在開發(fā) 64 位 C/C++ 編譯器,談及未來,楊曉兵表示先在國內推廣,再走向海外。祝福楊曉兵。 《原力計劃【第二季】- 學習力挑戰(zhàn)》正式開始! 即日起至 3月21日,千萬流量支持原創(chuàng)作者,更有專屬【勛章】等你來挑戰(zhàn)
|