java內(nèi)存分配和String類型的深度解析

Bladexu的文庫 2019-03-17

展開全文

一、引題

在java語言的所有數(shù)據(jù)類型中，String類型是比較特殊的一種類型，同時也是面試的時候經(jīng)常被問到的一個知識點，本文結(jié)合java內(nèi)存分配深度分析關(guān)于String的許多令人迷惑的問題。下面是本文將要涉及到的一些問題，如果讀者對這些問題都了如指掌，則可忽略此文。

1、java內(nèi)存具體指哪塊內(nèi)存？這塊內(nèi)存區(qū)域為什么要進(jìn)行劃分？是如何劃分的？劃分之后每塊區(qū)域的作用是什么？如何設(shè)置各個區(qū)域的大??？

2、String類型在執(zhí)行連接操作時，效率為什么會比StringBuffer或者StringBuilder低？StringBuffer和StringBuilder有什么聯(lián)系和區(qū)別？

3、java中常量是指什么？String s = “s” 和 String s = new String(“s”) 有什么不一樣？

本文經(jīng)多方資料的收集整理和歸納，最終撰寫成文，如果有錯誤之處，請多多指教！

二、java內(nèi)存分配

1、JVM簡介

Java虛擬機（Java Virtual Machine 簡稱JVM）是運行所有Java程序的抽象計算機，是Java語言的運行環(huán)境，它是Java 最具吸引力的特性之一。Java虛擬機有自己完善的硬體架構(gòu)，如處理器、堆棧、寄存器等，還具有相應(yīng)的指令系統(tǒng)。JVM屏蔽了與具體操作系統(tǒng)平臺相關(guān)的信息，使得Java程序只需生成在Java虛擬機上運行的目標(biāo)代碼（字節(jié)碼），就可以在多種平臺上不加修改地運行。

一個運行時的Java虛擬機實例的天職是：負(fù)責(zé)運行一個java程序。當(dāng)啟動一個Java程序時，一個虛擬機實例也就誕生了。當(dāng)該程序關(guān)閉退出，這個虛擬機實例也就隨之消亡。如果同一臺計算機上同時運行三個Java程序，將得到三個Java虛擬機實例。每個Java程序都運行于它自己的Java虛擬機實例中。

如下圖所示，JVM的體系結(jié)構(gòu)包含幾個主要的子系統(tǒng)和內(nèi)存區(qū)：

垃圾回收器（Garbage Collection）：負(fù)責(zé)回收堆內(nèi)存（Heap）中沒有被使用的對象，即這些對象已經(jīng)沒有被引用了。

類裝載子系統(tǒng)（Classloader Sub-System）：除了要定位和導(dǎo)入二進(jìn)制class文件外，還必須負(fù)責(zé)驗證被導(dǎo)入類的正確性，為類變量分配并初始化內(nèi)存，以及幫助解析符號引用。

執(zhí)行引擎（Execution Engine）：負(fù)責(zé)執(zhí)行那些包含在被裝載類的方法中的指令。

運行時數(shù)據(jù)區(qū)（Java Memory Allocation Area）：又叫虛擬機內(nèi)存或者Java內(nèi)存，虛擬機運行時需要從整個計算機內(nèi)存劃分一塊內(nèi)存區(qū)域存儲許多東西。例如：字節(jié)碼、從已裝載的class文件中得到的其他信息、程序創(chuàng)建的對象、傳遞給方法的參數(shù)，返回值、局部變量等等。

java內(nèi)存分配和String類型的深度解析

2、java內(nèi)存分區(qū)

從上節(jié)知道，運行時數(shù)據(jù)區(qū)即是java內(nèi)存，而且數(shù)據(jù)區(qū)要存儲的東西比較多，如果不對這塊內(nèi)存區(qū)域進(jìn)行劃分管理，會顯得比較雜亂無章。程序喜歡有規(guī)律的東西，最討厭雜亂無章的東西。根據(jù)存儲數(shù)據(jù)的不同，java內(nèi)存通常被劃分為5個區(qū)域：程序計數(shù)器（Program Count Register）、本地方法棧（Native Stack）、方法區(qū)（Methon Area）、棧（Stack）、堆（Heap）。

程序計數(shù)器（Program Count Register）：又叫程序寄存器。JVM支持多個線程同時運行，當(dāng)每一個新線程被創(chuàng)建時，它都將得到它自己的PC寄存器（程序計數(shù)器）。如果線程正在執(zhí)行的是一個Java方法（非native），那么PC寄存器的值將總是指向下一條將被執(zhí)行的指令，如果方法是 native的，程序計數(shù)器寄存器的值不會被定義。 JVM的程序計數(shù)器寄存器的寬度足夠保證可以持有一個返回地址或者native的指針。

棧（Stack）：又叫堆棧。JVM為每個新創(chuàng)建的線程都分配一個棧。也就是說,對于一個Java程序來說，它的運行就是通過對棧的操作來完成的。棧以幀為單位保存線程的狀態(tài)。JVM對棧只進(jìn)行兩種操作：以幀為單位的壓棧和出棧操作。我們知道,某個線程正在執(zhí)行的方法稱為此線程的當(dāng)前方法。我們可能不知道，當(dāng)前方法使用的幀稱為當(dāng)前幀。當(dāng)線程激活一個Java方法，JVM就會在線程的 Java堆棧里新壓入一個幀，這個幀自然成為了當(dāng)前幀。在此方法執(zhí)行期間，這個幀將用來保存參數(shù)、局部變量、中間計算過程和其他數(shù)據(jù)。從Java的這種分配機制來看,堆棧又可以這樣理解：棧(Stack)是操作系統(tǒng)在建立某個進(jìn)程時或者線程(在支持多線程的操作系統(tǒng)中是線程)為這個線程建立的存儲區(qū)域，該區(qū)域具有先進(jìn)后出的特性。其相關(guān)設(shè)置參數(shù)：

-Xss –設(shè)置方法棧的最大值

本地方法棧（Native Stack）：存儲本地方方法的調(diào)用狀態(tài)。

java內(nèi)存分配和String類型的深度解析

方法區(qū)（Method Area）：當(dāng)虛擬機裝載一個class文件時，它會從這個class文件包含的二進(jìn)制數(shù)據(jù)中解析類型信息，然后把這些類型信息（包括類信息、常量、靜態(tài)變量等）放到方法區(qū)中，該內(nèi)存區(qū)域被所有線程共享，如下圖所示。本地方法區(qū)存在一塊特殊的內(nèi)存區(qū)域，叫常量池（Constant Pool），這塊內(nèi)存將與String類型的分析密切相關(guān)。

java內(nèi)存分配和String類型的深度解析

堆（Heap）：Java堆（Java Heap）是Java虛擬機所管理的內(nèi)存中最大的一塊。Java堆是被所有線程共享的一塊內(nèi)存區(qū)域。在此區(qū)域的唯一目的就是存放對象實例，幾乎所有的對象實例都是在這里分配內(nèi)存，但是這個對象的引用卻是在棧（Stack）中分配。因此，執(zhí)行String s = new String(“s”)時，需要從兩個地方分配內(nèi)存：在堆中為String對象分配內(nèi)存，在棧中為引用（這個堆對象的內(nèi)存地址，即指針）分配內(nèi)存，如下圖所示。

java內(nèi)存分配和String類型的深度解析

JAVA虛擬機有一條在堆中分配新對象的指令，卻沒有釋放內(nèi)存的指令，正如你無法用Java代碼區(qū)明確釋放一個對象一樣。虛擬機自己負(fù)責(zé)決定如何以及何時釋放不再被運行的程序引用的對象所占據(jù)的內(nèi)存，通常，虛擬機把這個任務(wù)交給垃圾收集器（Garbage Collection）。其相關(guān)設(shè)置參數(shù)：

-Xms — 設(shè)置堆內(nèi)存初始大小
-Xmx — 設(shè)置堆內(nèi)存最大值
-XX:MaxTenuringThreshold — 設(shè)置對象在新生代中存活的次數(shù)
-XX:PretenureSizeThreshold — 設(shè)置超過指定大小的大對象直接分配在舊生代中

Java堆是垃圾收集器管理的主要區(qū)域，因此又稱為“GC 堆”（Garbage Collectioned Heap）?，F(xiàn)在的垃圾收集器基本都是采用的分代收集算法，所以Java堆還可以細(xì)分為：新生代（Young Generation）和老年代（Old Generation），如下圖所示。分代收集算法的思想：第一種說法，用較高的頻率對年輕的對象(young generation)進(jìn)行掃描和回收，這種叫做minor collection，而對老對象(old generation)的檢查回收頻率要低很多，稱為major collection。這樣就不需要每次GC都將內(nèi)存中所有對象都檢查一遍，以便讓出更多的系統(tǒng)資源供應(yīng)用系統(tǒng)使用；另一種說法，在分配對象遇到內(nèi)存不足時，先對新生代進(jìn)行GC（Young GC）；當(dāng)新生代GC之后仍無法滿足內(nèi)存空間分配需求時，才會對整個堆空間以及方法區(qū)進(jìn)行GC（Full GC）。

java內(nèi)存分配和String類型的深度解析

在這里可能會有讀者表示疑問：記得還有一個什么永久代（Permanent Generation）的啊，難道它不屬于Java堆？親，你答對了！其實傳說中的永久代就是上面所說的方法區(qū)，存放的都是jvm初始化時加載器加載的一些類型信息（包括類信息、常量、靜態(tài)變量等），這些信息的生存周期比較長，GC不會在主程序運行期對PermGen Space進(jìn)行清理，所以如果你的應(yīng)用中有很多CLASS的話,就很可能出現(xiàn)PermGen Space錯誤。其相關(guān)設(shè)置參數(shù)：

-XX:PermSize –設(shè)置Perm區(qū)的初始大小
-XX:MaxPermSize –設(shè)置Perm區(qū)的最大值

新生代（Young Generation）又分為：Eden區(qū)和Survivor區(qū)，Survivor區(qū)有分為From Space和To Space。Eden區(qū)是對象最初分配到的地方；默認(rèn)情況下，F(xiàn)rom Space和To Space的區(qū)域大小相等。JVM進(jìn)行Minor GC時，將Eden中還存活的對象拷貝到Survivor區(qū)中，還會將Survivor區(qū)中還存活的對象拷貝到Tenured區(qū)中。在這種GC模式下，JVM為了提升GC效率，將Survivor區(qū)分為From Space和To Space，這樣就可以將對象回收和對象晉升分離開來。新生代的大小設(shè)置有2個相關(guān)參數(shù)：

-Xmn — 設(shè)置新生代內(nèi)存大小。
-XX:SurvivorRatio — 設(shè)置Eden與Survivor空間的大小比例

老年代（Old Generation）：當(dāng) OLD 區(qū)空間不夠時， JVM 會在 OLD 區(qū)進(jìn)行 major collection；完全垃圾收集后，若Survivor及OLD區(qū)仍然無法存放從Eden復(fù)制過來的部分對象，導(dǎo)致JVM無法在Eden區(qū)為新對象創(chuàng)建內(nèi)存區(qū)域，則出現(xiàn)”O(jiān)ut of memory錯誤” 。

三、String類型的深度解析

讓我們從Java數(shù)據(jù)類型開始說起吧！Java數(shù)據(jù)類型通常（分類方法多種多樣）從整體上可以分為兩大類：基礎(chǔ)類型和引用類型，基礎(chǔ)類型的變量持有原始值，引用類型的變量通常表示的是對實際對象的引用，其值通常為對象的內(nèi)存地址。對于基礎(chǔ)類型和引用類型的細(xì)分，直接上圖吧，大家看了一目了然。當(dāng)然，下圖也僅僅只是其中的一種分類方式。

（原文圖丟失）

針對上面的圖，有3點需要說明：

char類型可以單獨出來形成一類，很多基本類型的分類為：數(shù)值類型、字符型（char）和bool型。
returnAddress類型是一個Java虛擬機在內(nèi)部使用的類型，被用來實現(xiàn)Java程序中的finally語句。
String類型在上圖的什么位置？yes，屬于引用類型下面的類類型。下面開始對String類型的挖掘！

1、String的本質(zhì)

打開String的源碼，類注釋中有這么一段話“Strings are constant; their values cannot be changed after they are created. String buffers support mutable strings.Because String objects are immutable they can be shared.”。這句話總結(jié)歸納了String的一個最重要的特點：String是值不可變(immutable)的常量，是線程安全的(can be shared)。

接下來，String類使用了final修飾符，表明了String類的第二個特點：String類是不可繼承的。

下面是String類的成員變量定義，從類的實現(xiàn)上闡明了String值是不可變的(immutable)。

private final char value[];

private final int count;

因此，我們看String類的concat方法。實現(xiàn)該方法第一步要做的肯定是擴大成員變量value的容量，擴容的方法重新定義一個大容量的字符數(shù)組buf。第二步就是把原來value中的字符copy到buf中來，再把需要concat的字符串值也copy到buf中來，這樣子，buf中就包含了concat之后的字符串值。下面就是問題的關(guān)鍵了，如果value不是final的，直接讓value指向buf，然后返回this，則大功告成，沒有必要返回一個新的String對象。但是。。?？上А?。。由于value是final型的，所以無法指向新定義的大容量數(shù)組buf，那怎么辦呢？“return new String(0, count + otherLen, buf);”，這是String類concat實現(xiàn)方法的最后一條語句，重新new一個String對象返回。這下真相大白了吧！

總結(jié)：String實質(zhì)是字符數(shù)組，兩個特點：1、該類不可被繼承；2、不可變性(immutable)。

java內(nèi)存分配和String類型的深度解析

2、String的定義方法

在討論String的定義方法之前，先了解一下常量池的概念，前面在介紹方法區(qū)的時候已經(jīng)提到過了。下面稍微正式的給一個定義吧。

常量池(constant pool)指的是在編譯期被確定，并被保存在已編譯的.class文件中的一些數(shù)據(jù)。它包括了關(guān)于類、方法、接口等中的常量，也包括字符串常量。常量池還具備動態(tài)性，運行期間可以將新的常量放入池中，String類的intern()方法是這一特性的典型應(yīng)用。不懂嗎？后面會介紹intern方法的。虛擬機為每個被裝載的類型維護(hù)一個常量池，池中為該類型所用常量的一個有序集合，包括直接常量(string、integer和float常量)和對其他類型、字段和方法的符號引用（與對象引用的區(qū)別？讀者可以自己去了解）。

String的定義方法歸納起來總共為三種方式：

使用關(guān)鍵字new，如：String s1 = new String(“myString”);
直接定義，如：String s1 = “myString”;
串聯(lián)生成，如：String s1 = “my” + “String”;這種方式比較復(fù)雜，這里就不贅述了，請參見java–String常量池問題的幾個例子。

第一種方式通過關(guān)鍵字new定義過程：在程序編譯期，編譯程序先去字符串常量池檢查，是否存在“myString”,如果不存在，則在常量池中開辟一個內(nèi)存空間存放“myString”；如果存在的話，則不用重新開辟空間，保證常量池中只有一個“myString”常量，節(jié)省內(nèi)存空間。然后在內(nèi)存堆中開辟一塊空間存放new出來的String實例，在棧中開辟一塊空間，命名為“s1”，存放的值為堆中String實例的內(nèi)存地址，這個過程就是將引用s1指向new出來的String實例。各位，最模糊的地方到了！堆中new出來的實例和常量池中的“myString”是什么關(guān)系呢？等我們分析完了第二種定義方式之后再回頭分析這個問題。

第二種方式直接定義過程：在程序編譯期，編譯程序先去字符串常量池檢查，是否存在“myString”，如果不存在，則在常量池中開辟一個內(nèi)存空間存放“myString”；如果存在的話，則不用重新開辟空間。然后在棧中開辟一塊空間，命名為“s1”，存放的值為常量池中“myString”的內(nèi)存地址。常量池中的字符串常量與堆中的String對象有什么區(qū)別呢？為什么直接定義的字符串同樣可以調(diào)用String對象的各種方法呢？

帶著諸多疑問，我和大家一起探討一下堆中String對象和常量池中String常量的關(guān)系，請大家記住，僅僅是探討，因為本人對這塊也比較模糊。

第一種猜想：因為直接定義的字符串也可以調(diào)用String對象的各種方法，那么可以認(rèn)為其實在常量池中創(chuàng)建的也是一個String實例（對象）。String s1 = new String(“myString”);先在編譯期的時候在常量池創(chuàng)建了一個String實例，然后clone了一個String實例存儲在堆中，引用s1指向堆中的這個實例。此時，池中的實例沒有被引用。當(dāng)接著執(zhí)行String s1 = “myString”;時，因為池中已經(jīng)存在“myString”的實例對象，則s1直接指向池中的實例對象；否則，在池中先創(chuàng)建一個實例對象，s1再指向它。如下圖所示：

這種猜想認(rèn)為：常量池中的字符串常量實質(zhì)上是一個String實例，與堆中的String實例是克隆關(guān)系。

第二種猜想也是目前網(wǎng)上闡述的最多的，但是思路都不清晰，有些問題解釋不通。下面引用《JAVA String對象和字符串常量的關(guān)系解析》一段內(nèi)容。

在解析階段，虛擬機發(fā)現(xiàn)字符串常量”myString”，它會在一個內(nèi)部字符串常量列表中查找，如果沒有找到，那么會在堆里面創(chuàng)建一個包含字符序列[myString]的String對象s1，然后把這個字符序列和對應(yīng)的String對象作為名值對( [myString], s1 )保存到內(nèi)部字符串常量列表中。如下圖所示：

java內(nèi)存分配和String類型的深度解析

如果虛擬機后面又發(fā)現(xiàn)了一個相同的字符串常量myString，它會在這個內(nèi)部字符串常量列表內(nèi)找到相同的字符序列，然后返回對應(yīng)的String對象的引用。維護(hù)這個內(nèi)部列表的關(guān)鍵是任何特定的字符序列在這個列表上只出現(xiàn)一次。

例如，String s2 = “myString”，運行時s2會從內(nèi)部字符串常量列表內(nèi)得到s1的返回值，所以s2和s1都指向同一個String對象。

這個猜想有一個比較明顯的問題，紅色字體標(biāo)示的地方就是問題的所在。證明方式很簡單，下面這段代碼的執(zhí)行結(jié)果，javaer都應(yīng)該知道。

String s1 = new String(“myString”);

String s2 = “myString”;

System.out.println(s1 == s2); //按照上面的推測邏輯，那么打印的結(jié)果為true；而實際上真實的結(jié)果是false，因為s1指向的是堆中String對象，而s2指向的是常量池中的String常量。

java內(nèi)存分配和String類型的深度解析

雖然這段內(nèi)容不那么有說服力，但是文章提到了一個東西——字符串常量列表，它可能是解釋這個問題的關(guān)鍵。

文中提到的三個問題，本文僅僅給出了猜想，請知道真正內(nèi)幕的高手幫忙分析分析，謝謝！

堆中new出來的實例和常量池中的“myString”是什么關(guān)系呢？
常量池中的字符串常量與堆中的String對象有什么區(qū)別呢？
為什么直接定義的字符串同樣可以調(diào)用String對象的各種方法呢？

3、String、StringBuffer、StringBuilder的聯(lián)系與區(qū)別

上面已經(jīng)分析了String的本質(zhì)了，下面簡單說說StringBuffer和StringBuilder。

StringBuffer和StringBuilder都繼承了抽象類AbstractStringBuilder，這個抽象類和String一樣也定義了char[] value和int count，但是與String類不同的是，它們沒有final修飾符。因此得出結(jié)論：String、StringBuffer和StringBuilder在本質(zhì)上都是字符數(shù)組，不同的是，在進(jìn)行連接操作時，String每次返回一個新的String實例，而StringBuffer和StringBuilder的append方法直接返回this，所以這就是為什么在進(jìn)行大量字符串連接運算時，不推薦使用String，而推薦StringBuffer和StringBuilder。那么，哪種情況使用StringBuffe？哪種情況使用StringBuilder呢？

關(guān)于StringBuffer和StringBuilder的區(qū)別，翻開它們的源碼，下面貼出append()方法的實現(xiàn)。

java內(nèi)存分配和String類型的深度解析

面第一張圖是StringBuffer中append()方法的實現(xiàn)，第二張圖為StringBuilder對append()的實現(xiàn)。區(qū)別應(yīng)該一目了然，StringBuffer在方法前加了一個synchronized修飾，起到同步的作用，可以在多線程環(huán)境使用。為此付出的代價就是降低了執(zhí)行效率。因此，如果在多線程環(huán)境可以使用StringBuffer進(jìn)行字符串連接操作，單線程環(huán)境使用StringBuilder，它的效率更高。