(溫馨提示:簡(jiǎn)化字版本見(jiàn)後。此外文章裏面有一些偏技術(shù)性的內(nèi)容,暫時(shí)看不懂的話先忽略就好,以後接觸到了再去理解不遲。) 目前,中國(guó)歷代皇族裏,愛(ài)新覺(jué)羅家族的Y染色體已經(jīng)確定,是C2b1b2a-F14751下面的,屬原先的C3北支即現(xiàn)在的C2b-F1396,和成吉思汗以前的黃金家族C2b1b1-F3796較近(見(jiàn)《人類學(xué)雜記 39》)。除此以外,朱明皇族和耶律家族目前已知有一些證據(jù),但仍然沒(méi)有定論。 我接下來(lái)希望能確定的是趙宋皇族的Y染色體。趙宋皇族指太祖趙匡胤和太宗趙光義之父趙弘殷的後代。北宋自太宗之後,直到徽宗、欽宗的歷代皇帝,以及南宋的開(kāi)國(guó)皇帝高宗,都是太宗的後代。但太宗支在靖康之難後所剩無(wú)幾。高宗無(wú)嗣,南宋從孝宗開(kāi)始,皇位分屬於太祖趙匡胤的兩個(gè)兒子德芳、德昭兩人的後代。宋朝皇室普遍人丁不很興旺,皇位父子相傳最多三代,之後就需要由旁支入繼。此外太祖和太宗的弟弟,魏王趙廷美也有較多的後代傳承到現(xiàn)在。也即,現(xiàn)有的宋朝皇室後代根據(jù)家譜,主要屬於太祖後代的德昭、德芳,及魏王廷美這三派,另外也有一些家族自稱是太宗的後代。 我?guī)啄昵熬烷_(kāi)始與德昭派(譜上接近宋理宗)的趙誼夫先生(分子人類學(xué)論壇和新浪微博的 @Greenbrothers )合作,探尋趙宋皇族的Y染色體。因爲(wèi)至今仍沒(méi)有合適的古DNA樣本,我們?nèi)匀皇窃噲D通過(guò)活人的樣本來(lái)解謎的。2015年趙宋宗親在浙江諸曁農(nóng)村一所祠堂舉行了一次祭祖大會(huì),趙誼夫先生帶著我去對(duì)多位宗親採(cǎi)了血樣。除了這次採(cǎi)到了諸曁的多個(gè)家族以外,我還採(cǎi)到過(guò)譜記爲(wèi)趙宋皇族的福建泉州(原南外宗正司所在地);浙江紹興越城,杭州富陽(yáng)、蕭山,寧波餘姚;安徽太湖;山東棗莊等地的趙宋皇族(依自述,不都有完整家譜)。 以上自稱爲(wèi)趙宋皇族的,去除最近的重複樣本(同村或者不同村但譜記清代或以後共祖,且STR相差2步以內(nèi)),共有27支,測(cè)下來(lái)是這樣的情況: O1a1a-P203: 16支 Cα-F1271: 3支 N-M231: 2支 O2a1a1a1a1-M121、Oγ-F11、O2a2a1a1-M159、Oβ-F46、Oα1a1a-F155、R1a1a-M17各1支 從以上數(shù)據(jù)來(lái)看,似乎結(jié)果是明確的,O1a1a-P203單倍羣是絕對(duì)的候選。但問(wèn)題在於,以上27支中有16支的籍貫是浙江紹興,其中包括了12支O1a1a-P203。而且其中也發(fā)現(xiàn)了一些DNA不符合晚近家譜及族內(nèi)過(guò)繼的情況。這樣,除掉紹興以外的樣本,就是11支樣本,其中只有4支是O1a1a-P203了。因爲(wèi)趙家唐代時(shí)源於河北涿郡,而我手裏的數(shù)據(jù)O1a1a-P203在河北只有2%左右。而且O1a1a-P203又是在浙江比例最高的單倍羣(超過(guò)20%),推測(cè)可能主要來(lái)源於古代百越土著,北方分佈較少,不能排除是多支紹興當(dāng)?shù)氐耐林謩e進(jìn)入了趙宋的族譜。 除此之外,我們把所有自稱趙宋後裔的O1a1a-P203的樣本的15 Y-STR(傳統(tǒng)17 STR去掉DYS385a/b)拿出來(lái),做了一下網(wǎng)絡(luò)圖:
圖裏面的一個(gè)圓圈代表一個(gè)15 Y-STR的單倍型,圓圈的直徑和該單倍型的樣本數(shù)量成正比,連接圓圈的線段的長(zhǎng)度正比於單倍型之閒15 Y-STR相差的突變步數(shù)。圓圈的顏色,黃色爲(wèi)浙江紹興(主要爲(wèi)諸曁),綠色爲(wèi)福建泉州,其它顏色各是不同地方的。 現(xiàn)在問(wèn)題來(lái)了:趙宋的擴(kuò)張時(shí)閒應(yīng)該在1100年之內(nèi)(太祖生於公元927年),以上所有O1a1a-P203樣本從Y-STR來(lái)看,應(yīng)該遠(yuǎn)遠(yuǎn)超出了這個(gè)年代(同樣是15 Y-STR,對(duì)比愛(ài)新覺(jué)羅,600多年,兩兩之閒最多差3步;嚴(yán)嵩家族,600多年,兩兩之閒最多差4步),上圖的兩個(gè)大黃圈之閒相差都已經(jīng)有6步了,而且並不是一個(gè)晚近擴(kuò)張的星簇的形狀(因爲(wèi)年代較新的支系,通常還會(huì)有較多的現(xiàn)代後代維持始祖的Y-STR單倍型,保留在原處形成一個(gè)較大的圓圈,和其它有所突變的單倍型共同構(gòu)成一個(gè)星狀結(jié)構(gòu))。如果只看左邊的那部分,倒確實(shí)滿足一個(gè)1000年左右的擴(kuò)張,但問(wèn)題是都是紹興的樣本,盡管依族譜也分作德昭、德芳、太宗派下,但因太平天國(guó)時(shí)人丁銳減,之後出現(xiàn)了較多的族內(nèi)過(guò)繼,以我的角度來(lái)說(shuō),仍是孤例不能作證,就算他們確實(shí)構(gòu)成一個(gè)單系羣,也不足以說(shuō)明宋初的情況。 另外,上圖中每一個(gè)單倍型在我數(shù)據(jù)庫(kù)裏面搜,17 STR差2步之內(nèi)都能有大量其它姓氏的樣本匹配,因爲(wèi)O1a1a-P203下游F78+支系本身就在近4000年內(nèi)在中國(guó)南方有急劇擴(kuò)張。也就是說(shuō),我認(rèn)爲(wèi)以現(xiàn)有的證據(jù),還無(wú)法確認(rèn)趙宋皇族的Y染色體屬於O1a1a-P203這支。 因爲(wèi)用Y-STR估算時(shí)閒是非常不準(zhǔn)的,我後面準(zhǔn)備用自己的科硏經(jīng)費(fèi)測(cè)一些上面圖裏的樣本的Y染色體高通量測(cè)序,通過(guò)Y-SNP數(shù)量計(jì)算相對(duì)準(zhǔn)確一些的分離年代(10 Mbp以上區(qū)域能到100年左右一個(gè)突變)。同時(shí),把整個(gè)O1a-M119這一大支的Y高通量樹整個(gè)算一下,看看其中各層級(jí)的相對(duì)準(zhǔn)確的分化年代,以及拓?fù)浣Y(jié)構(gòu)和族羣分佈的特點(diǎn)。 爲(wèi)了以上的目的,我們現(xiàn)在向大家重點(diǎn)徵求兩樣?xùn)|西:一個(gè)是譜記趙宋皇族後代的樣本,一個(gè)是在復(fù)旦和源基因以外的其它機(jī)構(gòu)檢測(cè)得到的屬於O1a-M119這個(gè)支系的Y染色體高通量測(cè)序的bam文件。 因爲(wèi)我目前在實(shí)驗(yàn)室沒(méi)有學(xué)生能夠穩(wěn)定做實(shí)驗(yàn)(學(xué)生做這種簡(jiǎn)單實(shí)驗(yàn)太浪費(fèi),也太耽誤時(shí)閒,還是處理數(shù)據(jù)、寫文章能人盡其用),現(xiàn)在我這裏的樣本都是送到源基因( www.yoogene.com )去測(cè)的,對(duì)個(gè)人的服務(wù),有個(gè)網(wǎng)站也遠(yuǎn)比我個(gè)人小作坊要好很多,所以感興趣的人可以去源基因的網(wǎng)站上下個(gè)單,購(gòu)買相應(yīng)的產(chǎn)品,然後寄唾液過(guò)去就可以,就別非要跑到我實(shí)驗(yàn)室裏來(lái)找我抽血了。 如果有趙宋後代是有家譜的,並且希望能被免費(fèi)檢測(cè)Y-STR(源基因的“父系基礎(chǔ)版”),可以將自己的以下情況發(fā)送私信給新浪微博上的 @Greenbrothers :1. 屬於趙宋三支的哪一支;2. 譜系源流(XX趙氏、堂號(hào));3. 字輩和族內(nèi)上下各五代人的字輩;4. 南宋時(shí)屬於哪一支宗正司,等等。Greenbrothers可能會(huì)向您詢問(wèn)更詳細(xì)的內(nèi)容,以判斷您是否可以免費(fèi)參與我們的測(cè)試,能的話,會(huì)發(fā)給您一個(gè)源基因測(cè)試的免費(fèi)碼,您拿著這個(gè)碼在源基因下單就可以了。不能的話,您也仍然可以像一般人一樣付費(fèi)參與我們的測(cè)試。以愛(ài)新覺(jué)羅家族檢測(cè)的經(jīng)驗(yàn)來(lái)看,有詳細(xì)族譜的人的Y染色體確認(rèn)爲(wèi)努爾哈赤同宗的概率更高,但確實(shí)也有一些族譜不全、僅有家族記憶的人被證實(shí)爲(wèi)生物學(xué)意義的愛(ài)新覺(jué)羅的。 另外就是因爲(wèi)我打算後面處理O1a-M119的Y染色體高通量譜系樹,找新的突變、計(jì)算年代等等,希望大家能把在其它機(jī)構(gòu)測(cè)到的Y染色體高通量的bam文件上傳給我來(lái)做分析。這個(gè)是免費(fèi)的,而且結(jié)果會(huì)返給大家。其實(shí)不論哪個(gè)支系我都是需要的,前一陣算過(guò)C2a-F1067的,最近在重新算O2a2b1a1-M117(含Oα-F5)的,下一步計(jì)畫就是O1a-M119的了。因爲(wèi)Y染色體高通量測(cè)序的分析需要花費(fèi)的計(jì)算量和人工校正的成本都是巨大的,只能一支支輪著來(lái)算,能趕上這一波就盡量。自然對(duì)於Y染色體高通量測(cè)序來(lái)說(shuō),我最希望各位能在源基因做父系尊享版測(cè)序(質(zhì)檢通過(guò)後就能提供bam文件下載),這樣能保證捕獲區(qū)域、測(cè)序深度的一致性,後面時(shí)閒估算都會(huì)更準(zhǔn)確一些,而某些其它公司由於捕獲區(qū)域和我們很不一致,直接拿那個(gè)算出的分離年代肯定會(huì)更不精確,以至算時(shí)閒的時(shí)候只能把這些樣本的數(shù)據(jù)去掉(但樹形還是能用盡量用的)。而且我也碰上過(guò)其它一些公司的結(jié)果會(huì)在一些特定位點(diǎn)系統(tǒng)性地出現(xiàn)大量不符合樹形的突變,這些都需要我手工一一排除。 如果是要給我上傳其它機(jī)構(gòu)得到的Y高通量數(shù)據(jù),我仍然是把這個(gè)上傳接口放到源基因網(wǎng)站了,但後面的做樹的計(jì)算是我來(lái)做的,也會(huì)和復(fù)旦的其他同事合作,搜集盡可能多的全序數(shù)據(jù)一起來(lái)算樹。您可以在源基因註冊(cè)一個(gè)帳號(hào),裏面能找到“數(shù)據(jù)上傳”按鈕。首先一定要是二代測(cè)序的結(jié)果,大多數(shù)商業(yè)測(cè)試機(jī)構(gòu)用芯片得到的位點(diǎn)數(shù)據(jù)只是對(duì)已知位點(diǎn)作分型,對(duì)於找新位點(diǎn)和計(jì)算年代是沒(méi)用的。我只接受bam文件,要求大小在50 Mb – 700 Mb範(fàn)圍內(nèi)(偶爾可以放寬到1 Gb),是專門捕獲測(cè)Y染色體的數(shù)據(jù)測(cè)得的數(shù)據(jù),或者全基因組數(shù)據(jù)把Y染色體拆出來(lái)的bam文件。不接受vcf文件,因爲(wèi)其中只包含突變位點(diǎn),而沒(méi)有序列信息,也沒(méi)法取得某個(gè)位點(diǎn)是沒(méi)測(cè)到還是沒(méi)有突變的信息,其它機(jī)構(gòu)call vcf的過(guò)程中也可能出一些錯(cuò)誤。fastq文件如果在500 Mb – 1 Gb之閒的話也許是可以用的(也要看捕獲的情況,具體請(qǐng)和客服確認(rèn)。我將大小限制在50 Mb – 700 Mb這個(gè)範(fàn)圍,一來(lái)是我們的硬盤和數(shù)據(jù)量攷慮,另外也是爲(wèi)了數(shù)據(jù)質(zhì)量,因爲(wèi)數(shù)據(jù)量小於50 Mb的肯定測(cè)序深度過(guò)低,覆蓋範(fàn)圍不夠;而數(shù)據(jù)量大於700 Mb的如果是正常十幾Mbp的捕獲範(fàn)圍,都超出必要的捕獲深度了,有幾種情況:1. 測(cè)到的數(shù)據(jù)量(乘數(shù))本身過(guò)多,那麼建議只拿測(cè)到的一部分?jǐn)?shù)據(jù)給我們;2. 沒(méi)有去除重複序列,這種應(yīng)該由測(cè)序服務(wù)機(jī)構(gòu)去除重複後再給我們;3. 測(cè)的不是只捕的Y染色體,比如測(cè)的是全基因組(希望有30x以上,但略少於此也可以收),有幾十Gb以至上百Gb的數(shù)據(jù),這樣的情況下,可以請(qǐng)測(cè)序服務(wù)機(jī)構(gòu)用'samtools view -bh chrY 然後是錢的事。做測(cè)試、分析這些事本身需要錢,歡迎有對(duì)中國(guó)人父系祖源感興趣的人能夠贊助我們的項(xiàng)目或者投資源基因。之前C2a的項(xiàng)目就是有人花20萬(wàn)元贊助源基因和另一個(gè)公司測(cè)了一百多個(gè)Y高通量測(cè)序,要求就是把樹盡快(不要求等文章發(fā)表)無(wú)償公佈,最終結(jié)果還是很理想的,我們把C2a下游定出了上百個(gè)支系。但沒(méi)有更多的資助的話,趙宋這件事現(xiàn)在以我們目前的資源也能做下去。 最後也是最重要的,每一位來(lái)測(cè)祖源的人,在得到自己結(jié)果的同時(shí),都是爲(wèi)我們的祖源數(shù)據(jù)庫(kù)貢獻(xiàn)一份樣本。有了更大的樣本量和數(shù)據(jù)量,對(duì)中國(guó)人的祖源纔能做得更好,尋根工作也纔有更豐富的資源。 希望通過(guò)這一波樣本收集和Y染色體高通量測(cè)序,我們能確定趙宋皇族的Y染色體類型。 =========以下?tīng)?wèi)簡(jiǎn)化字版本========= 目前,中國(guó)歷代皇族里,愛(ài)新覺(jué)羅家族的Y染色體已經(jīng)確定,是C2b1b2a-F14751下面的,屬原先的C3北支即現(xiàn)在的C2b-F1396,和成吉思汗以前的黃金家族C2b1b1-F3796較近(見(jiàn)《人類學(xué)雜記 39》)。除此以外,朱明皇族和耶律家族目前已知有一些證據(jù),但仍然沒(méi)有定論。 我接下來(lái)希望能確定的是趙宋皇族的Y染色體。趙宋皇族指太祖趙匡胤和太宗趙光義之父趙弘殷的后代。北宋自太宗之后,直到徽宗、欽宗的歷代皇帝,以及南宋的開(kāi)國(guó)皇帝高宗,都是太宗的后代。但太宗支在靖康之難后所剩無(wú)幾。高宗無(wú)嗣,南宋從孝宗開(kāi)始,皇位分屬于太祖趙匡胤的兩個(gè)兒子德芳、德昭兩人的后代。宋朝皇室普遍人丁不很興旺,皇位父子相傳最多三代,之后就需要由旁支入繼。此外太祖和太宗的弟弟,魏王趙廷美也有較多的后代傳承到現(xiàn)在。也即,現(xiàn)有的宋朝皇室后代根據(jù)家譜,主要屬于太祖后代的德昭、德芳,及魏王廷美這三派,另外也有一些家族自稱是太宗的后代。 我?guī)啄昵熬烷_(kāi)始與德昭派(譜上接近宋理宗)的趙誼夫先生(分子人類學(xué)論壇和新浪微博的 @Greenbrothers )合作,探尋趙宋皇族的Y染色體。因?yàn)橹两袢詻](méi)有合適的古DNA樣本,我們?nèi)匀皇窃噲D通過(guò)活人的樣本來(lái)解謎的。2015年趙宋宗親在浙江諸暨農(nóng)村一所祠堂舉行了一次祭祖大會(huì),趙誼夫先生帶著我去對(duì)多位宗親采了血樣。除了這次采到了諸暨的多個(gè)家族以外,我還采到過(guò)譜記為趙宋皇族的福建泉州(原南外宗正司所在地);浙江紹興越城,杭州富陽(yáng)、蕭山,寧波余姚;安徽太湖;山東棗莊等地的趙宋皇族(依自述,不都有完整家譜)。 以上自稱為趙宋皇族的,去除最近的重復(fù)樣本(同村或者不同村但譜記清代或以后共祖,且STR相差2步以內(nèi)),共有27支,測(cè)下來(lái)是這樣的情況: O1a1a-P203: 16支 Cα-F1271: 3支 N-M231: 2支 O2a1a1a1a1-M121、Oγ-F11、O2a2a1a1-M159、Oβ-F46、Oα1a1a-F155、R1a1a-M17各1支 從以上數(shù)據(jù)來(lái)看,似乎結(jié)果是明確的,O1a1a-P203單倍群是絕對(duì)的候選。但問(wèn)題在于,以上27支中有16支的籍貫是浙江紹興,其中包括了12支O1a1a-P203。而且其中也發(fā)現(xiàn)了一些DNA不符合晚近家譜及族內(nèi)過(guò)繼的情況。這樣,除掉紹興以外的樣本,就是11支樣本,其中只有4支是O1a1a-P203了。因?yàn)橼w家唐代時(shí)源于河北涿郡,而我手里的數(shù)據(jù)O1a1a-P203在河北只有2%左右。而且O1a1a-P203又是在浙江比例最高的單倍群(超過(guò)20%),推測(cè)可能主要來(lái)源于古代百越土著,北方分布較少,不能排除是多支紹興當(dāng)?shù)氐耐林謩e進(jìn)入了趙宋的族譜。 除此之外,我們把所有自稱趙宋后裔的O1a1a-P203的樣本的15 Y-STR(傳統(tǒng)17 STR去掉DYS385a/b)拿出來(lái),做了一下網(wǎng)絡(luò)圖: 圖里面的一個(gè)圓圈代表一個(gè)15 Y-STR的單倍型,圓圈的直徑和該單倍型的樣本數(shù)量成正比,連接圓圈的線段的長(zhǎng)度正比于單倍型之間15 Y-STR相差的突變步數(shù)。圓圈的顏色,黃色為浙江紹興(主要為諸暨),綠色為福建泉州,其它顏色各是不同地方的。 現(xiàn)在問(wèn)題來(lái)了:趙宋的擴(kuò)張時(shí)間應(yīng)該在1100年之內(nèi)(太祖生于公元927年),以上所有O1a1a-P203樣本從Y-STR來(lái)看,應(yīng)該遠(yuǎn)遠(yuǎn)超出了這個(gè)年代(同樣是15 Y-STR,對(duì)比愛(ài)新覺(jué)羅,600多年,兩兩之間最多差3步;嚴(yán)嵩家族,600多年,兩兩之間最多差4步),上圖的兩個(gè)大黃圈之間相差都已經(jīng)有6步了,而且并不是一個(gè)晚近擴(kuò)張的星簇的形狀(因?yàn)槟甏^新的支系,通常還會(huì)有較多的現(xiàn)代后代維持始祖的Y-STR單倍型,保留在原處形成一個(gè)較大的圓圈,和其它有所突變的單倍型共同構(gòu)成一個(gè)星狀結(jié)構(gòu))。如果只看左邊的那部分,倒確實(shí)滿足一個(gè)1000年左右的擴(kuò)張,但問(wèn)題是都是紹興的樣本,盡管依族譜也分作德昭、德芳、太宗派下,但因太平天國(guó)時(shí)人丁銳減,之后出現(xiàn)了較多的族內(nèi)過(guò)繼,以我的角度來(lái)說(shuō),仍是孤例不能作證,就算他們確實(shí)構(gòu)成一個(gè)單系群,也不足以說(shuō)明宋初的情況。 另外,上圖中每一個(gè)單倍型在我數(shù)據(jù)庫(kù)里面搜,17 STR差2步之內(nèi)都能有大量其它姓氏的樣本匹配,因?yàn)镺1a1a-P203下游F78+支系本身就在近4000年內(nèi)在中國(guó)南方有急劇擴(kuò)張。也就是說(shuō),我認(rèn)為以現(xiàn)有的證據(jù),還無(wú)法確認(rèn)趙宋皇族的Y染色體屬于O1a1a-P203這支。 因?yàn)橛肶-STR估算時(shí)間是非常不準(zhǔn)的,我后面準(zhǔn)備用自己的科硏經(jīng)費(fèi)測(cè)一些上面圖里的樣本的Y染色體高通量測(cè)序,通過(guò)Y-SNP數(shù)量計(jì)算相對(duì)準(zhǔn)確一些的分離年代(10 Mbp以上區(qū)域能到100年左右一個(gè)突變)。同時(shí),把整個(gè)O1a-M119這一大支的Y高通量樹整個(gè)算一下,看看其中各層級(jí)的相對(duì)準(zhǔn)確的分化年代,以及拓?fù)浣Y(jié)構(gòu)和族群分布的特點(diǎn)。 為了以上的目的,我們現(xiàn)在向大家重點(diǎn)征求兩樣?xùn)|西:一個(gè)是譜記趙宋皇族后代的樣本,一個(gè)是在復(fù)旦和源基因以外的其它機(jī)構(gòu)檢測(cè)得到的屬于O1a-M119這個(gè)支系的Y染色體高通量測(cè)序的bam文件。 因?yàn)槲夷壳霸趯?shí)驗(yàn)室沒(méi)有學(xué)生能夠穩(wěn)定做實(shí)驗(yàn)(學(xué)生做這種簡(jiǎn)單實(shí)驗(yàn)太浪費(fèi),也太耽誤時(shí)間,還是處理數(shù)據(jù)、寫文章能人盡其用),現(xiàn)在我這里的樣本都是送到源基因( www.yoogene.com )去測(cè)的,對(duì)個(gè)人的服務(wù),有個(gè)網(wǎng)站也遠(yuǎn)比我個(gè)人小作坊要好很多,所以感興趣的人可以去源基因的網(wǎng)站上下個(gè)單,購(gòu)買相應(yīng)的產(chǎn)品,然后寄唾液過(guò)去就可以,就別非要跑到我實(shí)驗(yàn)室里找我抽血了。 如果有趙宋后代是有家譜的,并且希望能被免費(fèi)檢測(cè)Y-STR(源基因的“父系基礎(chǔ)版”),可以將自己的以下情況發(fā)送私信給新浪微博上的 @Greenbrothers :1. 屬于趙宋三支的哪一支;2. 譜系源流(XX趙氏、堂號(hào));3. 字輩和族內(nèi)上下各五代人的字輩;4. 南宋時(shí)屬于哪一支宗正司,等等。Greenbrothers可能會(huì)向您詢問(wèn)更詳細(xì)的內(nèi)容,以判斷您是否可以免費(fèi)參與我們的測(cè)試,能的話,會(huì)發(fā)給您一個(gè)源基因測(cè)試的免費(fèi)碼,您拿著這個(gè)碼在源基因下單就可以了。不能的話,您也仍然可以像一般人一樣付費(fèi)參與我們的測(cè)試。以愛(ài)新覺(jué)羅家族檢測(cè)的經(jīng)驗(yàn)來(lái)看,有詳細(xì)族譜的人的Y染色體確認(rèn)為努爾哈赤同宗的概率更高,但確實(shí)也有一些族譜不全、僅有家族記憶的人被證實(shí)為生物學(xué)意義的愛(ài)新覺(jué)羅的。 另外就是因?yàn)槲掖蛩愫竺嫣幚鞳1a-M119的Y染色體高通量譜系樹,找新的突變、計(jì)算年代等等,希望大家能把在其它機(jī)構(gòu)測(cè)到的Y染色體高通量的bam文件上傳給我來(lái)做分析。這個(gè)是免費(fèi)的,而且結(jié)果會(huì)返給大家。其實(shí)不論哪個(gè)支系我都是需要的,前一陣算過(guò)C2a-F1067的,最近在重新算O2a2b1a1-M117(含Oα-F5)的,下一步計(jì)劃就是O1a-M119的了。因?yàn)閅染色體高通量測(cè)序的分析需要花費(fèi)的計(jì)算量和人工校正的成本都是巨大的,只能一支支輪著來(lái)算,能趕上這一波就盡量。自然對(duì)于Y染色體高通量測(cè)序來(lái)說(shuō),我最希望各位能在源基因做父系尊享版測(cè)序(質(zhì)檢通過(guò)后就能提供bam文件下載),這樣能保證捕獲區(qū)域、測(cè)序深度的一致性,后面時(shí)間估算都會(huì)更準(zhǔn)確一些,而某些其它公司由于捕獲區(qū)域和我們很不一致,直接拿那個(gè)算出的分離年代肯定會(huì)更不精確,以至算時(shí)間的時(shí)候只能把這些樣本的數(shù)據(jù)去掉(但樹形還是能用盡量用的)。而且我也碰上過(guò)其它一些公司的結(jié)果會(huì)在一些特定位點(diǎn)系統(tǒng)性地出現(xiàn)大量不符合樹形的突變,這些都需要我手工一一排除。 如果是要給我上傳其它機(jī)構(gòu)得到的Y高通量數(shù)據(jù),我仍然是把這個(gè)上傳接口放到源基因網(wǎng)站了,但后面的做樹的計(jì)算是我來(lái)做的,也會(huì)和復(fù)旦的其他同事合作,搜集盡可能多的全序數(shù)據(jù)一起來(lái)算樹。您可以在源基因注冊(cè)一個(gè)賬號(hào),里面能找到“數(shù)據(jù)上傳”按鈕。首先一定要是二代測(cè)序的結(jié)果,大多數(shù)商業(yè)測(cè)試機(jī)構(gòu)用芯片得到的位點(diǎn)數(shù)據(jù)只是對(duì)已知位點(diǎn)作分型,對(duì)于找新位點(diǎn)和計(jì)算年代是沒(méi)用的。我只接受bam文件,要求大小在50 Mb – 700 Mb范圍內(nèi)(偶爾可以放寬到1 Gb),是專門捕獲測(cè)Y染色體的數(shù)據(jù)測(cè)得的數(shù)據(jù),或者全基因組數(shù)據(jù)把Y染色體拆出來(lái)的bam文件。不接受vcf文件,因?yàn)槠渲兄话蛔兾稽c(diǎn),而沒(méi)有序列信息,也沒(méi)法取得某個(gè)位點(diǎn)是沒(méi)測(cè)到還是沒(méi)有突變的信息,其它機(jī)構(gòu)call vcf的過(guò)程中也可能出一些錯(cuò)誤。fastq文件如果在500 Mb – 1 Gb之間的話也許是可以用的(也要看捕獲的情況,具體請(qǐng)和客服確認(rèn)。我將大小限制在50 Mb – 700 Mb這個(gè)范圍,一來(lái)是我們的硬盤和數(shù)據(jù)量考慮,另外也是為了數(shù)據(jù)質(zhì)量,因?yàn)閿?shù)據(jù)量小于50 Mb的肯定測(cè)序深度過(guò)低,覆蓋范圍不夠;而數(shù)據(jù)量大于700 Mb的如果是正常十幾Mbp的捕獲范圍,都超出必要的捕獲深度了,有幾種情況:1. 測(cè)到的數(shù)據(jù)量(乘數(shù))本身過(guò)多,那么建議只拿測(cè)到的一部分?jǐn)?shù)據(jù)給我們;2. 沒(méi)有去除重復(fù)序列,這種應(yīng)該由測(cè)序服務(wù)機(jī)構(gòu)去除重復(fù)后再給我們;3. 測(cè)的不是只捕的Y染色體,比如測(cè)的是全基因組(希望有30x以上,但略少于此也可以收),有幾十Gb以至上百Gb的數(shù)據(jù),這樣的情況下,可以請(qǐng)測(cè)序服務(wù)機(jī)構(gòu)用'samtools view -bh chrY 然后是錢的事。做測(cè)試、分析這些事本身需要錢,歡迎有對(duì)中國(guó)人父系祖源感興趣的人能夠贊助我們的項(xiàng)目或者投資源基因。之前C2a的項(xiàng)目就是有人花20萬(wàn)元贊助源基因和另一個(gè)公司測(cè)了一百多個(gè)Y高通量測(cè)序,要求就是把樹盡快(不要求等文章發(fā)表)無(wú)償公布,最終結(jié)果還是很理想的,我們把C2a下游定出了上百個(gè)支系。但沒(méi)有更多的資助的話,趙宋這件事現(xiàn)在以我們目前的資源也能做下去。 最后也是最重要的,每一位來(lái)測(cè)祖源的人,在得到自己結(jié)果的同時(shí),都是為我們的祖源數(shù)據(jù)庫(kù)貢獻(xiàn)一份樣本。有了更大的樣本量和數(shù)據(jù)量,對(duì)中國(guó)人的祖源才能做得更好,尋根工作也才有更豐富的資源。 希望通過(guò)這一波樣本收集和Y染色體高通量測(cè)序,我們能確定趙宋皇族的Y染色體類型。 polyhedron 2018.06.27 首發(fā)於新浪博客 |
|
來(lái)自: 徒步者的收藏 > 《科學(xué),技術(shù),工業(yè)》