【原】DMU-遺傳參數(shù)評(píng)估-學(xué)習(xí)筆記1

育種數(shù)據(jù)分析 2021-11-18

展開(kāi)全文

DMU軟件介紹

DMU是一個(gè)數(shù)量遺傳學(xué)工具包，主要功能包括估計(jì)方差組分和固定效應(yīng)，預(yù)測(cè)育種值。DMU的開(kāi)發(fā)歷史可以追溯到25年前，大部分功能基于數(shù)量遺傳學(xué)研究的需求而開(kāi)發(fā)。在丹麥動(dòng)物育種研究中，DMU是一個(gè)主要的統(tǒng)計(jì)研究工具（估計(jì)和預(yù)測(cè)）。此外，DMU也應(yīng)用于丹麥牛，羊，貂和馬等常規(guī)遺傳評(píng)估研究。因此，DMU不但在一些特定的項(xiàng)目中具備高性能優(yōu)勢(shì)，也適用于常規(guī)數(shù)量遺傳學(xué)研究?！癉MU”名稱最初來(lái)自于程序包中用來(lái)進(jìn)行初始化的過(guò)程名字縮寫。這些過(guò)程利用約束最大似然法（REML），通過(guò)Derivative-free方式執(zhí)行MUltivariate analysis，因此得名DMU。但是，在當(dāng)前的DMU版本中，并不包括DF-REML模塊，現(xiàn)在D僅代表DJF（丹麥農(nóng)業(yè)科學(xué)學(xué)院的縮寫）。
DMU安裝包有很多模塊，如DMU1、DMU4、DMU5、DMUAI和RJMC。DMUAI模塊可利用平均信息限制最大似然(AI-REML) (Jensen et al. 1997)算法進(jìn)行（協(xié)）方差組分的估計(jì)。AI是通過(guò)平均觀察和預(yù)期信息的信息矩陣得到的。該模塊還可以使用期望最大化(EM)算法來(lái)最大化約束似然函數(shù)。被估計(jì)的（協(xié)）方差組分的漸近標(biāo)準(zhǔn)誤是從平均信息矩陣中獲得的。

學(xué)習(xí)DMU初衷

想試試DMU處理一批數(shù)據(jù), 發(fā)現(xiàn)這個(gè)軟件, 竟然沒(méi)有一個(gè)合適的操作說(shuō)明文檔, 我手頭上有蘇國(guó)生老師的PPT中文版DMU操作說(shuō)明, 但看起來(lái)還是費(fèi)勁.

剛好自己在學(xué)習(xí)這個(gè)軟件, 用實(shí)際數(shù)據(jù)來(lái)演示如何使用這個(gè)軟件進(jìn)行數(shù)據(jù)分析.

我想從四部分進(jìn)行:

1, DMU語(yǔ)法介紹
2, 單性狀動(dòng)物模型
3, 單性狀重復(fù)力模型
4, 多性狀動(dòng)物模型

其它內(nèi)容, 包括測(cè)定日模型(隨機(jī)回歸模型), 母體效應(yīng)模型, GBLUP模型, 顯性上位性模型, 一步法GS模型等等以后再做總結(jié).

說(shuō)明文檔是作者寫的, 一般來(lái)說(shuō)作者都想通過(guò)邏輯的構(gòu)建, 讓讀者了解軟件的方方面面, 但是讀者一開(kāi)始接觸軟件時(shí), 迫切的是想解決問(wèn)題, 不是來(lái)學(xué)理論, 不是來(lái)學(xué)知識(shí), 只是想解決問(wèn)題. 但是大多數(shù)文檔無(wú)法滿足這些迫切的需求. 所以, 最好的操作說(shuō)明, 就是有數(shù)據(jù), 有模型, 有結(jié)果說(shuō)明, 可以很快上手. 我寫此操作說(shuō)明的目的就在于此.

DMU語(yǔ)法介紹

軟件組成, 主要包括四類程序

DMU1
這個(gè)主要是為了整理數(shù)據(jù)和模型, 相當(dāng)于預(yù)處理程序, 其它三個(gè)程序都要經(jīng)過(guò)它的處理才能分析. 類似BLUPF90的renumf90程序.
DMUAI
這個(gè)主要估算方差組分的程序
DMU4和DMU5
DMU4主要是求解混合線性方程組, 它不估算方差組分, 只求解. 類似BLUPF90包中的blupf90程序.DMU5功能和DMU4類似, 也是求解方程組, 適用于大數(shù)據(jù)
RGMC
主要是貝葉斯抽樣, 估算方差組分, 計(jì)算育種值.

數(shù)據(jù)和系譜及逆矩陣格式

全部數(shù)據(jù), 不要有行頭
數(shù)據(jù)中不能含有字符, 字母, 都必須是數(shù)字
逆矩陣可以是下三角或者上三角矩陣的三列形式
系譜數(shù)據(jù)包括四列: ID, Sire, Dam, Birth
數(shù)據(jù)中, 因子(ID, Sex…)放在前面, 觀測(cè)值(y1, y2, y3)放在后面, 因子用整數(shù)表示, 不能含有字母

因此, 在進(jìn)行分析之前, 首先需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化, 比如系譜要變?yōu)檎麛?shù), 要有第四列信息出生信息, 如果沒(méi)有, 就寫成2018年就行. 數(shù)據(jù)中也要重新編號(hào), 特別是某些因子含有字母, 需要轉(zhuǎn)化為數(shù)字. 可以使用R語(yǔ)言進(jìn)行轉(zhuǎn)化, 將系譜的所有水平編號(hào)為1…n, 然后替換. 將數(shù)據(jù)的所有水平, 重新編碼.

參數(shù)文件
文件名為name.DIR, 其中name為程序名稱, DIR必須要有, 并保持大寫.

$COMMENT
文件注釋, 一般是解釋你所使用的模型
$ANALYSIS
你分析所使用的模型, 如果你需要估算方差組分, 那么簡(jiǎn)單寫為:
$ANALYSIS 1 1 0 0
$DATA
指定數(shù)據(jù)格式,因子數(shù)目, 觀測(cè)值數(shù)目, 缺失值, 和數(shù)據(jù)位置
如果是txt文件, 有5個(gè)因子, 4個(gè)觀測(cè)值, 缺失值-999, 在D盤根目錄
$DATA ASCII(5,4,-999) d:/dat.txt
$VARIABLE
寫出因子和變量的名稱, 第一行為因子, 第二行為變量
ID Loc Year Herd Sex Hy
y1 y2 y3 y4
$MODEL
指定分析模型中, 觀測(cè)值個(gè)數(shù), 固定因子, 隨機(jī)因子
比如單性狀, 正態(tài)數(shù)據(jù)
1 1 0 0 0
比如二性狀, 正態(tài)數(shù)據(jù)
2 2 0 0 0

固定因子: 每個(gè)性狀一行, 包含若干整數(shù)
單性狀中, y1 = Loc + Year + Herd + Sex, random = ID
1 0 5 1 2 3 4 5
隨機(jī)因子: 每個(gè)性狀一行, 包含若干整數(shù)
1

$VAR_STR
定義方差協(xié)方差結(jié)構(gòu)
可以支持系譜, 和自定義關(guān)系矩陣inv
定義系譜文件:
$VAR_STR 2 PED 2 ASCII ped.txt
定義逆矩陣:
$VAR_STR 1 COR ASCII ginv
$PRIOR
定義初始值, 不過(guò)不定義, 默認(rèn)是方差組分為1, 協(xié)方差組分為0, 定義格式, 下三角行列形式.
比如兩性狀, Vg和Ve
1 1 1 Vg11
1 2 1 Vg12
1 2 2 Vg22
2 1 1 Ve11
2 2 1 Ve21
2 2 2 Ve22
$VAR_REST(可選項(xiàng), 主要是固定初始值)