1. 條件語(yǔ)句where和if的區(qū)別 從上圖可以看出,where在原始數(shù)據(jù)進(jìn)入PDV(program data vector)前對(duì)數(shù)據(jù)進(jìn)行判斷,是否滿(mǎn)足條件,滿(mǎn)足的條件的觀(guān)測(cè)值進(jìn)入PDV,不滿(mǎn)足的則排除,PDV簡(jiǎn)單的說(shuō)就是在編譯過(guò)程中用于存儲(chǔ)新建數(shù)據(jù)集變量值的空間。而if是將原始數(shù)據(jù)集中的所有值放入PDV后進(jìn)行條件判斷,滿(mǎn)足條件的輸出到新建數(shù)據(jù)集中。因此使用where條件篩選速度快于if。where只能從現(xiàn)有的sas數(shù)據(jù)集中選擇觀(guān)測(cè),if語(yǔ)句還可以用input語(yǔ)句產(chǎn)生的觀(guān)測(cè)中選。Where可以作為選項(xiàng)進(jìn)行應(yīng)用。 運(yùn)行速度比較: 結(jié)果比較: if條件語(yǔ)句首先是把sashelp邏輯庫(kù)的class數(shù)據(jù)集前5個(gè)觀(guān)測(cè)對(duì)象放入PDV,對(duì)滿(mǎn)足年齡大于13歲的對(duì)象輸出到新建數(shù)據(jù)集;而where是數(shù)據(jù)放入PDV前逐一進(jìn)行判斷,滿(mǎn)足條件的前5個(gè)觀(guān)測(cè)對(duì)象放入PDV,輸出。所以if輸出的觀(guān)測(cè)對(duì)象個(gè)數(shù)時(shí)小于或等于obs指定值,而where是等于obs指定值。 If和where關(guān)鍵不同點(diǎn)匯總: 2. select和if 當(dāng)被判斷變量為數(shù)值型變量,select處理效率高于if,而當(dāng)變量為字符型時(shí)if條件判斷效率較高。兩者使用選擇: 選擇if: a. 變量為字符型; b. 變量值不均勻分布; c. 較少判斷條件。 選擇select: a. 數(shù)據(jù)規(guī)整分布; b. 變量為數(shù)值型且條件間互斥,即判斷條件間無(wú)交集; 總得來(lái)說(shuō)條件間互斥的數(shù)值型變量或條件較多時(shí)選擇select;其他if。且在數(shù)據(jù)量很大時(shí)兩者的效率才能凸顯。 data test_select; set sashelp.class; select; when (age le 12) age_group='low-12'; when (age le 15) age_group='13-15'; when (age ge 16) age_group='16-high'; otherwise; end; run; 3.sql里where和having的區(qū)別 sas sql里where和having條件的選擇規(guī)則類(lèi)似于sas data set新建if和where的區(qū)別,having是對(duì)sql語(yǔ)句中groupby分割后的亞組數(shù)據(jù)集進(jìn)行條件篩選,先按亞組計(jì)算將計(jì)算結(jié)果新變量放入新建表(tables)中,在按照having指定條件對(duì)亞組進(jìn)行篩選;因此having需在group by語(yǔ)句后,而where是對(duì)整個(gè)數(shù)據(jù)集進(jìn)行篩選,先篩選出符合條件的觀(guān)測(cè)對(duì)象,再按照group by分割的亞組進(jìn)行計(jì)算,產(chǎn)生的新變量再放入新建表中,where語(yǔ)句需在group by之前;而當(dāng)無(wú)groupby語(yǔ)句時(shí)having的作用相當(dāng)于where; /*having*/ proc sql noprint; create table data_having as select *,avg(age) as avgage from sashelp.class group by sex having age ge 15; quit; /*where*/ proc sql noprint; create table data_where as select *,avg(age) as avgage from sashelp.class where age ge 15 group by sex; quit; 結(jié)果差異: 兩者的主要差異: |
|