在可用性研究中需要測試多少用戶?

真友書屋 2014-11-30

展開全文

先說說什么是可用性測試。可用性測試是在產(chǎn)品或產(chǎn)品原型階段實施的通過觀察或訪談或二者相結(jié)合的方法，發(fā)現(xiàn)產(chǎn)品或產(chǎn)品原型存在的可用性問題，為設(shè)計改進提供依據(jù)。

如果你想一個數(shù)字,答案很簡單: 在可用性研究中測試5個用戶。這幾乎能讓你找到所有的可用性問題,你會發(fā)現(xiàn)使用更多的測試參與者跟使用5個用戶的效果是相同的。

這個答案在其他測試中也是同樣的,在1989年我開始開始推動“折扣可用性工程”。無論你是測試網(wǎng)站,企業(yè)內(nèi)部網(wǎng),電腦應(yīng)用程序,或移動應(yīng)用。5個用戶,你幾乎總是接近用戶測試的最大收益成本比。

像任何人為因素問題一樣,不過,也有例外：

定量研究(針對統(tǒng)計數(shù)據(jù),而不是觀點)：測試至少20個用戶去獲得統(tǒng)計上顯著的數(shù)字;緊置信區(qū)間需要更多用戶。
卡片分類：測試至少15個用戶。
眼動儀測試：如果你想得到穩(wěn)定的熱點圖需要測試39個用戶。

然而,你不用太擔(dān)心這些異常：你應(yīng)該用定性用戶研究絕大多數(shù)人——也就是說,旨在收集見解來驅(qū)動你的設(shè)計,而不是在用PPT打動人。

小測試的主要參數(shù)是投資回報:每增加一種研究參與者，測試成本就會增加,但很快發(fā)現(xiàn)的數(shù)量達到了收益遞減點。超過5人的研究幾乎沒有任何附加價值，投資回報率會下降得就像一塊重力更大的石頭。

如果你有一個大的預(yù)算？是的！錢應(yīng)該花在進一步的研究上，而不是為每個研究增加測試對象。

可悲的是，大多數(shù)公司堅持用大規(guī)模的測試。在可用性周會上，我調(diào)查了217個與會者關(guān)于他們公司的做法。一般的回答是，他們使用的每一輪用戶測試11個測試參與者——超過推薦大小的兩倍。很顯然，我需要更好地解釋小樣本可用性測試的好處。

關(guān)于是否使用更多測試參與者的爭論

“一個有百萬級用戶的大型網(wǎng)站?！?/strong>樣本大小并不重要,即使你在做統(tǒng)計。一項民意調(diào)查相同數(shù)量的受訪者需要找出誰將當(dāng)選匹茲堡市長或法國總統(tǒng)。統(tǒng)計抽樣的方差是由樣本量決定的,不是由全體人口數(shù)量的樣本量決定的。在用戶測試中,我們關(guān)注的是一個網(wǎng)站的功能設(shè)計元素很容易或難以使用。評價一個設(shè)計元素的質(zhì)量不依賴于有多少人使用它。(相反,決定是否需要修復(fù)一個設(shè)計缺陷而恰恰應(yīng)該考慮多少人去使用它:一些沒有人使用的功能是不值得去改進的,而應(yīng)該把時間花在有數(shù)百萬用戶使用的功能的改進上。)

“一個有數(shù)百功能的大型網(wǎng)站。”這是一個運行不同測試的論據(jù)——每個關(guān)注于一組較小的功能——而不是在每個測試中采用更多用戶。你不能要求任何個人測試一大堆任務(wù),否則可憐的用戶會累壞的。是的,總體上你需要更多的用戶測試整體功能豐富的設(shè)計,但是你需要把這些用戶分散到不同的研究中,每個測試都要專注于你研究日程中的一個子目標(biāo)。

“我們有幾種不同的目標(biāo)受眾?！?/strong>這實際上可以為測試一個更大的用戶集合提供一個正當(dāng)理由,因為你需要每個目標(biāo)群體的典型特征。然而,這種觀點只在行為方式完全不同的用戶身上有效。從我們的項目包括一些例子:

一個針對醫(yī)生和病人的醫(yī)療網(wǎng)站,

一個你可以賣東西和買東西的拍賣網(wǎng)站

當(dāng)用戶時給他們的任務(wù)是如此不同時,你絕對血藥為每個目標(biāo)受眾進行一次新的測試,你需要接近5人/組。通常,你可以勉強每組3 - 4用戶,因為用戶體驗中兩組之間會有所重疊。例如一個金融網(wǎng)站,目標(biāo)用戶時新手、中等程度和經(jīng)驗豐富的投資者,你可以測試每組3人,總共9用戶——你不需要15個用戶來評估網(wǎng)站的可用性。

“這個網(wǎng)站賺錢多到即使是最小的可用性問題也是不可接受的?！?有錢的公司肯定有一個ROI案例(“Return OnInvestment”投資回報率)在可用性上花更多的錢。即使他們花了“太多”在每一點質(zhì)量改進上,他們也會因此通過用戶界面獲得更多的現(xiàn)金流。然而,即使是最高價值的設(shè)計項目也會通過縮小每個研究的規(guī)模，增加更多研究項目來優(yōu)化他們的投資回報率，這是低價值項目所不能支撐的。

基本的一點是,只要你在你將要設(shè)計和測試的進階版本中采用迭代設(shè)計的方法，那暫時把目前版本中的可用性問題放到一邊也是可以接受的。任何沒有修復(fù)的問題下次迭代中都會被修復(fù)。如果你有很多（可用性）問題要解決, 需要為多次迭代有一個簡單的計劃。最終的結(jié)果將是更高質(zhì)量的(因此更高的商業(yè)價值)，因為采用了更多次的迭代而不是在每次測試中找更多測試者。

83個案例研究

下表總結(jié)了83個尼爾森·諾曼集團最近的可用性咨詢項目。每個點是可用性研究，并顯示有多少用戶測試，有多少實用性，我們的調(diào)查結(jié)果報告給客戶。圖表只包括“正常”的定性研究,我們也運行競爭基準(zhǔn)研究和測量,并進行其他類型的研究沒有顯示在這里。)

這其中表現(xiàn)出弱相關(guān)性,但真的非常小。在這些許多項目,測試更多用戶沒有明顯獲得更多的見解。

為什么我們會把采用更多測試者（的方法）優(yōu)先考慮？這也讓我絕對相信我自己的研究結(jié)果顯示出小樣本測試的優(yōu)越性。原因有三：

一些客戶想要更大的測試來獲得內(nèi)部信任。當(dāng)一個研究的發(fā)起人向不懂可用性的高管展示成果時，采用更多測試者的測試更容易被認(rèn)可、(如果管理層信任自己的員工,可以節(jié)省很多錢。)

一些設(shè)計項目有多個目標(biāo)受眾，而且，預(yù)期的行為差異大到足以掩蓋采用更多測試者帶來的代價。

最后,事實上,這些咨詢項目會采用稍微多一些用戶來測試（讓企業(yè)覺得物有所值）,這就是為什么我們經(jīng)常用8個用戶進行研究。ROI是收益和代價之間的比例。招聘顧問,真正的代價會高于費用，因為客戶還必須花時間尋找顧問和項目談判。更高的投資會讓你想要一個更大受益。

最后一點也解釋了為什么真正的回答“需要多少用戶來測試”有時會比5小得多。如果你有一套低成本的敏捷用戶體驗的設(shè)計方法,你投資在每個研究上的成本會微不足道，這樣投資收益比就能被優(yōu)化。(在每個項目上掙取更少的錢來讓總收入提高看上去是違法直覺的，讓更小的工作量讓你可以運作更多的項目（此處是針對咨詢機構(gòu)而言的）)。

對于真正的低負(fù)擔(dān)項目,通常是最佳的測試在每個研究中僅有2個用戶。對于一些其他項目,8個測試用戶——有時甚至更多——也許會更好。然而,對于大多數(shù)項目,你應(yīng)該把數(shù)量停留在經(jīng)驗證而證明可靠的:5個用戶來進行可用性測試就足夠了。

本文翻譯自nngroup，僅供學(xué)習(xí)交流使用。