什麼樣的資料才有價值?應該怎樣收集和處理?終於有人講明白了

2019-03-19 18:11:00


導讀:實驗資料本身毫無價值,但精心收集的資料能成為實現最終設計目標——打造最佳使用者體驗的關鍵工具。


本文介紹實驗方法的基本原則,以及如何將這些原則以一種快速可拓展的方式——A/B測試——在網際網路產品與體驗的設計流程中進行實踐。希望你能對相關名詞和概念熟稔於心,可以繼續深入瞭解A/B測試的相關實踐。


作者:Rochelle King, Elizabeth Churchill, Caitlin Tan

如需轉載請聯絡大資料(ID:hzdashuju)


無論你在何種型別的企業就職,我們都希望你將打造最佳使用者體驗作為最重要的目標與挑戰。使用者群體的差異很大,他們的經歷、能力及預期都將影響並驅動他們的行為。如果僅依賴直覺,即使最優秀的設計師與產品團隊也難以打造符合所有場合、所有使用者的完美體驗。


通過高效的實驗方法收集使用者資料,將在使用者行為多樣性、相似性、差異性及設計對使用者影響等方面獲得大量洞察。實際上,實驗是一種與使用者對話的方法,能瞭解使用者的想法。收集實驗資料有助於落實“使用者至上”的理念,並且在打造最佳體驗的前提下進行設計決策。




01 資料的多樣性


本文將利用一個形象的比喻幫助闡述一些概念與場景。我們發現,通常一個強有力的比喻有助於生動傳達某些概念的內涵,而真實案例有時難以做到這一點。有時,相比蒐集真實的案例,簡單的示例更適於當下的情形。


所以我們邀請你扮演夏令營的擁有者。每年,你將迎接大約200名兒童,並將與他們一起遠足,開展戶外活動,一同進餐。由於夏令營的規模很大且活動豐富,一些營員的反饋也許不能代表整體營員的感受。


夏令營已運營了一些年頭,每年都有一些老營員光顧,但這畢竟是在做生意,你希望能夠持續吸引更多新成員。夏令營是一個迴圈往復的過程,這也解釋了你為何希望採用新方式來改進夏令營的體驗,進而提升你的業務。


提起資料,我們只單純指那些可被收集、衡量或分析的碎片資訊或資訊集合。我們的目的不在於討論資料本身,而是使你認識到資料對了解使用者的價值。比如老營員不喜歡過多食用綠色蔬菜,對制定夏令營運營計劃的你而言,這是否算是一則有用的資訊?


常聽有人爭執於一些資料比另一些更具價值。但我們認為,與其說存在所謂的最佳資料,不如說能最大化幫助你獲得所需資訊的資料即為最佳。


為此,我們將介紹一些(而非全部)資料的不同維度,而不再一一深入贅述各類資料或其收集方法。




02 資料的不同維度


資料與設計的討論中假如不涉及資料維度的討論,便是不完整的。介紹這些是要向你說明,具有不同優缺點的資料型別適合於不同的業務場景及目的。


因此,你需要判斷哪些資料可用,哪些不可,以及這些資料型別是否適用於待解決的問題。這一系列需要思考的問題總結一下便是:為什麼收集,何時收集,如何收集,收集量是多少。這些問題有助於你理清所要收集的資料維度與型別。


1. 為何收集資料?


首先,你要想清楚為何收集資料。換句話說,你希望從資料中獲得哪些資訊?


也許你十分想了解使用者的行為習慣。簡單來說,行為就是使用者做了什麼,或採取了哪些行動。比如,假設你剛剛在應用程式中推出了一個新功能,你想了解使用者能否找到這個功能,以及會在什麼情況下使用它,那麼你需要考慮使用者行為資料的收集。


通常,這非常便於衡量與檢測行為。實際上,人類行為的使用者研究員常說,相比一個人說了什麼,你應當相信他的行為。然而,僅僅觀察行為並不能告訴你使用者行為背後的原因,或是他們的感受。


可能你也想要了解使用者的態度與期望。比如,假如你對行為好奇,便會思考使用者是否會點選按鈕。相反,假如你在衡量使用者態度,你可能會思考,使用者點選按鈕前對點選結果的期望是什麼。你可能想要了解什麼結果符合或違背了使用者的期望。


最後,你可能想要了解使用者的感受。這類資料反映了使用者的情感狀態,是一種“效應”資料。你可能會思考,使用者是否信任你的企業或品牌?是否對新的註冊流程感到不安或滿意?


與行為資料相比,觀點態度與情感資料的收集更難擺脫主觀因素而不失偏頗。一個常見的問題是,使用者通常希望提供“正確回答”,因而,他們會告訴你所希望聽到的答案,並非自己的真實想法。這稱作社會期許反應偏差或默許偏差,許多技術手段可以有效避免這種情況。


雖然存在種種難題,但觀點態度與情感類資料對於打造良好的使用者體驗非常關鍵。即使每個使用者都會點選新按鈕,但假如點選後的結果與他們的期望不符,使用者便會感到失望,也會失去對產品和品牌的信任。



2. 何時收集資料?


除了考慮資料內容,也要考慮何時收集它們。拆分成兩種便是:縱向資料與快照。


首先,資料收集的時間間隔是多少?縱向資料來自同一名使用者一段時期內的資料(週期可能是幾天、幾個月甚至幾年),使你能夠了解在這段時間內使用者的改變、調整適應與學習進步。你能夠了解以往的經歷如何影響著未來的經歷,這為你的資料分析提供了背景資訊。然而,你的分析必須等到週期結束,同時資料收集也必然將花費更久的時間。


假如將縱向資料比作一段視訊,那麼快照便是一張影象。相比了解使用者的行為變化,也許你只想瞭解使用者使用產品的其中一種情況。這種資料能夠被更快地收集(你可以一次性觀察上百名實驗參與者,而你將需要花費兩年時間觀察並研究一名使用者的行為),但會缺失一些資訊,諸如使用者先前行為對後續行為的影響,以及一段時間內使用者的行為變化。


另外,需要考慮資料收集的環境,是真實場景中還是孤立場景。想象一下,在通勤時間,使用者在擁堵的地鐵上試用令人著迷的手機遊戲,與他們在辦公室——一個安靜私密的空間——使用這款遊戲之間的差異。在孤立的環境中收集資料有助於控制那些可能影響或改變使用者使用行為的因素。


你很明白,若干使用者同時測試,環境將不會對他們的體驗產生任何影響。但是,使用者完全不可能在安靜而隔離的溫室中使用產品。上下文資料可以反映設計在“原始環境”——一個嘈雜混亂、充滿挑戰與干擾的真實世界——中的真實情況。



3. 如何收集資料?


根據問題的不同型別,資料可被分為定性資料與定量資料。定性資料用以闡述諸如“為什麼”或“為什麼如此”的問題。這類資訊能夠被觀察或捕捉,但不能以量作為衡量標準。在設計過程中,定性資料有助於建立起使用者同理心,瞭解使用者的想法態度、觀念、價值觀和需求。


相比而言,定量資料通過數量來闡述觀察結果。定量資料適用於回答“多大量”或“多少量”的問題。可在設計流程中使用定量資料來衡量一些固定指標,如日活躍使用者(DAU)或使用者留存率(在所定義的兩個時間段內繼續使用產品或服務的使用者佔例,比如,橫跨兩種業務時)。


另外,可以通過自述報告或觀察收集資料。自述報告的資料包含詢問使用者的問題及使用者的一些回答。相比詢問使用者,觀察使用者行動或行為能夠獲取觀察資料。如前面所述,自述報告的資料也許不太客觀,因為使用者可能會給出我們希望瞭解的內容,而非他們真實的想法或行為。但有些型別的資料(比如觀點態度或情感資料)難以通過觀察獲取。


最後,根據想要獲得的資訊深度或事先想要了解的資訊量,可以選擇收集封閉式資料開放式資料。在訪談等場景中收集封閉式資料時,人們進行提問或觀察。當發現一些有趣或令人困惑的資訊時,進一步詢問使用者行動的原因。


相比之下,在調研等開放式方法中,假如資料比較特別或不清晰,則難以繼續深入瞭解行為原因或意圖。封閉式資料要求觀察者跟蹤觀察或進行訪談,瞭解資訊並通過詢問澄清疑惑。


相比之下,開放式調研需要更多的前期投入(設計調研問題必須謹慎而專業,避免系統偏差或干擾使用者,因為這些難以澄清),但由於無須安排人員跟蹤每個階段的調研,這種方式使大規模資料收集變得容易。


此外,開放式調研確保了每位調研物件獲得近乎相同的調研體驗,不會受到行為細微差異的影響(比如,不同的調研者會採用不同的措辭或略有差異的語序進行發問)。



4. 收集多少資料?


最後還剩一個問題,收集多少資料才足夠實際上,這是一個相當難給出答案的問題,本文將簡要提及一些。這個答案很大部分依賴於根據所要收集的資料型別與最終目標所做出的決策。


想象一下,你工作的桌子旁有一塊地毯。一天,你看到某人因地毯的一塊隆起而絆了一下。你會一直等到10個、100個甚至更多人都絆倒在同一處時,才會考慮撫平這塊地毯嗎?當然不會。


這與如何看待軟體缺陷問題的情況一樣——當你發現了一些軟體/硬體配置問題,雖然不確定多少人面臨同樣的問題,但你會修復這個問題。這個原則同樣適用於設計的可用性問題。包含少數參與者的研究(通常叫作“小樣本研究”)可以完美說明此類問題,你無須量化問題人數來確認問題是否是由設計引起的。


比如,圖2-1指出,由5個被測試者即可確定85%以上的可用性問題。假如調研更少的使用者,你同樣可以在相同時間內獲得更豐富、更深入的資料資訊。


然而,在某些型別的小樣本研究中,你無法保證研究發現適用於總體中的每一個個體。同樣,你也無法採用更高精度的方法量化到底多少使用者將遇到相同的問題,或產生相似的感受。這意味著,小樣本研究不適用於某些決策,比如,確定某個問題的產生概率。


▲圖 2-1:隨著更多使用者的參與,從每個後續使用者中獲取的資訊量在逐漸遞減。絕大多數人(包括NNG,本圖表的發明者)都贊同,可用性測試只需5名使用者參與,便可使你不費吹之力注1發現85%以上的可用性問題


相比而言,從大量參與者收集的資料(通常被稱作“大樣本研究”)可以提供更加精確的量化及頻率資訊:多少人存在相同的感受,以及執行某種操作的使用者佔比是多少等。理想的環境中資源是無限的,你可能認為儘量多地收集資料總是最好的選擇,這確保你掌握全部資訊。


然而,你可能沒有時間以這種方式進行研究。通常,樣本量越大,得到的結果越能夠代表整體情況(只要樣本具有代表性)。一些統計學方法可以用來確定進行資料收集的使用者量,以保證結果達到一定的可信度。


我們不再深入討論更多細節問題,假如你想了解更多,建議與你的資料分析師或資料科學家進行溝通,探討關於樣本大小和統計規模之間的關係。



03 為什麼實驗


剛剛講了資料的多種維度。實際上,精確細膩地處理各類資料需要耗費數年時間。相比膚淺地研究處理多型別資料,我們決定專注於一種類型的資料收集:通過A/B測試開展實驗。


那麼為何如此在意實驗,且不斷提及?簡要來說,實驗幫助我們通過證據瞭解事情的因果關係,而非傳聞逸事,這可能具有統計學意義。因此,當在真實環境中釋出設計、功能或是產品時,我們能夠得到一些預見性的觀點。這麼說可能有點誇張,下面將進行詳細說明。


1. 瞭解因果關係


先從實驗的一個明顯重要的優勢談起。有句古老諺語:“相關不蘊含因果聯絡”。這是說兩件或多件事物相關聯,意味著它們之間存在著某些共同相互的關係或聯絡,這並不意味著一件事情的變化會引起另一件(些)事情發生改變。實際上,我們善於將生活中發生的各種事情與影響關聯起來。


在夏令營的例子中,假設我們試圖瞭解使用哪種營銷方式可招攬更多營員。對此,我們也許得出一個結論,刊登了夏令營廣告的雜誌的熱賣會促進營員增長(見圖2-2)。


雜誌銷量的提升一定會引起註冊人數的增多,該假設的問題在於,在不可控的環境中,我們不是上帝,無法完美預見所有的因素,而某些因素或許會引起其他結果。我們無法排除這些因素,無法斷定預見了事情的前後因果。


▲圖2-2:假如刊登了夏令營廣告的雜誌熱賣,營員增多,也許可以認為營銷活動促進了人數擴張


實際上,這個例子中,雜誌的銷量增多可能確實引起了註冊人數的增長,但其他原因也是存在的。增加一個變數便可清楚地解釋這一點。比如,把經濟的發展情況考慮在內?


實際上,也許是經濟整體的健康發展引起了雜誌銷量的提高和夏令營人數的增長。經濟的發展使得家庭可自由支配的收入增多,因而在雜誌和夏令營方面花銷增長(見圖2-3)。


▲圖2-3:然而,也可能是經濟的健康發展引起了雜誌銷量的提高和註冊人數的增長。哪種假設才是正確的?不實驗,我們便不瞭解真相


A/B測試和實驗的優勢在於,它們提供了可控的環境,有助於瞭解事情發生的前因後果。換句話說,實驗幫助我們確立因果關係。這對設計師很重要,瞭解了行為的潛在原因,便能預知產品或設計的改變會產生哪些影響。


同樣,也有助於明確地瞭解,怎樣的設計決策會引起使用者行為的變化。再則,避免過於傾向於可支援我們觀點的資料與行為模式(心理學上稱作“確認偏差”),降低將時間和企業資源投入到未被證明的假設上的風險。


2. 採用統計方法,而非道聽途說


作為一種方法論,因果關係對於實驗而言非常獨特,是A/B測試令人期待一個重要原因,但我們依然想談論有關實驗的一些其他優勢。


一般來說,無論採取哪種資料收集方法,都旨在找到有意義並值得信賴的可引導設計及產品決策的依據。


當團隊中的某成員基於朋友、熟人或業務利益相關人的個人想法而建議一種全新的產品方向或設計調整時,你應當保持謹慎。大多數情況下,這些都是個人觀點而非真實依據。希望你對所瞭解的傳聞逸事的侷限性有更多的思考(不僅具有偏見的風險),提出問題來幫助瞭解更多資訊。


這就是說,定義“有意義”的方法有許多。嚴謹的定性研究方法論無疑是有意義的依據來源,也是制定良好產品決策的關鍵。確保所得資料有意義的方法之一是制定良好的研究計劃。


比如,提出不包含偏見、不被偏見誘導或引導、經過深思熟慮的問題。再比如,使用者研究員接受過良好的專業培訓,是開展此類工作的專家。


識別資料可能存在意義的另一種方式是運用統計學方法。這些方法僅適用於定量測量,但因為實驗與A/B測試也是定量方法,它們可基於統計顯著性進行度量。


統計顯著效能夠量化資料所反映的現象是一種真實存在而非隨機現象。根據所收集的資料型別,可選擇不同的統計顯著性度量標準,比如P值。P值用於度量某既定事件在既定情況下發生的概率。因而,P值有助於量化實驗中隨機差異產生的概率。


這裡將不再詳述P值的計算方法,但假如你希望瞭解更多,建議你與資料科學家或分析師朋友進行溝通。此處這些有限的統計學知識,來自一個被稱作“頻率論”的統計學流派,通常用於線上實驗。


統計學方法可以幫助確定可能有意義的資料,而非一定有意義的資料。為了確定這部分,我們同 Arianna McClain進行了交談。Arianna現在擔任DoorDash公司使用者洞察部門的主管,最近擔任全球設計公司IDEO的設計研究員及設計與資料專家。Arianna在兩個領域的交叉方面,以及如何使設計師無須接受過多培訓便可使用資料方面有很棒的見解。


當考慮統計顯著性,以及它與某事物是否有意義的關係時,Arianna談道:


統計顯著性不會表明事情是“對的”或是“錯的”,也不會決定應當採取什麼行動。反而,它僅僅是簡單的建議,有些事值得繼續。


當我注意到,某種相關或模型並不接近統計顯著性時,我便認為這是一個可快速跳過並繼續的提示。但是,假如接近統計顯著性,這便是說:“喂,你應該關注這部分。”這促使我進行更多深入的研究,提出更多問題。


以臨床隨機藥物實驗為例,一家制藥企業不會因為資料表明藥物達到了統計顯著性的預期效果便決定批准該藥物進入臨床使用。他們同時要考慮藥物的臨床效果影響、副作用以及成本。許多醫學案例表明,有些藥物具有統計上的顯著效果,但沒有意義。


例如,減肥實驗可能表明,與P<0.0001的生活方式干預相比,某新藥的減重效果更明顯。但是,患者服用後可能出現強烈的副作用,並只能減重一磅或兩磅以上,這就使藥物不具備臨床意義,也不值得患者服用。


P值小不代表沒有意義,相反,如Arianna所述,這表示你應當關注這個結果,思考在這種情況下如何收集資料,這個改變將如何影響業務,其他資料來源可以提供什麼資訊。


不要只考慮顯著性而不考慮其意義。也就是說,在精心設計的前提下,實驗能夠反映真實而非隨機的情況,這是在決策時應當關注與思考的。



3. 瞭解真實情況


A/B測試非常善於鑑別統計顯著性結果,識別真實存在而非偶然發生的現象。除了因付出有所回報感到激動欣喜之外,統計顯著性還有哪些價值?


當團隊計劃推出一款產品及設計時,他們希望對使用者行為做出明智判斷。以電商網站為例,使用者是否會點選按鈕,成功沿著新步驟完成付款流程?少量使用者研究的侷限性主要在於,目標難以代表使用者整體。但你可以採用其他方式獲得洞察,瞭解使用者可能遇到的問題或特殊群體的訴求。


回顧之前提到的資料維度。精心設計並實施的實驗能提供有意義的洞察,指明有關功能或產品的真實表現,以此消除侷限性的問題。A/B測試是一種基於觀察的行為研究方法,收集大量使用者上下文的資料資訊。


這就是說,只要精心設計A/B測試的實驗,我們便能確信,測試結果可以真實一致地體現產品釋出後的結果。藉助A/B測試,團隊便能夠“窺探未來”,瞭解產品的預期表現,衡量與量化設計變動產生的影響。


通過資料感知的方式預估未來的能力非常重要。基於此,進行再設計、再思考時,企業能夠節約時間與資源,用以投資表現優異的專案,捨棄表現不佳或不符合預期使用者行為的想法。


除去商業上的優勢,A/B測試幫助設計師基於使用者體驗或公司的底線量化付出的努力的價值。這非常重要,因為這有助於設計師清晰地向利益相關人及業務人員闡述投資與重視優秀設計的重要性。


瞭解並運用資料感知的方法(比如A/B測試),有助於設計師提出令人信服的依據,並證實投資優秀設計對於商業成功的關鍵性是可以被量化評估的,而非僅僅是哲學意義上的。


關於作者:Rochelle King,Spotify產品設計創意全球副總裁,擅於融合運用設計與資料,並且曾擔任一些技術企業的負責人。

Elizabeth Churchill博士,人機互動(HCI)領域專家,曾在許多矽谷企業中主導以使用者為核心的研究,近專注於設計和開發者工具方面的研究。

Caitlin Tan,Spotify的使用者研究員,畢業於麻省理工學院。

本文摘編自《資料驅動設計:A/B測試提升使用者體驗》,經出版方授權釋出。


延伸閱讀《資料驅動設計

點選上圖瞭解及購買

轉載請聯絡微信:DoctorData


推薦語:谷歌使用者體驗總監、Spotify設計與使用者體驗全球副總裁聯袂撰寫,設計從業人員有效提升使用者體驗必備參考。 



據統計,99%的大咖都完成了這個神操作



更多精彩


在公眾號後臺對話方塊輸入以下關鍵詞

檢視更多優質內容!


PPT | 報告 | 讀書 | 書單 | 乾貨 

大資料 | 揭祕 | Python | 視覺化

人工智慧 | 機器學習 | 深度學習 | 神經網路

AI | 1024 | 段子 | 區塊鏈 | 數學


猜你想看


  • 被兩會代表頻繁“點名”,2019的第一波風口要來了?

  • 女神節,來聊聊這幾位神一般的“程式媛”

  • 馬化騰提議加強基礎科學研究,中國“芯痛”能解決嗎?

  • 資料又多又散,“孤島困境”怎樣破局?



Q: 你設計過哪些A/B測試,效果如何?

歡迎留言與大家分享

覺得不錯,請把這篇文章分享給你的朋友

轉載 / 投稿請聯絡:baiyu@hzbook.com

更多精彩,請在後臺點選“歷史文章”檢視

點選閱讀原文,瞭解更多

在看



熱點新聞