加載中........
×

广州恒大3-0浦和红钻:觀察性研究中的logistic回歸分析思路

2019/9/24 作者:馮國雙   來源:中華流行病學雜志 我要評論0
Tags: 觀察性研究  logistic  

大宫松鼠浦和红钻 www.kgojxv.com.cn 觀察性研究在研究設計中占有非常重要的地位,實際應用中比較常見的是病例對照研究和隊列研究。盡管其應用廣泛,但在數據分析中卻存在不少問題。在分析時往往只考慮數據本身,而未能結合研究類型,從而導致結果的偏倚。甚至在已發表的文章中,也存在一些不嚴謹用語。本文從觀察性研究的類型出發,基于不同研究類型的研究目的,以logistic回歸分析為例,探討觀察性研究的不同分析思路,希望為醫學科研工作者提供一定的參考和借鑒。

1. logistic回歸:假定有m個自變量x1,x2,…,xm,logistic回歸模型的基本形式可表達為:

只從數據本身考慮的話,logistic回歸模型都是包括一個分類因變量及若干自變量(可以是分類變量,也可以是連續變量),反映了m個自變量對因變量的線性影響。無論對于病例對照研究還是隊列研究,這種形式都是不變的。

部分研究在數據分析時,忽略了前期的設計思路,只是簡單地把因變量和所有自變量納入統計軟件中相應位置,點擊運行直接給出結果。從數據上來看,病例對照研究和隊列研究的數據形式完全一樣,軟件操作過程也并無不同,都是指定因變量和自變量,然后給出參數估計值及統計檢驗結果。統計軟件無法判斷研究者采用的是病例對照研究還是隊列研究,也并不清楚作者的主要研究目的是什么,只是對指定的變量進行參數估計。而統計分析的思路需要根據研究目的和研究類型而定,對于病例對照研究或隊列研究而言,它們的分析思路顯然不同。一味依靠統計軟件,不僅容易出現一些錯誤分析思路,也會導致錯誤的分析結果。

2.病例對照研究中的logistic回歸:從數據分析的角度來看,病例對照研究大致有兩大類目的:一是探索危險因素,二是驗證危險因素。

(1) 以探索危險因素為目的的分析思路:危險因素的探索常見于臨床研究中,通常用于研究初期,此時研究者并不清楚哪些因素可能會影響結局的發生,因此先進行初步探索。根據專業知識和經驗收集一些可能的指標,然后從中尋找可能對結局影響較大的因素。例如,探索兒童打鼾的危險因素,研究者并無太多的前期基礎,只是為了發現可能與兒童打鼾有關的因素,這種情況下會根據文獻報道、專業經驗等收集一些可能有關的指標,并從中找出與兒童打鼾有關的部分因素。

危險因素探索的文章中,最常見的表述錯誤是“校正其他混雜因素”后,發現共k個變量對結局有影響?;煸右蛩厥竅嘍災饕芯懇蛩囟?,而危險因素探索的研究中,并無明確的主要研究因素,所有變量都是待研究的因素,目的是從這些變量中找出哪些有影響。此類研究中,“校正其他混雜因素”是一種不嚴謹的表達方式。

對于這種分析思路,需要有一定的分析經驗和技巧。實際分析中,需要考慮的幾個問題:

① 線性問題:由于logistic回歸本質上仍屬于“線性模型”,因此一定要確認自變量與因變量(logit P)之間是否線性關系,如果不是,需要考慮進行相應的變換,否則可能會產生錯誤結果。

例1:某研究分析老年人高血壓(二分類變量,是或否)的危險因素,研究因素包括gender、age、ox-LDL、Adiponectin、ox-LDL IgG和ox-LDL IgM共6個指標。其中gender為二分類變量,其余變量均為連續變量。如果把6個自變量直接納入統計軟件分析,所得結果見表 1。

表 1 統計軟件直接給出的高血壓影響因素分析結果

可以看出,6個變量均差異無統計學意義。然而對數據重新分析后發現,并不是這些變量對結局均無影響,只是未能發現它們之間的真實關系而已。經仔細觀察,發現age和ox-LDL IgM對結局的影響是有統計學意義的,但不是線性影響,而是二次項關系(表 2)。

表 2 高血壓影響因素重新分析后的結果



② 共線性問題:共線性即自變量之間存在高度相關,從而導致結果不可靠[1]。共線性是大多數回歸模型都需要考慮的一個問題,一旦發現該問題,需要采取不同措施來解決。常見的解決方案包括刪除某一自變量、主成分分析、Lasso回歸等。

例2:某研究分析乳腺增生的危險因素,自變量同時包括妊娠次數(三分類變量,用1、2、3表示相應次數)和流產次數(三分類變量,用0、1、2表示相應次數)。在單因素分析中妊娠次數差異有統計學意義(2 vs. 1,P=0.026;3 vs. 1,P=0.035),然而多因素分析中則差異無統計學意義(P值分別為0.635、0.594)。分析原因發現,主要是由于妊娠次數和流產次數有較強的共線性,二者相關系數高達0.55,從而導致妊娠次數變得無統計學意義。解決方案采用了刪除法,刪除妊娠次數變量,保留了流產次數變量。

③ 單因素和多因素的問題:目前危險因素篩選的一種分析思路:先進行單因素分析,將單因素分析中差異有統計學意義(P<0.05)的變量再納入多因素分析,選出最終有統計學意義的變量作為危險因素。然而這一思路并非十分可靠,有些情況下可能會出現單因素分析無統計學意義而多因素分析有統計學意義的情況,此時就容易漏掉某些重要的因素。

例3:某研究分析兩個血清學指標(分別用陽性和陰性表示)對癌的影響,數據結果見表 3。

表 3 不同血清學指標的癌發生情況

該數據采用單因素分析的話,可以發現x1差異無統計學意義(P=0.114),而在多因素分析中卻變得有統計學意義(P=0.018)。如果只將單因素分析中有統計學意義的變量納入多因素分析的話,就會漏掉x1變量。為什么會出現這種情況,主要是因為x1和x2之間存在負相關,而x1、x2與結局之間均為正相關。因此,數據分析過程中,不要盲目套用所謂的“分析套路”,而應結合實際情況具體問題具體分析。

總之,在篩選危險因素時,建議不要僅將單因素分析有統計學意義的變量納入多因素分析,一定要厘清變量之間的關系,否則容易遺漏重要的變量或納入無意義的變量。

(2) 以驗證危險因素為目的的分析思路:驗證危險因素,說明研究者在研究開始時已經有明確的主要研究因素,主要目的是為了驗證該因素是不是真正的影響因素?;謖庵幟康?,研究者在設計時會突出主要因素,但同時也會收集其他可能的混雜因素。例如,探索肺癌與吸煙的關系,吸煙是主要研究因素,因此問卷調查中會詳細設置各種與吸煙有關的問題??悸塹狡淥蛩乜贍芤不嵊跋?a class="channel_keylink" target="_blank">肺癌發生,因此調查時也會加入其他有關因素的調查,但這些因素不是研究者關心的,只是為了校正這些因素,以便真正明確吸煙與肺癌的關系。

因此,對于這種研究目的關鍵的問題是,如何控制混雜因素,以便真正明確主要研究因素與結局的關系?;煸右蛩卦?a class="channel_keylink" target="_blank">流行病學中已有詳細定義[2],不再贅述。從數據分析的角度來看,要判斷一個因素是否為混雜因素,可以從兩個方面來考慮:第一,分析該因素是否對結局有較大影響,通??剎捎?i>χ2檢驗或單因素logistic回歸來實現;第二,分析該因素在主要研究因素中的分布情況,通常采用χ2檢驗來實現。

例4:某研究分析性別與幽門螺桿菌(Hp)的關系,現在考慮吸煙是否為影響二者關系的混雜因素。具體數據見表 4。

表 4 不同性別、吸煙狀況的幽門螺桿菌(Hp)感染情況

首先分析吸煙對結局的影響,采用χ2檢驗或單因素logistic回歸不難發現,吸煙人群與不吸煙人群相比,Hp陽性的風險更高(OR=1.84,95%CI:1.44~2.35)。其次分析吸煙在性別中的分布,χ2檢驗結果顯示,男性和女性中吸煙的比例差異有統計學意義(χ2=396.97,P<0.001),男性的吸煙比例遠高于女性。

由此看出,以性別作為主要分析變量,在分析性別與Hp感染時,吸煙可能是影響二者關系的混雜因素,必須加以校正。校正前結果顯示,性別對Hp的影響有統計學意義,男性有更高的Hp陽性風險(OR=1.62,95%CI:1.26~2.07);校正后發現,性別對Hp的影響無統計學意義(OR=1.26,95%CI:0.94~1.68)。

因此,對于以驗證危險因素為目的的logistic回歸分析,分析思路主要是明確哪些因素可能是混雜因素并加以校正,以發現主要研究因素與結局的真實關系。建議盡量避免的兩種思路:①把所有變量都進行校正。除非樣本量足夠大,否則這種方式不可取。因為納入的自變量越多,所消耗的自由度越大,用于估計主要研究因素的樣本量相對越小,結果的精確度也越低。②采用逐步回歸篩選變量。作為主要研究變量,一定要保留在模型中,同時要納入混雜因素。逐步回歸篩選適用于探索危險因素,不適用于驗證危險因素。

3.隊列研究中的logistic回歸:隊列研究絕大多數都是為了驗證某一危險因素,這是由研究性質決定的。因為隊列研究在一開始就需要指定暴露和非暴露,也就相當于確定了主要研究因素。因此,從數據分析角度來講,隊列研究主要是為了排除混雜因素,與前文介紹的思路并無不同。但隊列研究在時間順序上可以證明研究因素發生在前,結局發生在后,因此其驗證能力更強。

由于隊列研究有明確的時間先后順序,此時在說明主要研究因素與結局的關聯強度時,可采用RR(risk ratio)而非OR(odds ratio)。隊列研究中,當結局發生率很低時(<10%),ORRR的一個很好的替代指標,此時用logistic回歸可直接求得OR值,用來說明暴露的危險度。但如果結局發生率不是很低,ORRR差別較大,此時用OR來說明危險度可能會有一定的偏倚[3]。

例5:某研究分析Hp感染與胃黏膜病變進展的關系,觀察數據見表 5。

表 5 不同幽門螺桿菌(HP)感染狀況的胃粘膜病變進展

本研究如果計算OR值則,OR=2.44(95%CI:1.05~5.70),如果計算RR值則,RR=1.77(95%CI:1.01~3.12)。由于病變進展的發生率較高,兩個指標差別較大。

隊列研究中RR值的計算通??剎捎枚允罘植薊毓?log-binomial regression)。通常需要借助軟件實現,如SAS的proc genmod過程[4]。

4.小結:本文介紹了病例對照研究和隊列研究中logistic回歸分析的不同思路,以及常見的一些應用錯誤。然而本文的思路并不僅限于logistic回歸分析,完全可以推廣到其他廣義線性模型。例如,隊列研究的觀察結局如果是計數資料,則可考慮Poisson回歸或負二項回歸,此時仍需考慮混雜因素的校正問題。因此,本文思路對各種常見的回歸模型均有一定借鑒意義,至于模型的選擇主要取決于研究結局類型及其分布。

在各種常見的回歸分析中,一定要分清研究類型及其目的,到底是探索危險因素還是驗證危險因素。危險因素的篩選過程較為復雜,需要考慮較多問題,包括變量篩選方式等;驗證危險因素相對較為簡單,不需要考慮變量篩選,但要明確混雜因素并加以校正。一定要避免“把數據完全交給軟件”這種分析方式,軟件主要用來解決計算問題,分析思路必須由研究者來確定。統計分析不是簡單的參數估計,而應結合研究類型,明確研究思路,才能給出合理的結果。

利益沖突 所有作者均聲明不存在利益沖突

參考文獻
[1] Mennard S. Applied logistic regression analysis[M]. Newbury Park, California: SAGE Publications, Inc, 2001.
[2] 徐飆. 流行病學原理[M]. 上海: 復旦大學出版社, 2007.
[3] Stokes ME, Davis CS, Koch GG. Categorical data analysis using the SASsystem[M]. 2nd ed. Cary, NC: John Willy & Sons, Inc, 2000.
[4] 馮國雙, 劉德平. 醫學研究中的logistic回歸分析及SAS實現[M]. 2版. 北京: 北京大學醫學出版社,, 2015.



小提示:78%用戶已下載梅斯醫學APP,更方便閱讀和交流,請掃描二維碼直接下載APP

只有APP中用戶,且經認證才能發表評論!馬上下載

大宫松鼠浦和红钻