- 相關推薦
醫學數據分析方法
醫學論文離不開臨床數據,對臨床數據進行分析是醫學論文寫作的重要一步。只有正確地進行數據分析,才能得出科學結論,醫學論文才具有科研價值。那么,醫學工作者該如何正確進行數據分析呢?以下是小編整理的醫學數據分析方法,歡迎參考。
醫學數據分析方法
1、聚類分析
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。
2、因子分析
因子分析是指研究從變量群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯系,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。這些方法本質上大都屬近似方法,是以相關系數矩陣為基礎的,所不同的是相關系數矩陣對角線上的值,采用不同的共同性□2估值。在社會學研究中,因子分析常采用以主成分分析為基礎的反覆法。
3、相關分析
相關分析,相關分析是研究現象之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關程度。相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系。
4、對應分析
對應分析也稱關聯分析、R-Q型因子分析,通過分析由定性變量構成的交互匯總表來揭示變量間的聯系。可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。
5、回歸分析
研究一個隨機變量Y對另一個(X)或一組(X1,X2,Xk)變量的相依關系的統計分析方法。回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。
6、方差分析
又稱“變異數分析”或“F檢驗”,是R.A.Fisher發明的,用于兩個及兩個以上樣本均數差別的顯著性檢驗。由于各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。
醫學數據分析統計方法
一、明確研究目的和研究設計研究目的是研究設計的目標和方向,科學研究的基本要素及其基本原則是科研設計的基礎和指南。
完整的科研設計包括專業設計和統計設計兩部分:
專業設計是指課題的實際意義和研究價值,入選對象的診斷標準、納入標準及排除標準等,決定研究課題的先進性和實用性;
統計設計包括選擇研究類型與設計方案,確定研究總體、樣本量、觀察指標、隨機化分組或抽樣方法,以及數據的質量控制和統計分析方法等,影響課題的可信度和科學價值。
因此,正確的統計學分析一定要建立在明確的研究目的和研究設計的基礎之上,那些事先沒有研究目的和研究設計,事后找來一堆數據進行統計分析都是不可取的。
在醫學論文的撰、編、審、讀過程中經常遇到的問題是研究的題目與課題設計、論文內容不符,包括文章的方法解決不了論文的目的、文章的結果說明不了論文的題目、文章的討論偏離了論文的主題;
還有是目的不明確、設計不合理。如題目過小,論文不夠字數,而一些無關緊要的變量指標或結果被分析被討論;
又如題目過大,論文的全部內容不足以說明研究的目的,使論文的論點難以立足。
所以,合理明確的論文題目或目的以及研究設計方案是撰、編、審、讀者應當關注的首要問題。此外,樣本含量是否滿足,抽樣是否隨機,偏倚是否控制等,也是不可忽視的問題。
二、建好分析用的數據庫數據庫即存放數據的“倉庫”,是指將不同研究對象不同觀測指標的觀察結果逐一有序記錄的二維表格形式。
二維表中除第一行屬于觀察指標外,其余每一行代表一個觀察對象的所有觀察指標值(即數據);
每一列代表某項觀察指標所有觀察對象的觀察值。嚴格的數據庫數據可以直接應用相關軟件進行統計分析。 由于不同軟件對文字存在可識別性問題,一般在統計分析時要求數據庫的數據值全部用阿拉伯數字表示,必要時可在適當位置附加批注。對于論文作者來講,統計分析需要借助于統計分析軟件計算,而統計分析軟件都要有完整、符合要求的數據或數據庫,所以建好分析數據庫是統計分析的需要。
此外,建好分析數據庫還可以理清分析思路。在試驗或調查研究中獲取的數據有時多而零散,如果不能進行科學的整理匯總,就會顯得雜亂無章,理不清頭緒,抓不住要點,甚至無所適從,最后可能束之高閣、棄之不用,造成數據的極大浪費。相反,建好數據庫,可以使觀察對象的研究指標一目了然,使研究思路清晰明確。
因此,建好數據庫是正確統計分析的前提和基礎,甚至決定了論文分析結果的成敗。對于編、審、讀者來講,一般由于篇幅的限制,往往得不到數據庫數據,而只有作者在數據庫數據基礎上經統計描述計算后給出的諸如各指標均數 x、標準差 s 或中位數 M、百分位數 Px 的“二手”數據,或將研究對象的某一指標按其數值大小或特征屬性分組,清點各組觀察單位出現的個數或頻數的頻數表數據等。
無論是否能夠得到數據庫數據,作者在統計分析過程中一定依據數據庫數據進行計算,得出結果。如果對“二手”數據或頻數表數據的結果等存在疑惑,編輯、審稿專家或讀者有權要求作者提供數據庫數據以檢查其完整性、準確性和真實性,確保研究數據的質量。假若在投稿須知中對數據庫數據作出必要的要求,無疑對于保證刊物的發表質量有著積極的意義。
三、分清楚指標(或變量)的性質和類型指標,即觀察指標,是由研究目的確定的觀察對象的內在屬性特征或其相關的影響因素。
例如:需要研究本體感覺訓練對腦卒中偏癱患者運動功能(本體感覺、平衡功能)的影響,那么本體感覺、平衡功能反映了腦卒中偏癱患者運動功能的特征,分別稱為研究的本體感覺指標、平衡功能指標,影響本體感覺和平衡功能的有關因素,比如年齡、性別、病種、病程等,稱為研究的年齡指標、性別指標、病種指標和病程指標。
變量即觀察變量,也稱變化的量,實際上就是觀察指標,一般特指用于數學、統計或軟件計算的分析指標。
例如:腦卒中偏癱患者運動功能的本體感覺、平衡功能指標,在統計計算時,分別稱為本體感覺變量和平衡功能變量。按變量是否影響其它變量或是否受到其它變量的影響有影響變量和結果變量之分。
影響變量,也稱自變量,是指自身變化并影響結果變量變化的量;
結果變量,又稱因變量,是指隨影響變量變化而變化的量,看作是影響變量變化的結果。
例如:如果分析康復訓練對冠心病患者有氧運動功能的影響,那么康復訓練可看作是影響變量,有氧運動功能則為結果變量;如果分析不同性別之間冠心病患者有氧運動功能是否存在統計學差異,那么性別是影響變量,有氧運動功能是結果變量。分清楚變量的性質,即什么是結果變量、什么是影響變量,是選擇統計分析方法的第一步。
一般而言,那些相對固有的、不易改變的特征(如性別、籍貫等)或易于被人控制的處理因素(如實驗分組、疫苗接種與否等)作為影響變量或影響因素;而那些容易變化、較難確定的觀察效應或結局(如療效、患病與否等)作為結果變量,看成是最后觀察的結果。但影響變量和結果變量的劃分是相對的,視研究目的和具體情況而定,有時甚至不加區分。
從數據庫、數據分析的角度來看,變量是指那些能反映數據庫數據的內在數量關系,可用于統計計算包括軟件計算的指標。一般而言,不同的研究目的決定了不同的數據庫,實際上決定了組成數據庫的不同變量。變量的類型分為數值變量和分類變量。
數值變量,又稱定量變量,是指能用定量方法測定的、具有數值大小、高低或多少的指標,變量值一般有度量衡單位,可以帶小數點,如身高、體重、血壓等;
分類變量,又稱定性變量,是指能用定性的方法確定的、觀察單位某項屬性或特征分類的指標。
根據分類變量的分類項數和各項數間有無等級程度差異分為二項分類變量、多項無序分類變量、多項有序分類變量,如表 1。表 1 分類變量的不同類別與舉例
從應用統計學選擇統計分析方法的角度考慮,變量可考慮分為數值變量、多項有序分類變量、多項無序分類變量、二項分類變量四種。此外,不同類別變量可遵循下列順序轉化:數值變量一多項有序分類變量一多項無序分類變量一 - 項分類變量,稱為降級轉化,但這種轉化過程會不斷喪失蘊藏的數據信息,導致統計分析過程中假陰性結果的不斷增加。
至于逆向轉化即升級轉化,盡管理論上認同,但實際應用中不建議采用。
很多研究表明,掌握好統計分析的應用條件,正確選擇統計分析方法是學習并應用統計學的一個突出難點。
對于醫學論文作者而言,分清楚數據庫中變量的性質(影響變量與結果變量)、類型(數值變量、多項有序分類變量、多項無序分類變量、二項分類變量)以及它們之間的降級轉化關系(數值變量一多項有序分類變量一多項無序分類變量一二項分類變量)是學好用好應用統計分析的基礎,可以有效避免張冠李戴、缺乏原則地選錯統計分析方法;對于文章的編審和讀者來說,這是判斷作者正確選擇統計學分析方法與否的一個簡單有效的途徑。
四、正確選用統計學方法應用統計學(嚴格而言是指統計學的假設檢驗)可以簡單地看作是一門關于結果變量與影響變量之間關系分析的科學。
由于結果變量(因變量)、影響變量(自變量)各有 4 種類型,所以相互組合有 16 種情形,相對應的有 16 種首選的統計分析方法(表 2 中第一個或用☆表示的方法),如,二項分類變量與二項分類變量關系的分析選用兩個率比較的 X2 檢驗(四格表 X2 檢驗),二項分類變量與多項無序分類變量關系的分析選用多個率比較的 X2 檢驗,多項無序分類變量與二項分類變量關系的分析選用兩個構成比比較的 X2 檢驗,多項無序分類變量與多項無序分類變量關系的分析選用多個構成比比較的 x2 檢驗。
數值變量與二項分類變量關系的分析選用 t- 檢驗,數值變量與多項無序分類變量關系的分析選用完全隨機設計的,F- 檢驗,數值變量與數值變量關系的分析選用 Pearson 直線相關回歸分析,等等。如果首選統計方法的條件不適合,一般通過降級轉化選擇“低”一級或“低”二級、三級的統計方法或其它統計方法。
例如:t 一檢驗是數值變量與二項分類變量關系分析時首選的統計方法,如果該方法的條件不適合,此時將 - 檢驗中數值變量“降級”當作多項有序分類變量看待,故可次選 Wilcoxon 秩和檢驗,如果再“降級”,依次低選兩構成比比較的 x2 檢驗,甚至四格表 X2 檢驗。又如:如果 Pearson 直線相關回歸分析的條件不符合,可根據情況將其中的一個或兩個數值變量“降一級”,選擇 Spearman 等級相關,如果再“降級”,相應可以選擇秩和檢驗、Logistic 回歸或者 t 一檢驗、X2 檢驗,等等。其它仿此,詳見表 2。它涵蓋了基本統計分析的絕大部分,是應用統計分析的核心內容。
當然,應用統計分析除了單一變量分析、兩變量間關系的分析以外,其它諸如一個自變量和多個因變量、多個自變量和多個因變量之間關系的分析當屬多變量關系分析的內容。
由于分類變量與數值變量各不相同,不同個數不同變量的組合方式多種多樣,所以相應的統計方法也有很多種,主要有:1 個數值變量與多個數值變量之間的關系,如多元相關回歸分析;1 個分類變量與多個數值變量之間的關系,如多因素方差分析、重復設計方差分析;l 個數值變量與混合多個變量之間的關系,如協方差分析、COx 模型;l 個分類變量與混合多變量之間的關系,如 Logistic 回歸分析;多個數值變量與多個數值變量之間的關系,如典則相關等。
表 2 兩變量關系分析的統計方法
因此,醫學論文的作者,在分清楚數據庫中分析變量的性質、類型和降級轉化關系時,可以應用表 2 迅速確定首選的統計方法以及備選或次選的統計方法,應用相關軟件或計算工具快速實現統計分析。醫學論文的編審和讀者也可應用該表 2,準確判斷作者是否正確選擇了統計學分析方法,甚至分析錯誤選擇統計方法的原因與后果。
例如:欲評價某種藥物的降舒張壓效果,試驗組用該降壓藥、對照組不用藥,假如測量的舒張壓值符合 t 檢驗的條件(正態分布、方差齊等),很明顯該數據首選 f 檢驗的統計方法。如果降級轉化可以選擇 Wilcoxon 秩和檢驗,如果降壓效果轉化為有效和無效兩種情況,甚至可以選擇四格表 X2 檢驗。
但需要注意的是,如此降級選擇統計方法,可能出現假陰性或漏診錯誤,即把差異有統計學意義的結果(有降壓效果)當作差異無統計學意義的結果(無降壓效果)看待,從而低估藥物的作用,在論文討論中至少要加以必要的說明,否則統計方法不能視為正確有效,可作為退修或退稿處理。
五、熟悉常用的統計分析軟件
統計分析軟件是統計分析的必備工具,常用的統計分析軟件有:統計分析系統 SAS、社會學統計程序包 SPSS、微軟公司電子表格系統 Microsoft Office Excel 等。SAS(statistics analysis system) 是統計分析系統的英文縮稱,最早由北卡羅來納大學的兩位生物統計學研究生編制,1976 年由 SAS 軟件研究所正式推出。SAS 完全針對專業用戶進行設計,以編程為主。 其最大特點是分析模塊調用,功能強大,深淺皆宜,簡短編程即可同時對多個數據文件進行分析。但對一般用戶而言,人機界面不太友好,最初編寫使用程序時可能會存在各種難度。
SPSS(statistical package for the social science) 是社會學統計程序包的英文縮稱,20 世紀 60 年代末由美國斯坦福大學的 3 位研究生研制,1975 年由芝加哥 sPss 總部推出。sPss 系統的最大特點是菜單操作,方法齊全,繪制圖形、表格較為方便,輸出結果比較直觀。但其統計分析功能略顯遜色,特別是難以同時分析處理多個數據文件。
【醫學數據分析方法】相關文章:
銷售數據的分析方法07-25
數據分析與辦公軟件:數據分析方法07-10
銷售數據分析方法07-03
銷售數據分析的方法07-03
配件庫存分析數據的方法07-10
數據分析常用方法07-26
多維數據分析方法04-07
傳統數據分析方法09-20
服裝銷售數據分析方法08-21
數據分析技巧和方法07-10