您好, 歡迎來到智慧城市網(wǎng)! 登錄| 免費(fèi)注冊| 產(chǎn)品展廳| 收藏商鋪|
提供商
上海士鋒生物科技有限公司資料大小
50.6KB資料圖片
查看下載次數(shù)
420次資料類型
PNG 圖片瀏覽次數(shù)
826次對于基因表達(dá)譜數(shù)據(jù)的分析是生物信息學(xué)的研究熱點(diǎn)和難點(diǎn)。轉(zhuǎn)化為數(shù)學(xué)問題,分析任務(wù)是從數(shù)據(jù)矩陣 M 中找出顯著性結(jié)構(gòu),結(jié)構(gòu)類型包括全局模型 (model) 和局部模式 (pattern) 。對基因表達(dá)譜數(shù)據(jù)的分析是數(shù)據(jù)挖掘問題,所采用的方法包括通過可視化進(jìn)行探索性數(shù)據(jù)分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分類、聚類、回歸和機(jī)器學(xué)習(xí)等。
基因表達(dá)譜分析所采用的常用方法是聚類,其目的就是將基因分組。從數(shù)學(xué)的角度,聚類得到的基因分組,一般是組內(nèi)各成員在數(shù)學(xué)特征上彼此相似,但與其它組中的成員不同。從生物學(xué)的角度,聚類分析方法所隱含的生物學(xué)意義或基本假設(shè)是,組內(nèi)基因的表達(dá)譜相似,它們可能有相似的功能。然而,產(chǎn)物有相同功能的編碼基因(例如對其它蛋白質(zhì)有磷酸化作用),不一定共享相似的轉(zhuǎn)錄模式。相反,有不同功能的基因可能因?yàn)榍珊匣螂S機(jī)擾動而有相似的表達(dá)譜。盡管有許多意外的情況存在,大量功能相關(guān)的基因的確在相關(guān)的一組條件下有非常相似的表達(dá)譜,特別是被共同的轉(zhuǎn)錄因子共調(diào)控的基因,或者產(chǎn)物構(gòu)成同一個蛋白復(fù)合體,或者參與相同的調(diào)控路徑。因此,在具體的應(yīng)用中,可以根據(jù)對相似表達(dá)譜的基因進(jìn)行聚類,從而指派未知基因的功能。
聚類分析是模式識別和數(shù)據(jù)挖掘中普遍使用的一種方法,是基于數(shù)據(jù)的知識發(fā)現(xiàn)的有效方法,特別適用于模式分類數(shù)不知道的情況。聚類分析是一種 無監(jiān)督學(xué)習(xí)方法,不需要任何先驗(yàn)領(lǐng)域知識,它 根據(jù)數(shù)學(xué)特征提取分類標(biāo)準(zhǔn),對數(shù)據(jù)進(jìn)行分類,這種數(shù)學(xué)特征的例子有統(tǒng)計(jì)平均值、相關(guān)系數(shù)、協(xié)方差矩陣的本征值及本征向量等。聚類分析在基因表達(dá)數(shù)據(jù)分析中應(yīng)用得很多,主要有層次聚類、 K 均值、自組織特征映射網(wǎng)絡(luò)等。本節(jié)將介紹基因表達(dá)數(shù)據(jù)分析中常用的聚類方法及與此相關(guān)的內(nèi)容。
相似性度量函數(shù)
對基因表達(dá)譜進(jìn)行聚類分析之前,必須首先確定反映不同基因表達(dá)譜相似程度的度量函數(shù),根據(jù)該函數(shù)可以將相似程度高的基因分為一類。在實(shí)際計(jì)算中,還可以用距離代替相似的概念,相似性度量被轉(zhuǎn)化為兩個基因表達(dá)譜之間的距離。距離越小,表達(dá)模式越相近;反之,則表達(dá)模式差異大。
常見的相似性度量有距離、點(diǎn)積、相關(guān)系數(shù)( correlation coefficient )、互信息( mutual inFORMAtion )等。 假設(shè)兩個基因表達(dá)譜分別為 X = ( x 1 ,x 2 ,…,x m )和 Y = ( y 1 ,y 2 ,…,y m ) , 距離函數(shù) d( X , Y ) 必須滿足如下條件:
d( X , Y ) ≧ 0
d( X , Y ) = d( Y , X )
d( X , Y ) = 0 if X = Y
d( X , Y ) ≦ d( X , Z ) + d( Z , Y )
歐氏距離( Euclidean distance )是一個通常采用的距離定義,它是在 m 維空間中兩個點(diǎn)之間的真實(shí)距離, 兩個基因表達(dá)譜之間的歐氏距離計(jì)算公式如下:
(8-16)
是標(biāo)準(zhǔn)方差。用上述兩種相似性度量,可以找出表達(dá)譜相似或者變化趨勢相同的基因,如圖 8.2(a) 、 (b) 所示。歐氏距離、相關(guān)系數(shù)可以反映基因之間的共表達(dá)關(guān)系,兩個基因表達(dá)譜間的距離小于給定的閾值或相關(guān)系數(shù)大于某個給定的閾值,就可以認(rèn)為它們之間是共表達(dá)的。距離和相關(guān)系數(shù)之間存在關(guān)聯(lián),在具體應(yīng)用時(shí),可以根據(jù)需要進(jìn)行轉(zhuǎn)換。
(8-19)
MI (X,Y) 是向量 X 和 Y 的互信息, H ( X ), H(Y) 分別是 X 和 Y 的熵, H(X,Y) 是向量 X,Y 的聯(lián)合熵。 歸一化互信息 NMI 定義如下:
NMI ( X , Y ) = MI ( X , Y ) /max[H ( X ), H ( Y ) ] (8-20)
NMI 獨(dú)立于單個信息熵,抓住了模式上的相似性。互信息聚類分析沒有規(guī)則上的約束,不象歐氏距離。
目前,還沒有理論來指導(dǎo)如何選擇的相似性度量,也許一個“正確”的距離在表達(dá)模式空間是不存在的,選擇何種度量函數(shù)依賴于我們要解決的問題。
8.4.2 聚類方法
對于基因表達(dá)譜的聚類問題,由于目前對基因表達(dá)的系統(tǒng)行為了解得不全面,沒有聚類的先驗(yàn)知識,所以通常采用無監(jiān)督學(xué)習(xí)方法。 在基因表達(dá)數(shù)據(jù)分析方面,層次式聚類、 K 均值、自組織映射神經(jīng)網(wǎng)絡(luò)在應(yīng)用中是常用的方法。 下面主要介紹這幾種常用的聚類方法,并簡單介紹一些其它方法。
簡單聚類
假設(shè)有 G 個基因,它們的表達(dá)譜分別用向量表示為
, 假設(shè)選擇
到
不屬于*類,應(yīng)該分到另外的類。在這種情況下,建立一個新的聚類中心
分到*類中。接著處理其它基因,在處理第 i 個基因時(shí),首先計(jì)算該基因的表達(dá)譜與現(xiàn)有各類中心的距離,假設(shè)與第 j 類的距離 Dijzui小,并且 Dij簡單聚類算法的結(jié)果與*個聚類中心的選擇、基因的順序、閾值 T 以及基因表達(dá)譜在其空間的分布有關(guān)。該方法對于給定的一組基因表達(dá)數(shù)據(jù)模式進(jìn)行初步分類提供了一種快速的算法。
層次聚類法
層次聚類法,在統(tǒng)計(jì)分析中也稱為系統(tǒng)聚類法,原理和算法與第 6 章所介紹的系統(tǒng)發(fā)生樹連鎖構(gòu)造方法類似,所不同的只是將所分析的數(shù)據(jù)由生物分子序列換成了這里的基因表達(dá)譜。該方法在基因表達(dá)譜聚類分析中是常用方法,它的優(yōu)點(diǎn)是容易理解和實(shí)現(xiàn),所得到的結(jié)果以樹狀圖的形式表示,可以直觀地觀察基因之間的相互關(guān)系,尤其是類與類之間的關(guān)系。但是,基因表達(dá)譜的數(shù)量很多,往往要多于系統(tǒng)發(fā)生樹分析時(shí)的物種數(shù)量,而且基因之間相互關(guān)系的信息也沒有物種之間的多,所以,對聚類結(jié)果的后續(xù)分析要比系統(tǒng)發(fā)生樹分析復(fù)雜得多。對于表達(dá)譜聚類的結(jié)果還需要進(jìn)一步分析基因的功能或者基因的序列特征,一般通過剪枝得到分類結(jié)果,而剪枝的過程往往帶有更多的主觀性,這會導(dǎo)致丟失一些重要的信息或包括一些無關(guān)的信息。此外,在構(gòu)建基因表達(dá)譜聚類樹時(shí),已被合并的向量不再參與以后的分類,這會導(dǎo)致聚類結(jié)果與向量的次序有關(guān),所以被認(rèn)為是一種局部*解的方法。
K 均值聚類
K 均值聚類在數(shù)據(jù)劃分上不考慮類的分層結(jié)構(gòu)問題,該算法使待聚類的所有向量到聚類中心的距離的平方和zui小,這是在誤差平方和準(zhǔn)則的基礎(chǔ)上得到的。 K 均值聚類算法如下:
(1) 任意選取 K 個基因表達(dá)譜向量作為初始聚類中心 Z1 , Z2 ,…, Zk ,在沒有先驗(yàn)知識的情況下,一般選擇前 K 個基因。
(2) 對所有的基因表達(dá)譜向量進(jìn)行反復(fù)迭代計(jì)算。在第 l 次迭代過程中,如果
(8-21)
其中 fj(l) 為第 l 次迭代中第 j 個聚類的基因集合, Nj 為該集合中基因的個數(shù)。
(4)對于所有的聚類中心,如果 Z j (l+1)= Z j (l)(j=1,2,…,K) ,則迭代結(jié)束,得到zui后的聚類結(jié)果;否則轉(zhuǎn)第 2 步,繼續(xù)進(jìn)行迭代計(jì)算。
聚類中心的個數(shù) K 、初始聚類中心的選擇、基因排列的順序 以及基因表達(dá)譜數(shù)據(jù)的分布影響聚類的結(jié)果,當(dāng)基因表達(dá)譜類別之間分離較遠(yuǎn)時(shí),該算法可以取得令人滿意的聚類分析結(jié)果。
自組織映射神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)技術(shù)在模式識別方面有著*的優(yōu)勢,神經(jīng)網(wǎng)絡(luò)能夠進(jìn)行非線性數(shù)據(jù)處理,發(fā)現(xiàn)復(fù)雜的數(shù)據(jù)關(guān)系,其中,自組織映射神經(jīng)網(wǎng)絡(luò)( Self-Organizing Map , SOM )可以對模式數(shù)據(jù)進(jìn)行自動聚類。
自組織特征映射是 Kohonen 在 1990 年提出的類似大腦思維的一種人工神經(jīng)網(wǎng)絡(luò)方法,它是一種競爭學(xué)習(xí)算法,可以被認(rèn)為是一種從 N 維模式空間各點(diǎn)到輸出空間少數(shù)點(diǎn)的映射。這一映射由系統(tǒng)本身完成,沒有外部的監(jiān)督,即聚類是以自組織的方式實(shí)現(xiàn)的。 SOM 采用無教師學(xué)習(xí)訓(xùn)練,訓(xùn)練完成后,分類信息存儲在網(wǎng)絡(luò)各節(jié)點(diǎn)連接權(quán)值向量中,與權(quán)值向量相似的輸入向量將分為一類。 SOM 包括一維和二維模型,二維 SOM 也稱為 KFM(Kohonen Feature Mapping) 。它們的區(qū)別在于 KFM 考慮鄰近神經(jīng)元的相互作用,即獲勝神經(jīng)元對周圍神經(jīng)元由于距離的不同會產(chǎn)生不同的影響。
(8-22)
學(xué)習(xí)過程可以采用從全局到局部的策略。采取這種策略時(shí),學(xué)習(xí)初期可設(shè)定較大的交互作用半徑 R ,隨著學(xué)習(xí)過程的不斷推進(jìn),逐步減小 R ,直至不考慮對鄰近單元的影響。鄰域的形狀可以是正方形或者圓形。
KFM 的聚類結(jié)果與 K 均值相似,它的優(yōu)點(diǎn)是自動提取樣本數(shù)據(jù)中的信息,同時(shí)也是一種全局的決策方法,能避免陷入局部zui小,缺點(diǎn)在于必須實(shí)現(xiàn)人為設(shè)定類的數(shù)目與學(xué)習(xí)參數(shù),而且學(xué)習(xí)時(shí)間較長。 KFM 方法克服了 K- 均值聚類的一些缺點(diǎn):它應(yīng)用類間的全局關(guān)系,能提供大數(shù)據(jù)集內(nèi)相似性關(guān)系的綜合看法,便于研究數(shù)據(jù)變量值的分布及發(fā)現(xiàn)類結(jié)構(gòu)。而且,它具有更穩(wěn)健更準(zhǔn)確的特點(diǎn),對噪聲穩(wěn)定,一般不依賴于數(shù)據(jù)分布的形狀。
其它聚類方法
聚類方法是數(shù)據(jù)挖掘中的基本方法,數(shù)據(jù)挖掘的方法很多,在基因表達(dá)譜的分析中,除了以上常用方法外,還有一些其它的方法。由于對聚類結(jié)果尚沒有一種有效的方法進(jìn)行評價(jià),尤其是對聚類結(jié)果的進(jìn)一步生物學(xué)知識發(fā)現(xiàn)尚沒有新的分析思路和成功應(yīng)用,因此,科學(xué)家們在不斷地研究一些新方法。這些方法有不同的原理,能夠提取不同數(shù)據(jù)特征,有可能對具體的數(shù)據(jù)得到更有意義的結(jié)果,發(fā)現(xiàn)更多的生物學(xué)知識。這里,簡單介紹這些方法的原理,更詳細(xì)的介紹請參看相關(guān)文獻(xiàn)。
(1)模糊聚類分析方法:這是一種模擬人類的思維方法,通過隸屬度函數(shù)來反映某一對象屬于某一類的程度。基本思路是計(jì)算兩兩基因表達(dá)譜之間的相似性程度,構(gòu)建模糊相似矩陣,利用模糊數(shù)學(xué)中的傳遞閉包計(jì)算方法得到模糊等價(jià)矩陣,選擇不同的置信水平從模糊等價(jià)矩陣中構(gòu)建動態(tài)聚類圖。對于特定的置信水平,可以實(shí)現(xiàn)對基因表達(dá)譜的分類。該方法的優(yōu)點(diǎn)是利用了模糊數(shù)學(xué)中的隸屬度概念,能夠更好的反映基因表達(dá)譜之間的相互關(guān)系,而且它是一種全局的優(yōu)化方法,與向量的順序無關(guān)。
(2)模糊C均值算法:該方法同樣將模糊數(shù)學(xué)中的隸屬度概念引入到常用的 K 均值聚類方法中。對于 K 均值算法,一個基因表達(dá)譜所屬的類只有一個,因此,它與各類別的關(guān)系要么是 1 ,要么是 0 ,即屬于或不屬于某一類。而對于模糊 C 均值法,一個基因表達(dá)譜是否屬于某一類,是以隸屬度
;同樣它沒有一個明確的類界限,在計(jì)算聚類中心時(shí),需要考慮所有的樣本向量,根據(jù)隸屬度μ來計(jì)算聚類中心。
(3)譜聚類:K 均值聚類對于聚類中心相距較遠(yuǎn)的數(shù)據(jù)樣本具有很好的聚類效果,而對于具有同心圓特征的數(shù)據(jù)樣本很難得到好的分類效果,而譜聚類( Spectral clustering )能夠很好的對具有這種特征的樣本進(jìn)行聚類。譜聚類是一種基于矩陣特征向量的方法,也是一種能根據(jù)頂點(diǎn)之間的權(quán)值對圖進(jìn)行劃分的方法。用圖表示基因表達(dá)譜矩陣,基因表達(dá)譜可以看作是一組頂點(diǎn),連接頂點(diǎn)的邊的權(quán)值反映了兩個表達(dá)譜之間的相似性,這樣就得到有權(quán)無向圖 G(V , A) ,聚類過程等價(jià)于將 G 劃分為不連接的子集,這可以通過簡單地刪除連接邊來實(shí)現(xiàn)。聚類過程包括兩個步驟:第 1 步是將表達(dá)譜空間轉(zhuǎn)化為相似度矩陣的特征向量空間;第 2 步是應(yīng)用簡單的 K 均值法對特征向量空間的特征向量進(jìn)行聚類,得到的結(jié)果就對應(yīng)了基因表達(dá)譜的聚類結(jié)果。該方法可以根據(jù)特征值自動確定分類數(shù)目。譜聚類在聚類過程中進(jìn)行了特征空間的轉(zhuǎn)換,可以將大的空間轉(zhuǎn)化為較小的空間,從而可以更快速地處理大規(guī)模的數(shù)據(jù)。
(4)超順磁性聚類:超順磁性聚類( superparamagnetic clustering )是一種基于模擬非均勻鐵磁物質(zhì)的物理特性的聚類方法,將數(shù)據(jù)聚類問題視為檢驗(yàn)不均勻 Potts 模型的平衡特性。根據(jù)表達(dá)譜向量之間的距離矩陣構(gòu)建圖,頂點(diǎn)是數(shù)據(jù)點(diǎn),如果兩個點(diǎn)之間的距離滿足 K-mutual-neighbor 準(zhǔn)則,則稱為鄰居。數(shù)據(jù)點(diǎn)的聚類等價(jià)于有權(quán)圖的劃分。給每一數(shù)據(jù)點(diǎn)分配一個 Potts 自旋子,相鄰數(shù)據(jù)點(diǎn)間引入強(qiáng)度隨距離下降的相互作用函數(shù)。非均勻 Potts 模型系統(tǒng)隨溫度變化表現(xiàn)出三相:在低溫下,所有自旋子呈現(xiàn)*有序的排列,系統(tǒng)為鐵磁相;隨著溫度的升高,小區(qū)域自旋子形成磁化“顆粒”,附屬于同一“顆粒”者相互間產(chǎn)生強(qiáng)耦合,而無關(guān)者間相互作用很弱,不同“顆粒”的排列呈無序狀態(tài),為超順磁相;在高溫下,系統(tǒng)不表現(xiàn)任何有序性,為順磁相。在超順磁相的轉(zhuǎn)換溫度下,磁化率表現(xiàn)出顯著的峰值。原則上,超順磁相可以有一系列的轉(zhuǎn)換點(diǎn)。隨著溫度的升高,系統(tǒng)可以首先分裂為兩類,其中每一類又可以分裂為更多的子類,這樣,數(shù)據(jù)就分層組織為類。超順磁性聚類算法的優(yōu)點(diǎn)是對噪聲及初始化不敏感,因?yàn)轭愑上到y(tǒng)的綜合性質(zhì)產(chǎn)生。由磁化率的峰值很容易鑒別主要的分界,從而能清楚顯示類的構(gòu)成和分界,并且在每一個分辨率上能自動確定類數(shù)。
(5)雙向聚類法:以上所述方法主要是對基因表達(dá)譜進(jìn)行聚類,或針對基因表達(dá)矩陣的行進(jìn)行聚類分析,將具有相似模式的基因表達(dá)譜分為一組,這是在應(yīng)用中要解決的主要問題。基因表達(dá)數(shù)據(jù)矩陣中的列表示了實(shí)驗(yàn)條件,可以是時(shí)間序列,也可以是不同的腫瘤樣本或病人樣本。從生物學(xué)應(yīng)用的角度,針對列的聚類可以發(fā)現(xiàn)各實(shí)驗(yàn)條件之間的相互關(guān)系,例如,同一腫瘤類型的樣本可以聚成一類,它們具有相似的基因表達(dá)模式,這樣就可以基于表達(dá)譜對腫瘤進(jìn)行分類。從數(shù)學(xué)的角度,數(shù)據(jù)矩陣中的每一列對基因表達(dá)譜的行聚類結(jié)果有著不同的影響,挑選部分列進(jìn)行聚類的結(jié)果與選擇所有列進(jìn)行聚類的結(jié)果是不同的。將兩者結(jié)合起來,就稱為雙向聚類法,在行和列兩個方向上進(jìn)行聚類分析,通常采用貪婪迭代檢索的方法來發(fā)現(xiàn)子矩陣或穩(wěn)定的類,這些子矩陣中感興趣的模式具有特定的生物學(xué)意義。在應(yīng)用中,可以根據(jù)具體的目的,確定以降低基因維數(shù)還是以降低樣本維數(shù)為主,通過迭代得到穩(wěn)定的若干樣本分類或基因分組。
基于模型的聚類方法
在基因表達(dá)數(shù)據(jù)顯著性分析時(shí),我們提到貝葉斯方法的應(yīng)用,它分別對兩種條件下的數(shù)據(jù)構(gòu)建模型,通過比較它們的模型參數(shù)來確定表達(dá)差異的顯著性。同樣,基因表達(dá)譜分析也可以引入建模的方法,假定每一個基因表達(dá)譜是由一種內(nèi)在的概率模型產(chǎn)生的,它滿足一定概率分布或者分布的有限組合,例如多元正態(tài)分布,而所有的基因表達(dá)譜是由若干個概率模型混合產(chǎn)生的,這樣就可以通過確定這些概率模型,來實(shí)現(xiàn)對基因表達(dá)譜聚類的目的。高斯混合模型是該聚類方法中的常用模型。與上面所述的各種啟發(fā)式聚類算法比較,基于模型的方法具有的zui大優(yōu)點(diǎn)是,不需要使用嚴(yán)格的方法來確定類的數(shù)目或*的聚類方法,但是不足是計(jì)算量非常大,對于大量數(shù)據(jù)的分析比較困難。
基于混合模型的聚類,首先假設(shè)數(shù)據(jù)中蘊(yùn)含的每一類樣本由一種內(nèi)在的概率分布混合產(chǎn)生,例如高斯混合模型,獨(dú)立多元觀測 y1, y2 , … , yn 組成的數(shù)據(jù)Y中每一元素 yk由參數(shù)為 uk(均值向量)和Σk(協(xié)方差矩陣)的多元正態(tài)分布模擬,
, D 為特征向量組成的正交矩陣,確定模型的取向,A為對角矩陣,元素與Σk的特征值成正比,確定模型的形狀λ為標(biāo)量,確定模型的體積。約束和改變部分參數(shù),可以得到這一概率框架下的一組模型,如 , 等體積球模型( EI :
) 等,以適應(yīng)數(shù)據(jù)特征的變化。模型參數(shù)可以通過 EM (期望zui大化)方法估計(jì)。每一種協(xié)方差矩陣與類數(shù)組合情況相應(yīng)于不同的概率模型,由貝葉斯信息準(zhǔn)則 (BIC) 估計(jì)每一種模型下數(shù)據(jù)被觀測到的概率,計(jì)算模型的 BIC 得分,zui后選擇 BIC 得分zui大的模型和參數(shù)對該樣本進(jìn)行分類。
8.4.4 支持向量機(jī)
如上所述,對于基因表達(dá)譜數(shù)據(jù)矩陣M,在對行或列向量進(jìn)行聚類分析時(shí)很少或根本沒有用到生物學(xué)知識,所得到的結(jié)果是否具有生物學(xué)意義,還需要進(jìn)一步的分析。然而,對于特定的數(shù)據(jù)矩陣,都有特定的生物學(xué)背景,例如,基因之間存在相關(guān)性,可以分成若干功能類,樣本之間也存在某種關(guān)系,可能來自患有相同腫瘤的病人。將這些知識應(yīng)用于聚類方法中,挑選部分樣本作為訓(xùn)練樣本,可以提取特征構(gòu)建分類器,然后對其它的樣本進(jìn)行分類,實(shí)現(xiàn)聚類的目的。這種方法稱為有監(jiān)督學(xué)習(xí)方法,支持向量機(jī)( support vector machine , SVM )就是這樣一種從少量樣本中提取分類信息的機(jī)器學(xué)習(xí)方法。因?yàn)?SVM 僅僅需要少量樣本,而實(shí)現(xiàn)對大量樣本的分類,這與分類問題中通常有明確類別存在的情況下對未知類別進(jìn)行分類是不同的,所以,在這里將它作為一種聚類方法進(jìn)行介紹。
統(tǒng)計(jì)學(xué)習(xí)理論是目前針對小樣本統(tǒng)計(jì)估計(jì)和預(yù)測學(xué)習(xí)的*理論,它從理論上較系統(tǒng)地研究了風(fēng)險(xiǎn)zui小化原則成立的條件、有限樣本下經(jīng)驗(yàn)風(fēng)險(xiǎn)與期望風(fēng)險(xiǎn)的關(guān)系以及如何利用這些理論找到新的學(xué)習(xí)原則和方法等問題。支持向量機(jī)是實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)理論思想的具體方法,可以用于解決小樣本、非線性及高維學(xué)習(xí)問題,不需要足夠的樣本來構(gòu)建特征空間,而僅僅需要少量的樣本來構(gòu)建分類界面,這些用來構(gòu)建分類界面的樣本就稱為支持向量。
考慮 圖 8.4 所示的二維兩類線性可分情況,圖中實(shí)心點(diǎn)和空心點(diǎn)分別表示兩類訓(xùn)練樣本點(diǎn),分類線 H 能把兩類正確地分開, H 1 , H 2 平行于 H ,并且分別為兩類樣本中離分類線 H zui近的點(diǎn), H 1 、 H 2 之間的距離叫做兩類的分類空隙或分類間隔,*分類線就是要求分類線不但能將兩類正確地分開,同時(shí)要求使兩類的分類空隙zui大,從而使真實(shí)風(fēng)險(xiǎn)zui小。對于高維空間,*分類線就成為*分類面。
是類別標(biāo)號,則分類判別函數(shù)為
。將判別函數(shù)歸一化,使兩類所有樣本都滿足
。要使間隔zui大,必須使
(8-25) 因此,滿足上述條件且使
的zui小值。為此,可以構(gòu)建 Lagrange 函數(shù)
>0,為 Lagrange 系數(shù),問題轉(zhuǎn)化為對w和b求Lagrange函數(shù)的極小值,分別對w和b求偏微分并令它們等于0,在約束條件
求解下述函數(shù)的zui大值,
為*解,則
(8-29) sgn() 為符號函數(shù)。由于非支持向量對應(yīng)的
是分類的閾值,可以由任意一個支持向量求得,或通過兩類中任意一對支持向量取中值求得。從zui終的分類判別函數(shù)中可以看到,只含有待分類樣本與訓(xùn)練樣本中的支持向量的內(nèi)積運(yùn)算。
對于兩類情況的分類,就是要構(gòu)建*分類面或超平面。對于大多數(shù)真實(shí)世界的問題,包含不可分的數(shù)據(jù),也就是在數(shù)據(jù)空間中不存在一個超平面可以成功的區(qū)分兩類樣本。一個解決辦法是將數(shù)據(jù)映射到更高維的空間,在那里定義一個可分隔的超平面。這個更高維的空間稱為特征空間,而對應(yīng)的訓(xùn)練樣本所在的空間叫輸入空間。問題就成為如何選擇一個足夠維度的特征空間,使得訓(xùn)練數(shù)據(jù)可分。
SVM 的基本思想是首先通過非線性變換將輸入空間變換到一個高維的特征空間,然后在這個新空間中求取*線性分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)實(shí)現(xiàn)的。用于超平面分類點(diǎn)的決策函數(shù)僅僅包含特征空間中點(diǎn)之間的點(diǎn)積,因此尋找特征空間中可分隔超平面的算法*可以用輸入空間中的向量和特征空間中的點(diǎn)積來陳述。 SVM 能夠定位超平面,不需要明確地表示特征空間,只需要簡單地定義稱為核心函數(shù)的函數(shù) K ,它在特征空間中起著點(diǎn)積的作用,這個技術(shù)避免了明確表示特征向量的計(jì)算負(fù)擔(dān)。
SVM 的判別函數(shù)為:
(8-31)
是高斯寬度,等于正樣本與zui近負(fù)樣本間歐氏距離的中值,得到的 SVM 是一種徑向基函數(shù)分類器。
聚類結(jié)果的可視化
對微陣列基因表達(dá)譜的聚類分析得到的一般是基因的分組信息和基因表達(dá)譜的相互關(guān)系,如何進(jìn)一步了解同組基因的表達(dá)譜差異?不同組基因之間是否存在相互關(guān)系?哪些基因是上調(diào)或下調(diào)的?幅度變化有多大?在何種條件下發(fā)生較大的變化?這些問題是生物學(xué)家普遍關(guān)注的問題,需要通過簡單、直觀的方法來給出這些答案。數(shù)據(jù)對于大多數(shù)人來說太抽象了,而文字的描述又難以反映數(shù)據(jù)的本質(zhì),采用可視化的方法可以大大方便對表達(dá)譜分析結(jié)果的理解,有利于對這些問題的回答。
在數(shù)據(jù)挖掘中,可視化方法可以用來發(fā)現(xiàn)數(shù)據(jù)中的固有結(jié)構(gòu),這是因?yàn)槿祟惖难劬痛竽X具有強(qiáng)大的結(jié)構(gòu)探測能力——這是長期進(jìn)化的成果。可視化方法就是以各種可以發(fā)揮出人類在模式處理方面的特殊能力的方式來顯示數(shù)據(jù)。可視化方法在數(shù)據(jù)挖掘中占有非常重要的地位,它是篩選數(shù)據(jù)尋找未知數(shù)據(jù)關(guān)系的理想方法。可視化方法是生物信息學(xué)中常用的一種表示和發(fā)現(xiàn)生物學(xué)知識的方法,典型的例子有蛋白質(zhì)三維構(gòu)象的顯示、轉(zhuǎn)錄因子 DNA 結(jié)合位點(diǎn)一致序列的 logo 表示、基因調(diào)控網(wǎng)絡(luò)的圖形表示等。
基因表達(dá)譜的數(shù)據(jù)特點(diǎn)是基因數(shù)目多,樣本少,而每一個數(shù)據(jù)點(diǎn)所表示的是基因在特定條件下的表達(dá)數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理后,往往是與參考樣本表達(dá)水平的比值的對數(shù)值,負(fù)值表示基因表達(dá)水平的下調(diào),正值表示上調(diào),值的值反映了變化的幅度。因此,對于表達(dá)譜數(shù)據(jù)及其聚類結(jié)果通常用兩種方式表示。
*種可視化表示方式是彩色盒圖和樹狀圖 (dendrogram) 。所謂的彩色盒圖是用不同的顏色小方盒來表示基因表達(dá)譜數(shù)據(jù),一個小方盒表示一個數(shù)據(jù),綠色表示數(shù)據(jù)小于 0 ,紅色表示數(shù)據(jù)大于 0 ,相對應(yīng)的生物學(xué)意義是對應(yīng)的基因在相應(yīng)的條件下是上調(diào)還是下調(diào),而顏色的深淺反映了數(shù)據(jù)的值大小。基因表達(dá)譜的很多聚類結(jié)果是以樹狀圖的形式表示的,例如,對于層次聚類法、模糊聚類等方法,這些結(jié)果的可視化是通過樹狀圖和彩色盒圖相結(jié)合表達(dá)的(如 圖 8.5 ( a )所示 )。樹狀圖是系統(tǒng)發(fā)生分析中常用的物種進(jìn)化關(guān)系的表示方法,在這里反映了基因表達(dá)譜之間的關(guān)系,通過不同層次的剪枝,可以得到不同的基因子集。樹狀圖和彩色盒圖的結(jié)合,可以很好地反應(yīng)具有不同表達(dá)特征的基因之間的相互關(guān)系,例如,對于細(xì)胞周期的基因表達(dá)檢測,可以很方便地知道哪些基因是周期性表達(dá)的,它們的表達(dá)高峰分別在哪一個時(shí)期等。從這種方式的表示中,可以方便地發(fā)現(xiàn)相關(guān)的基因,并對它們進(jìn)行深入的分析。對于 k 均值、 SOM 等聚類方法得到的結(jié)果也可以用彩色盒圖表示,分在同一組的基因安排在一起,也能基本反映基因表達(dá)譜之間的相互關(guān)系。該方法的局限性在于基因的數(shù)量很大,很難對全部基因進(jìn)行同時(shí)的細(xì)節(jié)觀察。
,要求將這些樣本分成 c 個類,由于存在多種可能的分類方案,到底哪種分法?這就必須定義一個準(zhǔn)則函數(shù),聚類問題就變成對這個準(zhǔn)則函數(shù)求極值的問題。zui簡單的準(zhǔn)則是誤差平方和準(zhǔn)則,其準(zhǔn)則函數(shù)定義如下:
(8-34)
其中 b(i) 為某類中的樣本 i 到其它類樣本的平均距離的zui小值, a(i) 為某類中的樣本 i 與類內(nèi)其它樣本的平均距離。 S(i) 的值反映了樣本 i 的分類情況,一般通過某類中所有樣本的平均 S(i) 值作為判斷該類的好壞的標(biāo)準(zhǔn)。
( 3 ) FOM 值:
FOM(figure of merit ,量度優(yōu)值 ) 法,是一種數(shù)據(jù)驅(qū)動的方法,用于比較來自基于啟發(fā)式聚類算法的分類質(zhì)量。本質(zhì)上屬于留一交叉驗(yàn)證方法 (leave-one-out cross validation) ,即在 G 個基因、 n 個條件中保留 {1,2,…,e-1,e+1,…,n} 進(jìn)行聚類分析,留出條件 e 用于驗(yàn)證,聚類后有 k 個類,用 f1 , … , fk 表示每一類的基因集合。 xge 表示基因 g 在條件 e 下的表達(dá)水平,
(8-35)
對 n 個條件分別計(jì)算 FOM ( e ,k )值,并求和作為聚類方法的評價(jià)指標(biāo),
(8-37)
( 4 ) Rand 指數(shù):
根據(jù)生物學(xué)知識對基因的分類或用其它方法形成的聚類結(jié)果,稱為外部參考分類。比較外部參考分類與當(dāng)前聚類方法的結(jié)果,可以判斷該聚類方法的性能。假設(shè)外部參考分類集合
。令 a 是在 U 中分在同一類、同時(shí)在 V 中也分在同一類的基因數(shù)目, b 是在 U 中屬于同一類而在 V 中不屬于同一類的基因數(shù)目, c 是在 U 中不屬于同一類而在 V 中屬于同一類的基因數(shù)目, d 是在 U 和 V 中都不在同一類中的基因數(shù)目, a 和 d 可以解釋為一致的,而 b , c 解釋為不一致的,則 Rand 指數(shù)可以定義為 :
<img alt="基因表達(dá)譜數(shù)據(jù)聚類分析相關(guān)內(nèi)容" 基因表達(dá)譜數(shù)據(jù)聚類分析相關(guān)內(nèi)容"="" border="1" height="42" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/15061U046-60.png" src="http://www.bio1000.com/uploads/allimg/120625/15061U046-60.png" width="164" style="vertical-align: middle; border: 0px;">
(8-38)
如果參考分類與當(dāng)前分類很吻合,則 RI=1 。
請輸入賬號
請輸入密碼
請輸驗(yàn)證碼
以上信息由企業(yè)自行提供,信息內(nèi)容的真實(shí)性、準(zhǔn)確性和合法性由相關(guān)企業(yè)負(fù)責(zé),智慧城市網(wǎng)對此不承擔(dān)任何保證責(zé)任。
溫馨提示:為規(guī)避購買風(fēng)險(xiǎn),建議您在購買產(chǎn)品前務(wù)必確認(rèn)供應(yīng)商資質(zhì)及產(chǎn)品質(zhì)量。