首頁 > 軟體

戴紀剛研究團隊:一種新穎的基於多組學的肺結節良惡性診斷技術

2021-05-31 07:00:40

一種針對肺結節的無創多元分析法診斷肺癌(發表於ADV SCI,影響因子15.894)

摘要

為了解決常規低劑量CT(LDCT)在肺癌診斷中的假陽性率高的問題,此次研究採用基於血液樣本的無創性檢測來協助臨床醫生進行肺結節(PNs)診斷的決策的功效。在這項前瞻性觀察性研究中,通過LDCT篩選高危的PNs的患者進行了基於二代測序技術(NGS)的遊離DNA(cell free DNA,cfDNA)突變分析,基於NGS的cfDNA甲基化分析以及基於血液的蛋白質癌症生物標誌物檢測,然後進行手術切除,並對組織切片進行病理檢查和分類。以病理學分類為金標準,使用統計和機器學習方法基於98位患者的發現佇列(28位良性和70位惡性腫瘤)選擇與組織惡性分類相關的分子標記,並構建預測組織惡性腫瘤的綜合多分析預測模型。基於各個測試平臺的預測模型表現出不同的效能水平,而它們的最終整合模型AUC為 0.85。該模型的效能在29位患者的獨立驗證佇列(14例良性和15例惡性,效能> 0.90)上得到了進一步證實,其AUC值為0.86,總體敏感性為80%,特異性為85.7%。

引文

低劑量計算機斷層掃描(LDCT)通常用於篩查高危患者的肺癌(LC)。當使用來自基於美國的國家肺篩查試驗的陽性篩查的原始定義時,LDCT效能受到大量陽性呼叫(27%)的影響,其中96%已被確定為假陽性。隨後的Nelson試驗使用基本上不同的陽性篩查結果定義來將假陽性的比例降低到60%,但這導致LC檢測的敏感度下降了10倍,陽性率為2.7%。由於小的惡性結節的放射學特徵不明確,在CT掃描中區分小的惡性結節與良性結節尤其具有挑戰性。因為在中國人群中結核球的患病率相對較高,這使問題變得更加複雜,所以這個問題在作者所在的醫院尤為突出。面對類似的困境,許多臨床上用於廣泛評估癌症風險的生物標記物缺乏所需的特異性。例如,基於血清蛋白的癌症生物標誌物,如癌症抗原125(CA125)、癌胚抗原(CEA)、前列腺特異性抗原(PSA)和癌症抗原19-9(CA199)通常用於監測肺癌患者。但是這些蛋白也在非癌症患者的血清中被發現,這限制了它們在早期肺癌診斷中的臨床應用。[4]因此,人們一直在尋找特異性更高的生物標誌物來補充現有的臨床實踐。迴圈腫瘤DNA(CtDNA)是基於無細胞DNA(CfDNA)研究的主要腫瘤學研究熱點之一,它為腫瘤特異性基因組改變的無創性研究提供了一個很有前途的平臺。ctDNA研究通常只需要從患者身上提取液體,如血液、胸水、腦脊液等,與傳統的手術活檢方法相比,對實體腫瘤微環境的影響最小,從而避免了應激誘導的腫瘤細胞增殖。下一代測序技術(NGS)的應用,加上先進的計算方法,使得基於ctDNA的腫瘤突變圖譜在廣泛的癌症類型中得到了極大的應用。有時參考腫瘤組織測序圖譜以指導治療,這些方法已經成功地應用於確診的癌症患者。與此同時,儘管有許多備受矚目的研究論文,基於血液的突變圖譜在癌症篩查和早期檢測中的應用仍處於初級階段。這可能是因為當腫瘤很小時,這些突變靶點的等位基因頻率非常低,因此它們對現有技術的可靠檢測構成了挑戰。特別是關於肺癌,Phallen等人,比較早期肺癌和健康人的cfDNA突變譜,報道它們可能是潛在的非侵入性檢測生物標誌物。然而,用於區分良惡性肺結節的突變生物標誌物的研究報道甚少。DNA序列的全局低甲基化和CpG島(CpG島)的局部高甲基化在腫瘤發生的早期階段被廣泛觀察到,這使得DNA甲基化圖譜成為癌症早期檢測的一種有吸引力的方法。已經有幾項研究報道了基於血液的肺癌篩查和診斷。Ooki等人,設計了用於早期肺癌檢測的cfDNA甲基化小組,但仍以健康對照為基礎。Hulber等人報道稱,6個基因啟動子區域的甲基化特徵對早期肺癌具有較高的診斷準確率。據報道,該技術對中國小結節患者早期非小細胞肺癌的檢測具有很高的敏感性和特異性。樑等人報道的一項臨床研究。研究表明,9種特定的甲基化標記物在區分肺癌和良性肺結節(PN)方面是有效的。這種概念驗證工作在應用於臨床之前通常需要進一步改進,因為該測試的效能與更傳統和更方便的LDCT相當。使用單一技術平臺進行分析的一個突出問題是成像、蛋白質生物標記物、DNA突變或DNA甲基化,這與選擇用於構建預測模型的生物標記物有關。考慮到腫瘤生物學的複雜性,單一的測試平臺很容易對預測模型引入系統性的研究偏差,因為觀察資料只反映了患者/樣本的一個方面。此外,臨床研究經常在有限的佇列規模下面臨現實的挑戰,再加上對潛在預測標記物的巨大搜索空間,結果模型在不同的平臺和研究中表現出巨大的差異並不令人驚訝。自然,對多組學資料的綜合分析可以提供對患者的更全面的看法,減少系統偏差和方差,從而促進更準確的臨床決策。少量研究已經表明結合多組學特徵可以提高癌症篩查的效能。例如,Cohen等人的CancerSeek小組發現基於DNA點突變和蛋白質的腫瘤標誌物在區分可切除肺癌和正常標本方面的敏感性和特異性分別達到59%和99%,Silverstri等人的PANOPTIC分類器發現根據蛋白癌生物標誌物和患者的臨床特徵,可以區分肺結節的良、惡性,敏感性為97%,特異性為44%。我們的研究旨在從兩個方面提升上述技術水平。首先,我們關注的是具有挑戰性的臨床應用,即區分惡性病變和良性病變,而不是腫瘤組織和正常標本。病變是病理改變的組織,無論其惡性程度如何,與正常標本相比,可能具有更高水平的分子特徵,因此需要更微妙和更難區分的惡性和良性病變。其次,我們通過整合包括臨床特徵、蛋白質生物標誌物、cfDNA突變和cfDNA甲基化在內的多種多組學平臺來評估效能改善的水平,以減少系統偏差和方差,從而提高肺PNs的診斷效率。在這個概念驗證階段,我們的目標不是取代廣泛採用的LDCT及其隨後的臨床醫生評審過程,而是提供額外的評估指標來幫助臨床醫生做出決策。考慮到LDCT對假陽性率的限制,我們的目標是提高我們測試的特異性,這樣,當我們的測試結果與LDCT成像一起考慮時,臨床醫生將變得更有信心,將陰性病例排除在隨後不必要的治療之外。

結果與討論

我們的研究遵循典型的「監督學習」正規化,包括兩個連續的階段。在發現階段,使用統計學和機器學習的方法對發現佇列中樣本的各種臨床和分子特徵進行評估,以確定對PN惡性程度有預測意義的潛在標記物。然後構建了預測模型,並對模型進行了參數優化,對模型進行了檢驗。在驗證階段,進一步以獨立的驗證佇列為基準對優化後的預測模型進行基準測試,以評估模型對未知樣本的泛化能力。讀者應該注意到,由於篇幅的限制,以及以臨床實踐人員為目標受眾,我們手稿的其餘部分稍微傾向於分析結果對其作出解釋,以及它們在臨床設定中的真實世界含義,而不是資料處理和資料分析的計算方法的演算法細節。

研究物件和樣本特徵

這項研究包括2019年2月17日至2019年12月10日期間CT篩查出直徑<3 cm的肺結節呈陽性並隨後接受手術切除的患者的組織和血漿樣本。所有登記的患者都被要求沒有既往癌症病史。本研究在手術前抽取了足夠數量的血液樣本,因此需要一個前瞻性的觀察性臨床設定,儘管資料分析是在不影響最初臨床決定的情況下進行的。在發現階段,患者在沒有選擇的情況下被招募和測試,以保證佇列中真實的陽性(惡性)率。在驗證階段,鼓勵LDCT檢測置信度低(即更可能為陰性/良性)的高危患者(基於臨床因素)參加研究,以滿足基於功率分析的佇列大小標準。PN標本的病理評估以手術切除的組織切片為基礎,符合2015年WHO肺癌組織分類標準,所有標本的採集均經陸軍軍醫大學第二附屬醫院倫理委員會批准(項目ID:2019-009-01),所有參與者均提供書面知情同意書。

最初收集了99份血漿樣本,並登記在發現佇列中。其中1個樣本因質控不合格而被排除,剩下98個樣本需要進行多分析檢測,其中良性PNS患者28個,惡性PNS患者70個。兩名患者(一名良性,一名惡性)沒有進行蛋白質生物標誌物檢測,因此被排除在蛋白質生物標誌物發現和綜合多分析模型研究之外。在發現研究之後,一組單獨的29個樣本(14個良性樣本和15個惡性樣本)進入了獨立的驗證佇列(圖1)。在分析接近尾聲時,回顧性登記的樣本還包括57個組織樣本,用於根據選定的甲基化特徵位點,評估同一個體的配對組織和血漿之間DNA甲基化特徵的一致性。類似地,對55個組織樣本進行了DNA突變測序,以評估與其配對血漿樣本的一致性。

臨床特徵與PN惡性程度的相關性及其預測能力

收集患者年齡、性別、吸菸史、飲酒史、腫瘤家族史、結節長度、結節寬度、CT上結節密度等臨床資料。進一步推導了根瘤長度×根瘤寬度和(根瘤長度+根瘤寬度)/2兩種形式的結瘤大小計算公式。表1總結了患者佇列的分佈及其臨床特徵。

四個結節大小測量結果顯示,在發現佇列中有足夠的統計學意義,其AUC略低於患者年齡,從0.66到0.72不等。然而,當我們使用患者年齡和結節大小特徵的不同組合來預測PN惡性腫瘤時,所有模型的表現都比單變數患者年齡模型差。這表明,儘管結節大小可能在群體水平上作為惡性結節和良性結節之間的區別標誌,但它本身在個體樣本水平上缺乏預測能力。這可能表明,不是結節的大小,而是結節的細胞組成和分子特徵與其惡性程度有更大的關係,因此除了計算機斷層成像分析之外,還需要進行全面的分子研究

多種蛋白質生物標誌物綜合分析用於PN惡性程度評估

在新橋醫院測定了臨床癌症篩查中最常用和最方便獲得的八種蛋白質癌症生物標誌物,即癌症抗原125 (CA 125)、癌症抗原15-3 (CA 15-3)、癌胚抗原(CEA)、細胞角蛋白-19片段(CYFRA 21-1)、神經元特異性烯醇化酶(NSE)、促胃泌素釋放肽前體(PROGRP)、鱗狀細胞癌抗原(SCC)和血清鐵蛋白(SF)。基於化學發光免疫分析(CLIA)平臺,並遵循製造商的標準操作程式(標準操作程式),所使用的試劑盒包括用於CA 125的CA 125二型試劑盒(雅培公司),CA 15-3試劑盒(雅培有限公司KG)用於CA 15-3,癌胚抗原試劑盒(雅培愛爾蘭診斷部)用於癌胚抗原,ARCHITECT CYFRA 211試劑盒(雅培有限公司KG)用於CYFRA 21-1,ARCHITECT ProGRP試劑盒(雅培有限公司KG)用於ProGRP,ARCHITECT SCC試劑盒(雅培有限公司KG)用於SCC,鐵蛋白試劑盒(雅培愛爾蘭診斷部)用於SF。最後,神經元特異性烯醇化酶用電化學發光檢測試劑盒(ECLIA,羅氏診斷有限公司)按照標準操作程式進行測定。

基於對發現佇列的單變數分析(表S3a,支援資訊),CEA、CYFRA 21-1和SCC顯示出統計顯著性(表S4,支援資訊),預測AUC分別為0.72、0.68和0.67。使用這三個標記,構建了基於支援向量機(SVM)[22,23]的多變數預測模型,並在自舉AUC = 0.71的發現佇列中進行了測試(圖2a)。

雖然多變數模型的AUC略低於單變數CEA,但我們之前的經驗實驗表明,由於自舉過程中的子取樣,這是一個可接受且可忽略的效能波動,這有時實際上表明模型可能已經達到了相對穩健的局部優化。儘管如此,蛋白質癌症生物標誌物,當單獨或聯合用於預測時,在同一個發現佇列中始終表現不如早期選擇的臨床特徵(患者年齡)。雖然這看起來有些令人驚訝,但鑑於眾所周知的蛋白質癌症生物標誌物檢測缺乏特異性,這仍然是可以理解的。

基因突變譜在PN惡性腫瘤分析中的侷限性

cfDNA突變測試是在基因科技生物技術有限公司進行的,使用了一個獨特的基於分子標識符(UMI)和基於捕獲的29基因NGS小組(實驗組),通過內部生物資訊學管道呼叫體細胞突變(實驗組) 。29基因組的設計是基於與癌症起源和發展最相關的基因的治療,以及基於公共資料庫的突變流行率,包括癌症基因組圖譜(TCGA)和癌症體細胞突變目錄(COSMIC)。根據已建立和驗證的標準進行必要的質量控制檢查和過濾後,發現佇列中每個cfDNA樣本中檢測到的體細胞突變數量從2到47不等,中位數為13,平均值為14.3(表S5,支援資訊)。

對個體突變的進一步審查表明,它們在發現佇列中的患病率很低。這可能是由於癌症起源和演變的複雜性,以及佇列中相當大比例的非癌樣本。這給我們的標記選擇工作帶來了巨大的挑戰,因為通過對發現佇列的單變數分析,沒有突變顯示出統計學意義。

為了解決這個障礙,我們將每個樣本的突變分為四種不同的功能級別,基於它們與公共可用熱點的匹配及其功能註釋(實驗部分),並基於一個假設,即在癌細胞進化過程中,相同功能級別的突變可以近似相等。然後我們用兩個數字特徵來表示每個類別,即突變的計數和突變的最大變異等位基因頻率。這個過程將聚集樣本的突變譜組合成八個數字特徵(表S5,支援資訊)。基於這些特徵的建模,SVM在發現佇列中進行的AUC = 0.54(圖2a)。

為了瞭解cfDNA突變譜顯著低效的原因,我們進一步評估了配對腫瘤血漿樣本之間的突變一致性,基於額外的55個腫瘤測序佇列(26個良性和29個惡性)。在29個惡性腫瘤樣本中檢測到的60個突變中,只有1個與相應配對的血漿樣本中檢測到的268個突變一致,而在26個良性腫瘤樣本的31個突變中,只有2個與血漿中的288個突變一致。這表明,在我們的具體應用中,在血漿中檢測到的突變與我們特別感興趣的病變相關的特異性較差,這突出了cfDNA突變分析技術的警告,這不僅是因為該技術的靈敏度有限,還因為癌細胞形成和進化的複雜性。

應用cfDNA甲基化標誌物預測PN惡性程度

在GeneCast生物技術有限公司使用基於捕獲的NGS小組進行cfDNA甲基化分析,該小組主要基於公開可獲得的癌症基因組圖譜(TCGA)資料集設計。使用發現集上的資料(表S6,支援資訊),甲基化的CpG位點首先被聚為697個甲基化相關塊(MCB),用於特徵表示(實驗部分)。43個MCB在發現佇列中具有統計學意義(表S7,支援資訊),其中30個通過機器學習被選為多變數預測因子(表2a)。

綜合多種分析試驗預測PN惡性程度

對所有四個模型對發現佇列的預測進行並列比較,發現在每個樣本上,大多數預測是一致的,但也有一些是不一致的。借用「多數投票」的概念,我們通過隨後的加權平均方法(實驗部分)整合了所有模型的預測輸出。伯努利泊素貝葉斯(Bernoulli Naive Bayesian,BNB) 學習模型在發現佇列上進行訓練,每個模型的預測輸出作為其輸入,樣本的病理分類作為期望結果。此後,綜合多分析BNB模型在發現佇列上實現了AUC=0.85的顯著改進(圖2a)。

有趣的是,觀察到基於貝葉斯的模型比它的任何元件模型都有更好的表現。雖然患者臨床資訊(患者年齡)和蛋白質癌生物標記物平臺顯示的特異性不能令人滿意,而且DNA突變平臺的靈敏度很低,但通過數學整合,它們仍然有助於在DNA甲基化平臺上實現進一步的效能提升,呼應了一句古老的諺語:「兩隻手都比一隻手好」,並突顯了多組學分子檢測在解決高度複雜的臨床挑戰(如PN惡性評估)中的重要性。然而,對於機器學習方法論研究人員來說,整合模型的改進效能似乎並不令人驚訝。本質上,我們研究中的BNB模型被用作堆疊整合分類器。

以前的研究已經證明,如果第一層輸入分類器具有有限的相關性並相互補充,在我們的情況下,第二層整合分類器將能夠平均來自不同模型的噪聲,從而增強可概括的訊號,從而產生更高的準確度。對整合模型的中間權重資料的進一步研究表明,該模型對蛋白質生物標誌物(平均值= 0.68)和cfDNA突變(0.71)的重要性權重明顯低於對cfDNA甲基化(0.74)和臨床特徵(0.76)的重要性權重(圖S3,支援資訊),這與我們的研究和以前的報告中每個單獨模型的表現基本一致。

PN惡性標誌物和預測模型的獨立驗證

通過每個測試平臺確定的統計標記,以及使用發現佇列上的樣本建立的多變數和多分析模型,我們進一步以29名患者的獨立驗證佇列(14名良性患者和15名惡性患者)為基準。基於最終整合模型的發現佇列的AUC值為0.85時,並假設α為0.05時,對AUC值的顯著性進行統計檢驗的功率分析需要最少的11個良性樣本和11個惡性樣本才能達到0.9%的足夠功率。

單變數臨床特徵,患者年齡,在AUC=0.73(圖2b)的驗證佇列(表S1b,支援資訊)上總體上保持其預測能力,在截止年齡=54(圖S1,支援資訊)的情況下,其敏感性為73.3%,特異性為64.3%。年齡界限在發現佇列中確定,以優化預測模型的效能(以靈敏度+特異度衡量)。

在蛋白質癌症生物標誌物平臺上,三個選定的標誌物(分別為CEA、CYFRA 21-1和SCC)顯示了獨立驗證群組(可測試的S3b,支援資訊)的某些單變數預測能力下降,發現群組的AUC分別從0.72、0.68和0.67下降到驗證群組的0.54、0.52和0.66。然而,他們的聯合多變數預測更穩定,從發現佇列的AUC = 0.71到驗證佇列的AUC = 0.67(圖2b),使用優化的SVM預測得分截止值0.670,對應於60%的敏感性和71.4%的特異性,並反映出相對於單個蛋白質生物標誌物的效能再現性略有改善。值得一提的是,我們觀察到多個蛋白質生物標記的演算法組合優於每個單獨的生物標記,這與以前的研究一致,例如用於肺結節管理的Xpressys 13-蛋白質分類器,其診斷資訊的一致性約為10%(尤登指數)。

發現佇列中受低AUC = 0.54影響的cfDNA突變模型在獨立驗證佇列中保持相同的AUC = 0.62水平(圖2b;這使得難以平衡預測靈敏度和特異性,使用0.660的優化截止閾值作為預測輸出分數,得到靈敏度= 80%和特異性= 42.9%。

cfDNA甲基化模型在驗證群組中也顯示出一定的效能下降,從發現群組的AUC = 0.81下降到驗證群組的AUC = 0.72(圖2b;測試能力S6b,支援資訊),使用0.606的優化預測得分截止值,其轉化為靈敏度= 93.3%和特異性= 42.9%。然而,這種情況在臨床上被認為是令人滿意的。

為了進一步交叉驗證基於cfDNA的MCB特徵,我們對57名同意額外組織測序的發現和驗證佇列中的患者進行了獨立的組織DNA(TDNA)甲基化測序(27例良性和30例惡性;表S8,支援資訊),並根據Wilcoxon檢驗評估每個MCB的統計學意義(圖S2a,支援資訊)。在大多數MCB上,tDNA圖譜顯示良性和惡性組之間的差異高於cfDNA,這表明這些MCB選擇的是惡性腫瘤的特異性特徵。同時,cfDNA圖譜顯示與tDNA的皮爾遜相關係數高達0.84(圖S2B,支援資訊),有力地支援了基於cfDNA的MCB測量確實主要來源於他們配對的組織樣本。

最後,儘管每個單獨測試平臺的預測模型的效能波動程度不同,但綜合多分析模型在驗證佇列上的AUC值為0.86時(與發現佇列上的AUC值為0.85時相比)(圖2b),在預測分界值為0.761的情況下,對應的靈敏度=80%和特異度=85.7%,在靈敏度和特異度之間取得了令人滿意的平衡,總體上顯著優於任何單個測試平臺。為了進一步瞭解綜合模型的預測是如何與每個單獨的模型疊加在一起的,我們將它們在每個驗證上的預測輸出(根據前面提到的優化的截止閾值在良性/惡性方面)與黃金標準的病理評估進行了比較(圖4)。很明顯,在四個個體模型做出相互矛盾預測的大多數樣本(24個樣本中的19個)上,綜合模型能夠更全面地將每個個體模型的輸出組合成與病理評估相匹配的正確預測,證明了前面提到的「兩隻手比一隻手好」的比喻。

綜合多元分析模型的效能與結節大小的相關性

由於廣泛觀察到血液中迴圈腫瘤DNA的量與癌症的階段和腫瘤體積呈正相關,我們根據三個不同的結節長度範圍,即分別< = 1、> 1 < = 2和> 2 < = 3,研究了惡性樣品的平均提取的cfDNA量(標準化為全血的ng mL)和整合模型的效能(表S9,支援資訊)。

總的來說,我們的資料確實支援了結核大小和結核脫氧核糖核酸數量之間的相關性,發現組群的平均提取的結核脫氧核糖核酸數量分別從551納克/毫升1(1釐米≤1釐米)變為613.35納克/毫升1(1-2釐米)和625.71納克/毫升1(2-3釐米);獨立驗證佇列分別為858、703.33和1015.75納克/毫升。然而,綜合模型的表現,無論是用AUC、靈敏度還是特異性來衡量,儘管顯示出一定程度的波動,但不支援這種正相關性(表S9,支援資訊)。雖然可以說這可能是由於我們的研究中佇列規模相對較小,未能揭示明確的統計趨勢,但我們懷疑這也支援了我們早期的觀察,即結節大小(因此cfDNA數量)不是PN惡性腫瘤的強臨床預測因素,這進一步加強了我們的信念,即分子檢測可以提供對PN細胞組成及其惡性腫瘤的更全面的理解,而不是成像本身。此外,我們的綜合多分析分子測試方法已經達到了一個靈敏度水平,通常不受分子大小的影響。這在圖4中也很明顯,其中綜合模型的效能沒有顯示不同結節大小樣本的統計偏差。

綜合多分析模型與正電子發射斷層掃描在結核瘤與惡性結節鑑別中的比較

利用18F-氟脫氧葡萄糖正電子發射斷層掃描/計算機斷層掃描進行分子/解剖成像已被廣泛認為是檢測、識別和分期肺癌的方法。它提供了最大標準攝取值(SUVmax) >2.5的標準攝取值,通常用作區分肺部惡性腫瘤和良性疾病的截止值。作為基線參考,我們研究了一個由61名接受正電子發射斷層掃描/計算機斷層掃描的患者組成的獨立佇列,其中50名後來經病理證實為惡性結節,11名為結核瘤(支援資訊,表S10)。惡性結節的SURVAMX一般高於結核瘤(7.18±3.82 vs 5.36±3.78),但無統計學意義(p = 0.264,t = 1.147)。值得注意的是,如果僅將SURVAMX用於決策,SURVAMX > 2.5的11個結核瘤樣本中有9個將被誤診為惡性,對應於AUC = 0.65,靈敏度= 90%,特異性= 9.1%(圖5)。相比之下,對於我們獨立驗證佇列中患有惡性結節(15)或結核瘤(8)的23名患者,我們的綜合多分析模型的AUC = 0.94,敏感性= 80%,特異性= 87.5%(圖5;和測試S11,支援資訊)。儘管這兩組績效指標基於兩個不同的佇列,由於我們佇列中沒有患者進行正電子發射斷層掃描/計算機斷層掃描的限制,並且相對較小的佇列沒有統計學意義,但它們仍然提供了一些有希望的基線理解,說明我們的方法優於正電子發射斷層掃描/計算機斷層掃描。

建議方法的成本和可用性分析

雖然我們的手稿主要集中在建議方法的臨床有效性上,但在我們評估其臨床實用性之前,不應忽視其現實世界的經濟意義。由於我們研究的主要目標是減少對良性肺結節患者的過度治療(不必要的手術),並且我們方法中的抽血比侵入性肺葉切除術或葉下切除術對患者更有吸引力,如果我們聯合分子測試的總貨幣成本低於手術,我們的多組學方法將至少在財務上對特定的良性患者有利(除了所有其他與醫療保健相關的益處)。如果整個受試患者群體的總檢測成本低於所有良性患者的手術成本,我們的方案將在總體臨床上受益。在我們的研究中,基於我們測試的材料和人工成本以及估計的工業利潤,病人的假設測試成本仍然只有手術圍手術期總費用的大約44%(4000美元對9000美元)。儘管如此,這還是基於我們最初實驗設計中用於標記發現的相對較大的NGS面板。一旦我們選擇的少量預測性DNA甲基化MCB標誌物和蛋白質癌症生物標誌物在未來的臨床試驗中得到臨床驗證,就有望進一步降低測試成本。因此,我們的方法不僅在臨床上可行,而且在經濟上負擔得起,具有巨大的潛力。

患者花費的第二個方面是時間——以及與之密切相關的測試可用性——他們在等待測試結果和手術的決定。就目前而言,與NGS相關的分子工作臺工作的複雜性幾乎肯定保證了必要的(而不是更容易獲得和更快速的本地現場護理裝置),這通常需要至少幾個工作日的週轉時間(TAT)。幸運的是,近年來NGS的技術和物流進步以及分子檢測表明,這種水平的檢測不會成為臨床決策過程中的重大瓶頸,因為外科手術的實際準備時間通常會超過這種檢測。

結論和今後的工作

LDCT的高假陽性率仍然是肺部PNs診斷的一個挑戰,在作者的臨床環境中結核瘤患者的相對高患病率進一步加劇了這一挑戰。我們的研究採用了臨床特徵、蛋白質癌症生物標誌物、cfDNA突變和cfDNA甲基化譜來獲得PNs的綜合譜,並建立了一個綜合的多分析模型來從CT診斷肺結節中檢測惡性肺結節。在98名患者的發現佇列中,該模型顯示出區分肺癌患者和良性結節的高鑑別能力(AUC = 0.85),在29名患者的驗證佇列中,AUC = 0.86進一步得到獨立驗證。綜合模型明顯優於基於任何單獨測試平臺的模型。此外,該模型在結核瘤和惡性肺結節之間的診斷中表現出顯著更好的效能(AUC = 0.94),這對於正電子發射斷層掃描來說是一項困難的任務(AUC = 0.65)。總之,我們的研究為肺癌的無創診斷提供了一種有效的新方法,並顯示了其在實際臨床應用中的潛力。我們研究的附加價值在肺癌診斷的文獻中已經報道了不同組的cfDNA甲基化標記。例如lian等人的9個cfDNA甲基化位點和chen等人的三基因組合模型,但是後者的靈敏度和特異性隨著結節大小的減小而急劇下降。我們的研究使用基因無關的MCB作為標記。與以前的研究相比,30-MCBs標記集覆蓋了更大的基因組區域,這可能是我們的最終模型無論結節大小如何都保持相對高的敏感性和特異性的原因,因為CpG島胞嘧啶的甲基化沉默了數百個參與肺癌發生和發展的基因。[32]從資料角度來看,由於每個MCB標記都是多個CpG島的合併和算術平均值,因此實踐減少了由於過度擬合而導致的模型方差,並提高了預測模型的穩健性。類似的概念,當應用於cfDNA突變分析時,也顯示了它在處理稀疏、低流行點突變資料方面的有效性。我們的研究可能是第一次將所有臨床特徵、蛋白質癌症生物標誌物、cfDNA突變和cfDNA甲基化結合起來,以獲得對PNs更全面的理解,從而實現預測靈敏度和特異性的更好平衡。在我們的研究中,基於貝葉斯的綜合多分析模型優於任何單個模型,並在發現和獨立驗證佇列中保持了相當穩定和平衡的敏感性和特異性。我們的研究清楚地顯示了綜合多組學方法在解決具有挑戰性的臨床應用方面的優勢。未來工作我們的研究有幾個侷限性,值得今後的工作。首先,純磨玻璃結節患者不包括在這一階段,這仍是一項未來的工作。第二,我們的模型僅限於經CT篩查的肺結節患者,目的是輔助CT診斷。它在健康人群癌症篩查中的表現尚待評估。第三,我們的模型用於預測惡性結節和浸潤性癌,其對浸潤前病變(如微創腺癌和原位腺癌)的診斷效果需要進一步驗證。最後,儘管已經在29名患者佇列中進行了獨立驗證,但我們模型的預測效能以及我們方法的有效性仍有待在更大和更多樣化的患者群體中進一步驗證,這項工作已經在進行中,預計將在後續手稿中報告。

實驗部分

大量採集:抽取10mL血液,室溫儲存在無細胞DNA儲存管(PET)(cwBiotech Cat#CWY025M)中,用CwBiotech Cat#CWY025M(CwBiotech Cat#CWY025M)儲存。血液在室溫下以1600rpm離心10min,用吸管分離血漿。血漿在4°C下以12000rpm離心15min,用移液管分離上清液。於採血後72h內從血液中分離血漿(無明顯溶血現象),保存於80°C儲存至脫氧核糖核酸。CfDNA提取:根據製造商說明,使用MagMAX無細胞DNA分離(Thermo Fisher Cat#A29319)提取cfDNA。用TIAANAMP血液DNA試劑盒(TIANGEN)從外周血單個核細胞中提取生殖系DNA。DNA和甲基化測序文庫的製備都需要至少10ngcfDNA。採用Magen Cat#D6323-02B的Magen Cat LQ Kit B(Magen Cat#D6323-02B)從惡性和良性FFPE肺組織標本中提取組織基因組DNA(GDNA)。製備甲基化測序文庫至少需要100 ng gDNA。CfDNA突變分析:cfDNA突變測序基於GeneCast生物技術有限公司實驗室開發的捕獲小組測試,該測試已根據美國病理學家學會(CAP)的指導原則進行了內部驗證。簡而言之,利用KAPA HyperPrep Kit(Roche),基於具有唯一分子識別符(UMIS)的接頭,構建了cfDNA突變測序文庫。在接頭連線後,用xGen雜交和洗滌試劑盒(IDT)將DNA雜交到自己設計的124kb大小的29基因突變板上。使用Qubit dsDNA HS Assay Kit(Thermo Fisher Cat#Q32854)對最終測序文庫進行量化。DNA文庫在Illumina NovaSeq 6000測序系統上進行測序,讀數為151bp。cfDNA突變呼叫:點突變包括SNVs、InDels和多核苷酸變異體(MNV)是使用一個經過驗證的內部UMI感知生物資訊學管道呼叫的,該管道結合了許多公開可用的內部軟體工具,包括Illumina bcl2fastq(https://support.illumina.com/sequencing/sequencing_軟體/bcl2fastq-conversion-software . html)用於測序讀數解複用,T rimomatic[33]用於鹼基質量微調,BWA-mem[34]用於hg19參考基因組的測序對映(http://hgdownload)。CSE . ucsc . edu/golden path/hg19/BigZips/hg19 . fa . gz),fgbio tools(https://github.com/fulcrum-genomics/fgbio)用於UMI處理,pysam(https://github . com/Debian/pysam)用於對映讀取處理和變數呼叫等。樣本匹配的白細胞和正常樣本的內部參考變異資料庫用於識別匹配的種系SNPs和克隆造血突變。內部測序特異性誤差資料庫也用於消除由於實驗室處理和測序偽影造成的假陽性變異。cfDNA突變分類:cfDNA突變被分為四個不同的級別。在紀念斯隆-凱特琳癌症中心癌症熱點資料庫(https://www)列出的24 592個腫瘤樣本中鑑定的單殘基或框內indel突變熱點。cancerhotspots.org)被用作核心熱點列表。1級突變被定義為在突變列表中顯示的強制突變。2級突變要麼是核心熱點列表中的腫瘤抑制基因變體,要麼是SIFT和PolyPhen註釋的任何其他有害的腫瘤抑制基因變體。剩餘的外顯子非同源突變被歸類為3級。而其他所有突變都落在四級。甲基化譜分析:甲基化譜分析是在基因傳播生物技術有限公司進行的,基於1.16兆捕獲板,圍繞95,000個基因位點進行設計,這些位點是根據公開的癌症基因組圖譜(TCGA)資料選擇的。甲基化文庫是使用加速-NGS甲基-序列脫氧核糖核酸文庫試劑盒(斯威夫特生物科學第30 096版)製備的。使用SeqCap EZ Hyb和洗滌試劑盒(羅氏類別# 5 634 253 001)與捕獲板雜交。純化是使用Seq Cap EZ純捕獲珠試劑盒(Cat# 6977952001)完成的。最終的測序文庫使用量子位dsDNA健康檢測試劑盒(Thermo Fisher Cat#Q32854)進行定量。甲基化文庫在Illumina Xten測序系統上測序,閱讀長度為151bp。甲基化資料處理:使用內部管道處理甲基化測序讀數,該管道包含用於解複用的Illumina bcl2fastq、用於基礎質量修整的T rimmomatic、用於參考基因組作圖的Bimark[37]、Bimark、Samtools和用於對映讀數重複資料刪除、排序和剪下的BaMutil(https://github.com/statgen/bamUtil)。對映質量小於20且轉化率小於95%的讀取被過濾掉。CpG位點的甲基化水平被BiSnP[38]以β值的形式稱為。為了進行質量控制,深度小於100倍的CpG位點被去除,支援甲基化閱讀的β值小於2的位點被替換為0。MCB被定義為包含至少3個CpG位點的基因組區域,每個位點與其相鄰位點的距離< = 100 bp,皮爾遜相關係數> = 0.9。分別為發現佇列中的良性和惡性組計算每對相鄰CpG位點之間的相關性。只考慮兩組中相關性高的區塊。根據該標準生成了697個多氯聯苯,包括4678個氯化石蠟位點。MCB中CpG位點的平均β值被用作MCB的甲基化水平。標記物選擇的單變數分析:對於基於臨床特徵、癌症蛋白質生物標記物和cfDNA甲基化MCBs的資料,在發現佇列中進行了六個單變數測試,包括方差分析、費希爾精確測試、卡方測試、威爾科克森秩和測試、曼-惠特尼測試和學生t-測試,以評估每個變數在最大和最小樣本組之間的區分能力。每個測試中p<0.1被認為具有統計學意義。一個變數只有在六個測試中的至少四個測試中具有統計顯著性時,才被視為候選標記。單變數預測AUC也是為參考目的而計算的,但不用作標記物選擇標準。所有單變數測試均使用R版本3. 6. 3(https://www . R-project . org/)進行。結節惡性腫瘤分類的機器學習:每個數值資料點x首先被標準化為log2(x + 1),用於異常值控制和高斯分佈近似。缺失的資料點用發現佇列中相應特徵讀數的中值估算。資料最終使用z評分進行標準化,z評分計算為z =(X–m e a n(X))/STD(X),其中X是發現佇列中X的所有讀數。對於甲基化MCB特徵,使用交叉驗證遞迴特徵消除(RFECV)進行額外的特徵選擇,以優化發現佇列模型的準確性。這個過程是通過基於機器學習包scikit-learn的內部Python(3.7版)指令碼實現的。每一輪RFECV過程都通過遞迴地從候選特徵集中移除排名較低的特徵來工作,並通過交叉驗證來評估剩餘特徵的效能,直到實現優化的效能。通過20個分層的混合分割交叉驗證器,10個分割迭代和20-40%的測試大小範圍,30兆位元組的初始篩選43個日期被選擇作為後續培訓的一致特徵集。一個基於SVM的分類器在同一個內部Python軟體包中實現,並基於13倍交叉驗證對其效能進行了評估。SVM通過優化預先定義的超平面類型(稱為核)的參數來工作,該超平面將研究中的良性和惡性分類分開,以最大化所有訓練資料點到超平面之間的總距離,換句話說,優化兩個分類的分開。研究中使用了一個簡單的線性核。在每個資料夾中,超參數優化通過交叉驗證網格窮舉搜尋進行調整,隨機選擇發現群組中的60%樣本進行訓練,剩餘的40%樣本進行測試,並用最佳得分參數重新調整訓練群組。綜合多分析模型:每個個體模型在每個研究領域的預測輸出(即臨床特徵、癌症蛋白標誌物、cfDNA突變和cfDNA甲基化)由惡性概率分陣列成。這四個分數被用作隨後的BNB[24]模型的輸入,該模型被訓練來優化對每個單獨模型的「投票權」(即,重要性權重)的分配,以便適合每個資料點的已知分類標籤。BNB是一種基於概率論和貝葉斯定理的概率演算法,用於預測屬於預定義類別的未知輸入的概率。在lay語言中,由於訓練資料集中每個個體分類器的效能(即,當分類器輸出某個輸出分數時,輸入樣本的惡性被正確預測的概率)是已知的,因此能夠基於所有四個分類器的預測分數的組合匯出加權平均公式來計算輸入樣本惡性的概率。該演算法是在上述相同的內部Python工具包中實現的。統計分析:由於研究的前瞻性觀察性質,沒有進行統計分析來確定發現佇列的規模,這在很大程度上受樣本可用性的影響。基於預測標記物和模型的效能分析,停止患者登記以進行發現,共同影響整個項目時間表。基於Obuchowski和McCLISH的模型,使用PASS 2020軟體的單ROC曲線功率分析模組進行功率分析,以確定獨立驗證群組的規模。


IT145.com E-mail:sddin#qq.com