高通量測序(HTS)或者說下一代測序(NGS)技術在過去十年中徹底改變了生物醫學研究。這項技術能夠一次并行對幾十萬到幾百萬條DNA分子進行序列測定,快速生成非常大的基因組學,表觀基因組學和轉錄組學研究數據集。
|
本文轉載自“解螺旋”。
全基因組測序(WGS)是下一代測序技術,用于快速,低成本地確定生物體的完整基因組序列。基因組的深度測序對于臨床研究的意義重大,解讀WGS數據并了解基因組突變在健康和疾病中的重要性是精準醫療的基石。
WGS分析流程能分為三大塊,數據處理、檢測變異和綜合分析,具體如下圖所示:
由于WGS現在已經非常成熟了,因此這里面的每一步驟都能在網上找到相應的工具。
質量控制
在高通量測序中,有時候會出現低質量讀數和污染讀數等問題,會影響接下去的分析結果。因此,質量控制(QC)對于原始NGS數據至關重要。現在質量控制軟件主要用的是 NGS-QC Generator,它可以從與特定NGS概況相關聯排序讀數的分布推斷出質量指標。
基因組對齊
高通量測序分析中需要將生成的讀數對準(映射)到參考序列。此時,就需要用到Bowtie和BWA。前者能以每小時超過2500萬個35 bp讀數的速率將短DNA序列(讀取)與人類基因組進行比對。后者針對大型參考基因組(如人類基因組)繪制低分歧序列。
序列可視化
可視化讀取對齊是使用現有數據驗證候選結構變體(SV)的最有效方式。這可以用IGV來完成。高性能的查看器可以有效地處理大型異構數據集,同時在所有基因組分辨率級別提供直觀的用戶體驗。IGV的一個關鍵特征是其關注于基因組研究的綜合性質,支持基于陣列和下一代測序數據,以及臨床和表型數據的整合。
變異檢測
都是各種基因變異的檢測手段,就放一起說了。種系突變、體細胞突變和插入缺失檢測這三個的檢測都可以用一個軟件,SAMtools。這是用于與高通量排序數據進行交互的程序。它可以處理SAM / BAM / CRAM格式的讀取,寫入,編輯,索引,查看和轉換SAM / BAM / CRAM格式。SAMtools還可以索引FASTA格式的引用序列或從索引引用序列中提取子序列。
拷貝數變異(CNV)是遺傳變異的常見來源,涉及許多基因組障礙。CNV是基因組中結構變異(SV)的一種形式。通常,CNV是指大于1kbp的DNA片段的重復或缺失。CNV檢測可以用CNVnator,它可以從家族和群體基因組測序中發現基因型、表征典型和非典型CNV的方法。CNVnator具有靈敏度高(86%-96%),假陽性低(3%-20%),基因分型準確率高(93%-95%)的特點。
短串聯重復序列(STR)是DNA重復的一種,重復單位為2-6bp,重復次數10~60多次,基因片段,400bp以下。STR是存在于人類基因組DNA中的一類具有長度多態性的DNA序列,不同數目的核心序列呈串聯重復排列,而呈現出長度多態性,通常多態性片段長度在100-300bp。
STR的長度變異性與許多物種的表型變異有關,一些疾病也是由重復擴張引起。分析STR,特別是長STRs的變化是理解其個體變異性和導致其不穩定的機制的重要步驟。
檢測STR比較簡單,不用下軟件,直接在線操作。用MISA-web (http://webblast.ipk-gatersleben.de/misa/) 中的MIcroSAtellite identification tool可以通過在輸入字段中指定相應的登錄號來從NCBI數據庫中檢索序列。MISA-web支持兩種不同的輸出格式:專有的MISA輸出格式和通用GFF3。GFF3輸出格式有助于將MISA網頁搜索結果集成到下游分析中。
功能預測
現代測序技術產生越來越詳細的基因組變異數據。然而,鑒于許多疾病性狀復雜,是多基因聯合作用,將單個變體或突變基因與表型相關聯的常規方法已有其局限性。做功能基因預測的工具就比較多了。
第一個在線工具是MutationTaster (http://www.mutationtaster.org/)。這個免費的在線應用可以快速評估DNA序列改變的致病潛力。
MutationTaster集成了來自不同生物醫學數據庫的信息,并使用已建立的分析工具。分析包括進化保守,剪接位點變化,蛋白質特征的喪失和可能影響mRNA量的變化。然后通過一個貝葉斯分類器評估測試結果,該分析器預測疾病潛力,一般的查詢在0.3秒內就可完成。
第二個網站是SNPdryad(http://snps.ccbr.utoronto.ca:8080/SNPdryad/ ),可預測在人類蛋白質中氨基酸取代會發生的有害作用。而且在準確預測有害nsSNP方面,SNPdryad優于其他算法。
第三個是個數據集,dbNSFP(https://sites.google.com/site/jpopgen/dbNSFP),為人類非同義單核苷酸變體(nsSNV)和剪接位點變體(ssSNV)的功能預測和注釋提供一站式資源,還有從外顯子中發現的大量SNV篩選和測序研究。dbNSFP創建了基于人類參考序列的所有潛在nsSNV和ssSNV的列表,并為每個SNV編譯了功能預測和注釋。
目前該數據集中包括82,832,027 個nsSNV和ssSNV,附加的數據庫dbscSNV編譯所有潛在人類SNV及其有害性預測,另外增加了的15,030,459個潛在功能SNV。
驅動突變
區分驅動突變與偶發突變對于了解致癌分子機制,以及鑒定預后和尋找治療靶標至關重要。MutSig可以分析在DNA測序中發現的突變列表,以便識別基因突變是驅動突變還是偶發突變。該軟件最初是用于分析體細胞突變,但也可用于分析種系突變。MutSig建立了在腫瘤形成期間突變過程的模型,分析每個基因,以鑒定比預期突變更頻繁的基因。
變異注釋
最新的測序儀器與SNP發現工具結合可用于識別大量可能的SNP,而在識別后的下一個問題就是注釋和選擇功能重要的SNP。這項任務也能用dbNSFP完成,不過更推薦用ANNOVAR。它可以利用不斷更新的信息來注釋不同基因組(包括人類基因組hg18,hg19,hg38以及小鼠,蠕蟲,蠅,酵母和許多其他基因組)檢測到的遺傳變異相關功能。ANNOVAR可以在一天內處理數百種人類基因組。
另外還有一個在線工具GeneTalk(http://www.gene-talk.de/),GeneTalk為分析人類序列變異的遺傳學家提供了直觀的基于網絡的界面。它幫助臨床遺傳學家,尋找有關特定序列變異的信息,并將該用戶與研究相同序列變異的其他用戶連接起來。
數據可視化
基因組瀏覽器不僅用于顯示最終結果,還能用于改進分析方法,測試數據質量和生成結果草圖。有助于創建和利用基因組瀏覽器新進展來改進分析結果并支持基因組數據的快速可視化。
ZENBU這個數據集,通過數據處理和交互式鏈接實現可視化數據挖掘,使用戶可以用BAM或制表符分隔(BED,GFF)序列對齊數據。
當然,除了這個在線工具外,前面介紹的IGV也能完成這個工作。
至此,一個完整WGS測序也就完成了。在臨床研究中,目前火熱的“精準醫療”和“個體化醫學”都需要準確的基因組參考序列,來幫助真正“精準”的基因組數據分析。WGS測序不論是在科研還是臨床診療上,今后都大有作為。
四川省醫藥保化品質量管理協會組織召開
2025版《中國藥典》將于2025年10月..關于舉辦四川省藥品生產企業擬新任質量
各相關企業: 新修訂的《中華人..四川省醫藥保化品質量管理協會召開第七
四川省醫藥保化品質量管理協會第七..“兩新聯萬家,黨建助振興”甘孜行活動
為深入貫徹落實省委兩新工委、省市..學習傳達中央八項規定精神專題會議
2025年4月22日,協會黨支部組織召..關于收取2025年度會費的通知
各會員單位: 在過去的一年里,..四川省應對新型冠狀病毒肺炎疫情應急指
四川省應對新型冠狀病毒肺炎疫情應..四川省應對新型冠狀病毒肺炎疫情應急指
四川省應對新型冠狀病毒肺炎疫情應..