“發展醫療大數據不是為了緊跟熱點,而是真正有太多實際的需求。所以它的前景是很廣闊的,但任重道遠,既要仰望星空,也要腳踏實地。”近日,在“醫療大數據應用與實踐研討會”上,解放軍總醫院醫學信息研究所高級工程師薛萬國從具體的場景對醫療大數據應用的潛在需求做了深入的前瞻性分析。
目前,國內很多醫院已經上線了不少數據應用,但大多都是描述性的數據統計。那么到底什么樣的醫療場景才需要大數據?會上,薛萬國給同行帶來了一些實戰性建議,并從醫療大數據的特點、臨床的需求以及面臨的技術挑戰等三個方面,深刻剖析了當前醫療大數據在臨床診療領域、醫學研究、醫院管理等各個環節中的應用前景和挑戰。
不限于4V特征 大數據核心在于分析
薛萬國表示,傳統大數據有4個大家普遍接受的特性:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。但實際上,當前涉及的大數據已經有了很多深層次的演繹。這些演繹不是簡單地強調大數據的4V特性,也不一定完全符合4V的特點,但是它們有一個總的特征:一定要具有分析的特點。
“以前,我們關注數據量是否足夠大,分析速度是否足夠快,數據成分是否復雜多樣,其實在現在這些變得不那么重要了。”薛萬國引用了一句國外行業俗話:Big data is nothing without big analysis.(如果沒有分析的話,大數據什么也不是)。這其實強調了大數據的根本特性:核心在于分析。而大數據分析,不僅是傳統意義的統計,一定是深層次的分析,包括:相關分析、聚類分析、建模、趨勢預測等。
醫療大數據具有四大獨特性
醫療大數據與其他行業大數據相比有共性,也有一定的獨特性。它的特點具體在四個方面。
第一,數據量大。醫院信息化最初管理的數據量并不是很大,但由于醫學的持續進步,包括檢查手段的進步,如各類檢查手段的數字化、大容量的CT掃描等,病歷的數據呈現爆炸式增長。此外,精準醫學、全基因組測序的興起,使得一個人的數據量可以達到幾十個GB。從這些角度來分析,一個三甲醫院每年有幾百萬的門診量,如果在未來幾年都要管理起來的話,有可能數據量就要達到PB級。
第二,從橫向看,醫療數據非常寬泛。醫療大數據的研究對象是人,由于人的復雜性和診療的多樣性,導致了數據的類型多樣性和結構復雜,這其中包括:結構化數據、半結構化數據和非結構化數據。醫療數據中很多都是對非結構化數據進行處理,比如:病歷的檢索、影像的識別,這都要對大量的非結構化數據進行特征提取和識別處理,處理難度非常大。
第三,數據集成要求高。看病以人為中心,醫學視角需要查看人的方方面面數據,所以對數據整合式的展現、管理以及融合式的分析要求都特別高。
第四,從縱向來看,周期長。與其他行業不同,面向患者需要管理的醫療數據生命周期特別長。從人出生開始到死亡,期間的數據都要能夠保存。這也是區域醫療共享以及連續醫療現在所提倡的核心內容。
醫院對醫療大數據的四大需求
薛萬國認為,從醫院角度來看,對醫療大數據的需求分為四個方面:臨床診療、醫學研究、醫院精細化管理和基礎性應用。
第一,臨床診療。用大數據直接幫助醫護人員開展臨床活動,包括:個性化的診療、疾病的早期診斷、不良事件的預警(如感染等)。以美國癌癥協會CancerlinQ項目為例,該項目把美國20多家醫院乳腺癌的病例都收集起來,共有17萬份。經過整理后,按照腫瘤類型、病人年齡、個體情況、腫瘤治療方法、藥物使用進行分組,形成一個路徑以及生存周期結果,最后得出不同人群的治療路徑。以前看病治療依靠的是臨床指南,而現在把病人信息錄入數據庫中分析,基于真實世界的研究,從而量體裁衣,找到更加合適的個性化治療方案。
針對早期診斷的大數據應用,薛萬國提到了缺血型心臟病案例。該病種可以根據心電波形、檢驗結果、心臟血管成像提煉大量相關癥狀因素建模,形成早期疾病的預判和干預。雖然現在還不能代替人類去做診斷,但是在篩查時候可以形成高效的輔助作用。
而對于不良事件預警方面,如心臟介入手術后,可能會發生一些不良事件,也可以通過相關因素分析,找到一些提前預警和干預的因素來建模分析。
第二,醫學研究。大數據可以幫助醫學界更加深入認識疾病,包括:對疾病相關因素的分析、對疾病的精準分析、對于疾病診斷的一些生物標記的篩選等。傳統上,醫學界對病人的分析都是來自于臨床上的癥狀、檢查結果、病理分析。有了生命組學大數據后,則可以對病人更加細化,形成個體性的同類病不同治療方法。而對于生物標記篩選,大數據可以聚類分析,并反映出一些疾病檢驗結果的臨界區間,通過多參數、多個生物標記更準確確定病情,給出更優的治療方案。
第三,醫院精細化管理。大數據可以提供全方位的、精細化的、個性化的績效評價體系。以美國為例,為了減少再住院率,美國特地建了一個模型來評估再住院風險。有些醫院靠這個模型預測準確性可以達到79%,減少30%的再住院病例,給醫院和病人節省了大量開支。再如感染監測,其實就是典型的大數據應用。它把病人的方方面面數據,包括檢驗、生命體征、護理措施、用藥等融合在一起,建立模型來分析病人是否發生感染,這比人為事后發現更為及時。
第四,基礎性應用。包括:大數據的檢索、專科數據庫建立、隨訪數據手段建立。現在醫護人員直接利用計算機來檢索自己所需病例的工具還很不完善。例如,腫瘤的化療病歷,醫生在寫病歷時會寫下腫瘤的分期,但是在結構化的數據里很難有關于分期的描述,所以利用計算機找某個腫瘤分期病歷時很困難。另外,隨訪的需求也是難點。隨訪在各個科室是散亂的,沒有統一的系統,數據源沒法共享。調研發現,很多科室都有數據庫,大部分是用Excel表管理,不能解決統一管理問題,導致數據檢索使用滯后。
打破小米加步槍模式
薛萬國認為,醫療大數據應用涉及三方面要素:好的思路、好的數據支持,以及好的技術手段。當前發展醫療大數據,在這幾方面都較為欠缺。“很多醫院和科技公司還是采取小米加步槍的方式在做大數據的研究。”他進一步指出,當前醫療大數據面臨三方面的挑戰。
第一,醫學的自然語言(NLP)的處理。它是非常基礎性的需求。比如要查找吸煙的患者,如果僅僅簡單做一個關鍵詞檢索的話,結果很可能將吸煙和不吸煙相混淆。所以系統設置至少應把語義以及簡單基本的否定語義識別出來。
第二,病歷檢索工具。醫務人員需要非常靈活的檢索工具,雖然很多企業在做醫療搜索,但目前還沒得到理想的的解決方案。比如,醫務工作者想要檢索查找化療后白細胞下降的患者。這個問題在系統設置上其實并不好表達。
第三,專科專病數據庫的構建現在很多還靠手工操作。這是因為很多數據需要從病歷找出來,然后填進去。據了解,科室整理一份科研病歷需要2-3個小時,工作量太大,所以整理病歷很難持續下去。就目前來講,還沒有很好的智能化工具去做病歷收集。現在需要的是通用化隨訪平臺,做到集中管理、隨機隨訪、醫患互動。讓患者參與到醫療過程中來,提供足夠有用的隨訪結果。要實現這一目標,既需要技術的支撐,更需要機制的配合。
四川省醫藥保化品質量管理協會組織召開
2025版《中國藥典》將于2025年10月..關于舉辦四川省藥品生產企業擬新任質量
各相關企業: 新修訂的《中華人..四川省醫藥保化品質量管理協會召開第七
四川省醫藥保化品質量管理協會第七..“兩新聯萬家,黨建助振興”甘孜行活動
為深入貫徹落實省委兩新工委、省市..學習傳達中央八項規定精神專題會議
2025年4月22日,協會黨支部組織召..關于收取2025年度會費的通知
各會員單位: 在過去的一年里,..四川省應對新型冠狀病毒肺炎疫情應急指
四川省應對新型冠狀病毒肺炎疫情應..四川省應對新型冠狀病毒肺炎疫情應急指
四川省應對新型冠狀病毒肺炎疫情應..