年初DeepSeek流量爆發以來,各行各業“接入”蔚然成風,醫藥行業也不例外。據報道,短期內就有上百家醫療機構接入DeepSeek,且其中多為地方龍頭醫院。藥企方面,最早是網上流出恒瑞紅頭文件要求全公司范圍內開展DeepSeek應用工作,隨后信達、君實等藥企也紛紛公布自家AI項目(本文AI均指基于大語言模型的AI)。這其中也有識林AI項目團隊的參與。
醫療和醫藥均是眾所周知的高度監管行業,AI熱潮的背后,不可避免的一個話題就是監管。近日,一項發表在JAMA Network Open上的研究《患者對于AI起草的電子信息回復偏好的倫理考量》(Ethics in Patient Preferences for AI-Drafted Responses to Electronic Messages)揭示了AI在醫院應用中的挑戰,聯想到我國剛剛發布的AI標識管理辦法,以及FDA在1月份發布的首個制藥AI指南,藥企可考慮為即將到來的AI監管做好準備。
一旦得知AI參與,患者滿意度下降,與其質量無關
近年來,患者通過電子門戶向醫生發送消息的數量不斷增加,這給醫生帶來了巨大的工作負擔。為緩解這一問題,美國許多醫院就嘗試使用AI技術來生成消息回復。
研究團隊在杜克大學衛生系統的患者咨詢委員會中開展了一項調查研究,共有2511名成員參與,其中1455人完成了調查。參與者被隨機分配到不同的實驗場景中,分別評估了消息的嚴重性(如常規藥物續訂請求、藥物副作用問題以及影像學檢查發現惡性腫瘤的可能性)、作者身份(AI或人類醫生)以及是否披露來源信息(AI、人類醫生或不披露)對患者滿意度的影響。
研究結果顯示:
AI撰寫的回復更受青睞:研究發現,患者對AI撰寫的回復的整體滿意度、信息有用性以及感受到的關懷程度均高于人類撰寫的回復。具體而言,AI撰寫的回復在滿意度上平均高出0.30分(滿分5分),在信息有用性上高出0.28分,在感受到的關懷程度上高出0.43分。
消息嚴重性不影響偏好:研究還發現,無論消息的嚴重性如何(從常規藥物續訂到潛在的惡性腫瘤),患者對AI撰寫的回復的偏好并未因消息的嚴重性而改變。
披露AI使用會降低滿意度:盡管患者對AI撰寫的回復本身較為滿意,但當明確告知他們回復是由AI生成時,滿意度會略有下降。研究顯示,與披露是人類醫生作者相比,披露AI的滿意度平均下降了0.13分;與不披露相比,披露AI的滿意度平均下降了0.09分。
研究結果揭示了一個倫理困境:盡管患者對AI撰寫的回復本身較為滿意,但患者可能更傾向于認為消息是由人類醫生撰寫的,且對AI的介入感到不安。然而,從倫理角度來看,患者有權知道他們所接收的信息是由AI生成的,這關系到患者的自主權和知情權。
研究者指出,盡管披露AI使用可能會導致患者滿意度略有下降,但這不應成為阻礙披露的理由。研究中,患者最傾向于接受的披露方式是:“此消息由醫生在自動化工具的支持下撰寫。”這種簡短的披露方式強調了人類專家的主導,既能尊重患者的知情權,又不會因過多的技術細節而讓他們感到困惑。
披露只是基本要求,重要的是AI該如何取信于藥監
從上述醫療AI應用的研究中,制藥行業需要考慮的第一個問題是披露。但可想而知,披露是未來AI合規的基本要求。3月15日,國家互聯網信息辦公室發布《人工智能生成合成內容標識辦法》,旨在規范人工智能生成合成內容的標識,自2025年9月1日起施行。所以藥企首先面臨的問題在于,到底哪些流程和文件需要向監管部門披露AI的參與,哪些又不需要?
第二個啟示在于,之所以出現上述研究結論,其本質是人類目前還無法完全信任AI,這不僅僅是出于某種“歧視”,也是基于日常使用AI處理專業工作時發現的種種問題,典型的例如“AI幻覺”。那么AI該如何取信于人類?從藥品監管角度看,AI不但要取信于藥企,還要取信于藥監。
迄今為止最具參考價值的答案在1月份FDA 發布的《使用人工智能支持藥品和生物制品監管決策的考量》指南草案中。作為全球主要監管機構對AI監管的最新考量,涵蓋廣泛的AI技術,并且為企業提出了具體可執行的AI應用評估框架。
該指南草案中,提出可信度(credibility)概念,定義是通過收集可信度證據而建立的對AI模型在特定使用場景(context of Use, COU)中的信任。COU則明確了AI模型用于解決特定問題時的具體角色和范圍。AI模型的可信度評估應與模型風險相稱,并針對特定的COU進行調整,以確保AI模型輸出在監管決策中的適用且可靠。
指南草案中,FDA提出了一個“七步走”的可信度評估框架,指導企業評估AI模型的可信度,其中實操的關鍵在于第3和第4步。
第1步:定義感興趣的問題(question of interest)
第2步:定義AI模型的使用場景
第3步:評估AI模型風險
此處模型風險由模型影響和決策后果兩個因素決定。模型影響指AI模型提供的證據相對于其他證據的貢獻程度,即是否單獨用于某項決策,且無其他信息配合;決策后果描述因錯誤決策導致的不利結果的重要性,這個因素完全與AI技術獨立開來,僅考慮對藥品安全、有效和質量的影響。這個雙因素模型簡明扼要,避開對復雜AI技術的探討,將評估重點聚焦于決策的過程和影響。
第4步:制定建立AI模型可信度的計劃
FDA要求企業對AI模型開展技術層面的評估,其維度與其他監管機構類似,重點在數據和訓練。盡管基于大語言模型的AI是眾所周知的“黑箱”,FDA還是針對模型測試提出了相當具體的要求。
該計劃需詳細描述模型及其開發過程,包括模型的輸入、輸出、架構、特征及其選擇過程、模型參數等,并解釋選擇特定建模方法的理由。同時,要詳細說明用于開發模型的數據集,涵蓋數據的收集、處理、標注、存儲、控制和使用情況,確保數據相關且可靠,即包含關鍵數據元素、具備足夠代表性,且準確、完整、可追溯。此外,還需描述模型的訓練過程,包括學習方法、評估模型性能的指標、防止過擬合或欠擬合的技術、訓練超參數等,并說明是否使用了預訓練模型以及模型的校準情況。
在模型評估方面,要說明測試數據的收集、處理、標注、存儲、控制和使用情況,確保測試數據獨立于開發數據,以準確評估AI模型的性能。同時,需描述測試數據對使用場景的適用性,考慮數據漂移現象,即開發數據與部署環境中遇到的數據可能不同,導致模型性能變化。還要描述模型預測與觀測數據之間的一致性,解釋選擇的模型評估方法的理由,提供用于評估模型的性能指標,并包括置信區間。此外,要說明模型預測不確定性和置信水平的估計過程,以及任何其他量化置信度或不確定性的描述或指標,描述建模方法的局限性,包括潛在的偏差,并詳細說明代碼驗證的質量保證和控制程序。
第5步:執行計劃
第6步:記錄可信度評估計劃的結果并討論偏差
第7步:確定AI模型對使用場景的適用性
此外值得一提的是,該指南以對藥品的安全、有效和質量的影響為標準,明確不涵蓋以下兩類AI應用:藥物發現階段的AI應用;用于提高操作效率(如內部工作流程、資源分配、起草/撰寫申報資料)的AI應用。可見FDA認為這些應用場景對患者安全、藥品質量影響風險較低。
四川省醫藥保化品質量管理協會組織召開
2025版《中國藥典》將于2025年10月..關于舉辦四川省藥品生產企業擬新任質量
各相關企業: 新修訂的《中華人..四川省醫藥保化品質量管理協會召開第七
四川省醫藥保化品質量管理協會第七..“兩新聯萬家,黨建助振興”甘孜行活動
為深入貫徹落實省委兩新工委、省市..學習傳達中央八項規定精神專題會議
2025年4月22日,協會黨支部組織召..關于收取2025年度會費的通知
各會員單位: 在過去的一年里,..四川省應對新型冠狀病毒肺炎疫情應急指
四川省應對新型冠狀病毒肺炎疫情應..四川省應對新型冠狀病毒肺炎疫情應急指
四川省應對新型冠狀病毒肺炎疫情應..