印度實施的唯一身份識別(UniqueIdentification)項目(也被稱作Aadhar計劃),本周早些時候完成了人口統(tǒng)計和生物識別數(shù)據(jù)的收集,總量超過5億印度居民——是目前全球同類生物識別項目規(guī)模最大的一個。
該項目實施的幾年來一直伴隨著來自隱私和安全以及其他方面的爭議聲音。Aadhar項目最新的進展又引來了有關其捕獲、存儲以及管理數(shù)據(jù)方法的擔憂,特別是一家美國創(chuàng)業(yè)公司MongoDB在其中所扮演的角色。
MongoDB是一家非關系型數(shù)據(jù)庫(NoSQLdatabase)創(chuàng)業(yè)公司,去年從美國中情局資助的In-Q-Tel機構中募集了資金。In-Q-Tel是一家獨立的非盈利資本機構,由CIA和一些美國其他的情報機構在背后支持。
過去幾天,幾家印度媒體的報道引述了該國政黨和活動人士們的意見,懷疑Aadhar項目的隱私數(shù)據(jù)被盜用,直指該項目的負責人Infosys的聯(lián)合創(chuàng)始人NandanNilekani。
也有一些報道文章將MongoDB列入批評對象當中。
全球各國政府都在日益警惕美國國家安全局(NSA)的竊(切)聽行動,任何與美國政府情報機構有絲毫聯(lián)系的事情都會鬧得沸沸揚揚。不僅如此,因為印度明年普選在即,該國政治意見的發(fā)聲更是達到前所未有的程度。
諸如此類指控的時機不能來得再糟糕了,至少對于這個野心龐大的身份識別項目來說是如此,Aadhar正在等待國會法案的通過,要在今年完全成為憲法承認的機構。
筆者訪問了位于班加羅爾(Bangalore)的Aadhar項目辦公地點,說實話,按照向我介紹信息的工作人員的說法,雖然有人指摘大額合同中包含與MongoDB分享數(shù)據(jù)的內(nèi)容,其實Aadhar使用的是MongoDB的開源代碼,并不會觸及敏感數(shù)據(jù)。這次會面同樣有機會了解到目前地球上最大的生物識別數(shù)據(jù)庫如何運作,如何處理安全和隱私方面的隱患。
不僅如此,印度唯一身份識別局(theUniqueIdentificationAuthorityofIndia)反駁了與任何美方機構分享印度國民數(shù)據(jù)信息的指控。
Aadhar對于印度來說,意味著什么?
首先要理清談論Aadhar的語境,這個項目對于印度這樣的國家來說意味著什么?該國有超過5億人口沒有任何正式的身份證明(ID)或諸如此類的憑證,這就導致了許多其他問題,比如沒辦法領取政府補貼、注冊銀行賬戶、申請貸款、考取駕照等等。Aadhar數(shù)據(jù)庫項目,目前以每天新增100萬印度國民的速度在記錄,預計于明年底注冊完成大約12億人口,介時將成為地球上最大的生物識別數(shù)據(jù)庫。
獲得12位數(shù)字長度Aadhar編碼的最大優(yōu)勢是該國政府能夠將銀行賬戶與貧困人口聯(lián)系起來,直接現(xiàn)金權益和其他補貼做銀行轉賬。目前,印度已經(jīng)有將近4000萬個銀行賬戶與Aadhar數(shù)據(jù)建立了匹配。
市場研究機構CLSA的報告顯示,印度政府總值2500億美元的補貼和其他國民待遇中有超過40%是針對該國貧困人口的,但是卻將在未來幾年浪費在政府腐敗當中。Aadhar計劃能夠把過程的中間環(huán)節(jié)去掉,向需要政府補貼的人直接現(xiàn)金轉賬,用這種方式抑制腐敗。
但也有包括位于班加羅爾的互聯(lián)網(wǎng)和社會中心(CentreforInternet&Society)在內(nèi)的智庫和活動家對于隱私方面的問題始終持懷疑態(tài)度,甚至質(zhì)疑整個項目能夠發(fā)揮多大的效果。
深入全球最大的生物識別數(shù)據(jù)庫
筆者多方嘗試與Aadhar項目官員進行會面,了解安全方面的問題,目前的進展,以及他們對于批評使用MongoDB技術的反應。
周五Aadhar終于同意在班加羅爾南部郊區(qū)的總部與我見面,英特爾和思科在印度的總部也位于該地區(qū)。從外表來看,存儲了全體印度國民數(shù)據(jù)(目前數(shù)據(jù)總量5Petabytes)的Aadhar技術中心一點也不像是個政府建筑——很容易讓人以為是附近的英特爾或者思科公司辦公樓中的一個。
走進內(nèi)部,我來到了一間中央位置有十幾個電視屏幕的房間,幾位二十多歲的年輕工程師興奮地坐在前面,在各自的電腦鍵盤上敲擊,查詢數(shù)據(jù)包裹傳輸?shù)拇鎯π畔ⅲ麄€場面很像一個先進的控制中心。他們盯著的電視屏幕顯示了這些數(shù)據(jù)包裹(每個5MB左右)的記錄,從全國30000個錄入中心進入開始,經(jīng)過至少三次信息核實過程。核實過程包裹為每一份檔案進行重復性檢驗,確保同一個人不會被生成兩次Aadhar號碼。
也就是說,每建立一個新數(shù)據(jù)檔,就要針對所有現(xiàn)存的檔案運行一次“去重復性”檢驗,目前這個數(shù)字已經(jīng)超過了5億。
前英特爾工程師SrikanthNadhamuni于2010年9月幫助設計了Aadhar的技術平臺,該平臺目前在班加羅爾的Khosla實驗室運行。他告訴我,這些數(shù)據(jù)包都經(jīng)過2048-bit加密存儲處理,一旦有未授權的調(diào)用嘗試即觸發(fā)自我銷毀(self-destruction)功能。
有關針對MongoDB的批評
那么為什么Aadhar一開始要與MongoDB合作?這種合作關系是否會繼續(xù)下去呢?
Aadhar技術中心的助理總干事SudhirNarayana表示,MongoDB只是最初為數(shù)據(jù)檢索所選擇的幾種產(chǎn)品之一,其他還包括MySQL、Hadoop和HBase。與只能夠存儲人口數(shù)據(jù)的MySQL不同,MongoDB還能夠存儲圖像。
但是后來Aadhar逐漸將大部分數(shù)據(jù)庫方面的工作轉移到MySQL平臺上,因為他們意識到MongoDB無法處理大規(guī)模的數(shù)據(jù),也就是上百萬的數(shù)據(jù)包裹。
目前他們已經(jīng)在使用“數(shù)據(jù)庫分片(databasesharding)”技術:將數(shù)據(jù)包裹存儲在不同的機器上,確保系統(tǒng)不會在數(shù)據(jù)量增加時崩潰。
這種做法幫助Aadhar減少了對于MongoDB的依賴,而改用MySQL存儲大部分數(shù)據(jù)。
Aadhar技術中心的副總干事AshokDalwai告訴我,MongoDB無法調(diào)用任何生物識別數(shù)據(jù)。
“我們認為使用開源技術可以避免過分依賴某一供應商的情況,但是這不代表我們以任何方式在安全方面做出妥協(xié)。i這樣說道。
MongoDB方面的一位發(fā)言人在我們聯(lián)系采訪時,建議我們到該公司網(wǎng)站上閱讀有關In-Q-Tel投資的聲明文件。
更重要的是,印度唯一身份識別局(UIDAI)早在這家創(chuàng)業(yè)公司從In-Q-Tel獲得投資之前就開始使用MongoDB的開源軟件技術。Crunchbase的數(shù)據(jù)顯示,MongoDB僅僅在2012年從紅帽(RedHat)、英特爾資本(IntelCapital)和In-Q-Tel三方募集了總共770萬美元。
Aadhar前景如何?
拋開所有的爭議不談,Aadhar將于2014年完成錄入超過12億印度國民數(shù)據(jù)的目標,數(shù)據(jù)庫總量將達到15petabytes。目前項目的進展速度是每天100萬人,從明年開始將會實現(xiàn)每天大約200萬人的速度,將剩下的7億人納入此數(shù)據(jù)庫系統(tǒng)當中。
四川省醫(yī)藥保化品質(zhì)量管理協(xié)會組織召開
2025版《中國藥典》將于2025年10月..關于舉辦四川省藥品生產(chǎn)企業(yè)擬新任質(zhì)量
各相關企業(yè): 新修訂的《中華人..四川省醫(yī)藥保化品質(zhì)量管理協(xié)會召開第七
四川省醫(yī)藥保化品質(zhì)量管理協(xié)會第七..“兩新聯(lián)萬家,黨建助振興”甘孜行活動
為深入貫徹落實省委兩新工委、省市..學習傳達中央八項規(guī)定精神專題會議
2025年4月22日,協(xié)會黨支部組織召..關于收取2025年度會費的通知
各會員單位: 在過去的一年里,..四川省應對新型冠狀病毒肺炎疫情應急指
四川省應對新型冠狀病毒肺炎疫情應..四川省應對新型冠狀病毒肺炎疫情應急指
四川省應對新型冠狀病毒肺炎疫情應..