本書充分應用信息管理及相關學科知識,根據當前天文海量數據管理中存在的關鍵問題,重點開展存儲與檢索、傳輸、歸檔3個方面的關鍵技術研究。最后,以兩個射電望遠鏡的數據管理為例[明安圖射電頻譜日像儀(MUSER)和平方公里陣列(SKA)射電望遠鏡],通過數據仿真、實例化測試、性能對比、理論分析來驗證本書相關內容的正確性。具體說明如下:①針對海量射電天文觀測數據記錄的高效存儲與檢索需求,基于觀測數據具有固定的采樣間隔和固定數量的連續(xù)觀測數據記錄按序存放在文件中的時序數據特征,本書提出了一種以集合中的補集思想為核心的面向時序數據的數據庫系統(tǒng),即負數據庫系統(tǒng)。負數據庫系統(tǒng)將文件中存在記錄及首尾記錄之間丟失記錄的元數據信息視為全集,把文件中首尾記錄之間丟失記錄的元數據信息看成補集,通過補集構建出來的文件邏輯結構關系,能夠推導出文件中存在記錄的元數據信息。本書給出完整的形式化定義及嚴格的理論證明。實測結果表明:在記錄入庫、數據檢索及要入庫的記錄數方面,負數據庫系統(tǒng)比需要存儲文件中所有存在記錄的元數據信息的常用數據管理系統(tǒng)分別快18.8倍、快1.5~6.9倍及減少(N-2)/N×100%(N指文件中的固定記錄數)。進而說明,負數據庫系統(tǒng)能夠在大幅降低存儲開銷和記錄數的同時提供較高的檢索性能。②針對海量射電天文觀測數據的跨區(qū)域高速傳輸需求,本書提出帶狀態(tài)檢測和重傳功能的兩路異步消息傳輸模型——高效消息傳輸模型。該模型是指用兩路異步消息傳輸來分別單向高速傳輸數據消息和反饋消息,通過超時重傳來確保數據消息送達接收方,以及通過實時狀態(tài)檢測來決定是否繼續(xù)向接收方發(fā)送消息。該模型能夠克服當前很多遠程數據傳輸技術都使用的出錯重傳方法存在的需要等待對端反饋消息而降低數據消息傳輸效率的不足?;诟咝鬏斈P蛯崿F了一套高效數據傳輸系統(tǒng),該系統(tǒng)的性能測試結果表明:在傳輸文件為數百kB時,該系統(tǒng)獲得的平均傳輸速度比現有系統(tǒng)快將近40倍;同時,在數百MB這個量級和使用較少的并發(fā)數時,該系統(tǒng)獲得的平均傳輸速度達到1172 MB/s(該速度基本上實現了10 Gb/s網絡帶寬的滿負載),比現有系統(tǒng)快將近3.4倍。進而說明,實現的高效數據傳輸系統(tǒng)有效地提高了數據傳輸性能,縮短了數據傳輸時間。③針對海量射電天文觀測數據在進行高可靠性歸檔時盡可能降低數據冗余的需求,本書提出基于糾刪碼的歸檔模型——低冗余歸檔模型。該模型是指將糾刪碼技術集成到帶狀態(tài)檢測和重傳功能的兩路異步消息傳輸模型中的數據消息接收方而形成的歸檔模型。該模型能夠克服現有系統(tǒng)使用副本技術歸檔時存在的高數據冗余的不足?;诘腿哂鄽w檔模型和RS(4,2)算法實現了一套低冗余歸檔系統(tǒng),該系統(tǒng)的性能測試結果表明:在相同的實驗環(huán)境下,該系統(tǒng)獲得的平均異地歸檔速度是現有系統(tǒng)未啟用3副本策略時的1.4倍,且只需要增加50%的額外存儲開銷就能達到基于3副本策略時需要200%的額外存儲開銷才能達到的數據可靠性;并發(fā)數和HWM是該系統(tǒng)調優(yōu)的關鍵參數。進而說明,實現的低冗余歸檔系統(tǒng)具有較高的歸檔速度,能以較低的數據冗余獲得較高的數據可靠性。