在加州大學圣地亞哥分校計算機科學與工程系博士生候選人陳丹露的分享中,復旦大學本科生必修課《15世紀以前的世界》迎來了第29次拓展講座。此次講座以“當人工智能遇上歷史研究 ——AI如何解讀古代文獻”為主題,深入探討了如何將人工智能融入歷史研究,為傳統(tǒng)學科帶來新的視角和方法。陳丹露本科就讀于復旦大學,其主要研究方向包括自然語言處理、機器學習以及數(shù)字人文。
當前,數(shù)字人文(Digital Humanities)的常見理解和實踐包括建立電子數(shù)據(jù)庫、分析文本、繪制歷史地圖與網(wǎng)絡分析,以及文化遺產(chǎn)的數(shù)字化重建。然而,這些應用大多將計算機技術視為輔助工具,尚未與人工智能等先進技術深度融合。
為了幫助聽眾更好地理解講座內(nèi)容,陳丹露通過幾個生動的例子進行了說明。首先,以《紅樓夢》的文本分析為例,將120回文本拆分為120個樣本作為輸入,利用k聚類分析方法進行處理,輸出點狀聚類結果。結果顯示,前80回與后40回(除去第67回)在特征空間中存在明顯差異,從而支持了“前80回與后40回作者不同”的觀點。
處理歷史文獻往往第一步需要做文本電子化處理,即光學字符識別(OCR)。光學字符識別(OCR)技術是將紙質(zhì)文字轉化為計算機可處理的電子化表示的重要手段。然而,處理歷史文獻時,OCR技術面臨諸多挑戰(zhàn)。由于歷史文獻的字體、排版和紙張質(zhì)量差異,OCR的識別準確率可能較低,通常需要人工校正。例如,在對古代文獻進行OCR識別時,最理想的情況下,也約有5%的字符無法正確識別。為了提高準確率,研究人員需要先提取文本,再對每個字符進行分類,識別出字符的多種可能性,并進行人工校對。
陳丹露主持的EEBO-verse項目則試圖打破使用OCR的傳統(tǒng)方法。該項目從早期現(xiàn)代西方文獻中篩選有韻律的詞句和詩歌,通過將圖片直接作為機器學習模型的輸入,篩選出可能包含詩歌的頁面,然后結合人工和文字識別軟件進行精校。這種基于圖片的篩選方法針對特殊需求結合詩歌的版式特征,不需要單獨關注文本內(nèi)容,極大地提升了工作效率,為計算機和歷史文獻研究的結合提供了新思路。
然而,上述例子大多停留在使用機器建立數(shù)據(jù)庫和統(tǒng)計文本的層面,較少能夠超越“搜索與索引”,突破簡單的字符匹配或統(tǒng)計詞頻的層面。機器學習模型通常需要大量的樣本來進行訓練,但在歷史研究中,尤其是古代文獻領域,很多時候樣本數(shù)量有限,無法滿足機器學習的條件。同時,一個關鍵問題是:如何表示古代文本?從機器學習的視角來看,大部分文字無法直接編碼,或者說編碼無法儲存所有的信息。所以,古代文字并非可直接處理的文本數(shù)據(jù),而是以圖像形式存在的視覺信息。這些圖片需要經(jīng)過預處理和標注,才能被機器學習模型理解和學習。
歷史研究材料樣本不足和分布不均問題也構成了挑戰(zhàn)。如果使用機器學習模型對楔形文字泥板進行斷代,當數(shù)據(jù)集來源單一(如大英博物館或耶魯博物館)時,模型的表現(xiàn)可能較為理想。但如果將模型應用于其他來源(如開羅博物館)的泥板時,錯誤率可能會高達80%。這是因為不同博物館的拍照環(huán)境、光線、色調(diào)和參數(shù)差異巨大,導致數(shù)據(jù)分布不一致。相比之下,識別貓狗等常見模型能夠取得成功,是因為這些數(shù)據(jù)集的規(guī)模足夠大,能夠覆蓋各種場景和變化。然而,網(wǎng)絡上楔形文字泥板的數(shù)量有限,且分布分散,難以形成大規(guī)模的、統(tǒng)一標注的數(shù)據(jù)集,這使得機器學習模型的訓練和應用面臨巨大挑戰(zhàn)。
總結來說,人工智能在應用于歷史研究時面臨三大核心問題:首先,歷史研究中的許多問題難以轉化為機器學習能夠理解的形式;其次,古代文字本身難以被機器學習模型直接識別,需要復雜的預處理和標注;最后,古代文獻的數(shù)據(jù)資源稀缺,且訓練集和測試集之間存在顯著的數(shù)據(jù)分布偏移。這些問題導致目前的研究大多停留在將紙質(zhì)文獻數(shù)字化為電子數(shù)據(jù)庫的階段,難以深入到更復雜的歷史問題的分析和解決中。
接下來,陳丹露通過多個案例展示了人工智能在古代文獻研究中的深入應用。
重建古希臘銘文:DeepMind Ithaca
DeepMind開發(fā)的Ithaca模型旨在通過訓練神經(jīng)網(wǎng)絡補全受損銘文的缺失部分,并嘗試推測銘文的地理來源和年代。Ithaca通過隨機挖掉銘文中未破損的字符(例如20%的字符)來模擬破損銘文,并將這些字符作為模型的輸出進行訓練。這種方法的優(yōu)點在于避免了專家補全可能帶來的主觀錯誤,確保模型能夠基于更可靠的訓練數(shù)據(jù)進行學習。Ithaca的模型不僅能夠預測缺失的字符,還能確定銘文的地理來源和年代。實驗結果顯示,Ithaca單獨使用時的錯誤率遠低于接受過希臘文字訓練的研究生。
人工智能重建古希臘銘文
該研究論文題為“Restoring and attributing ancient texts using deep neural networks”,已發(fā)表在《自然》雜志上。
甲骨文綴合:OBI-Bench
由于甲骨文尚未有成熟的數(shù)字化表達方式,直接將其轉化為機器可讀的格式并不容易。OBI-Bench項目通過將甲骨文綴合問題轉化為字符相似度檢索問題,以期完成甲骨文的識別、綴合、分類、檢索和破譯五大任務。具體而言,該方法將甲骨文的圖片作為輸入,通過模型召回與目標字符相似的其他字符,從而幫助研究人員進行綴合。這種方法的優(yōu)勢在于無需對甲骨文進行復雜的數(shù)字化編碼,直接利用圖片進行處理,大大降低了技術門檻,同時也為甲骨文的研究提供了新的思路。
本圖來自“甲骨文AI協(xié)同平臺”
龐貝古城赫庫蘭尼姆卷軸的非侵入式閱讀:Vesuvius Challenge
考古學家在龐貝古城附近的庫赫蘭尼姆遺址的考古發(fā)掘中,于火山灰泥層下發(fā)現(xiàn)了一座古代圖書館,其中保存著大量因火山噴發(fā)而碳化的珍貴古籍。這些古籍的閱讀難度極大,傳統(tǒng)的物理打開方法可能會對古籍造成不可逆的損壞。Vesuvius Challenge項目通過非侵入式的方法,利用三維掃描技術對古籍進行成像,然后通過機器學習技術識別古籍中的文字。這種方法的主要步驟包括:CT成像、分割每一頁并(虛擬地)展平、墨水檢測識別,以及專家驗證機器識別的文字是否準確。然而,由于這些卷軸的掃描數(shù)據(jù)量巨大(例如25cm的卷軸掃描后數(shù)據(jù)量可達3.41TB),其中99%以上都是噪音,這給機器學習和識別帶來了巨大挑戰(zhàn)。此外,由于缺乏監(jiān)督數(shù)據(jù),研究人員不得不先人工辨認墨跡,然后通過不斷迭代訓練模型來提高識別準確率。2023年的結果顯示,該方法成功識別出了一部失傳的哲學家作品。但模型的泛化能力有限,例如能夠準確識別單獨一個卷軸的模型無法直接應用于另外一個卷軸。
左圖為Vesuvius Challenge(維蘇威火山挑戰(zhàn)賽)獲勝者利用機器學習技術解讀的古籍;右圖是這類古籍通過傳統(tǒng)的物理打開方式打開后的情況。
在碳化的古卷上找到的字母ΠΟΡΦΥΡΑΣ ,是古文的紫色(Porphyras)
莎士比亞第四對開本的印刷者識別:Print and Probability
莎士比亞的第四對開本存在許多錯漏,因此學者對尋找其印刷者表現(xiàn)出極大興趣,但當時出版商匿名出版的習慣使之變得困難。通過機器學習技術,研究人員可以利用活字印刷的特性來解決這一問題。具體而言,同一出版社印刷的字符在形狀(帶有破損)上應該是相同的,因此可以通過尋找具有相似破損形狀的字符來確定兩本書是否由同一出版社印刷。來自加州大學圣地亞哥分校(UC San Diego)和卡內(nèi)基梅隆大學的跨學科合作團隊把這個問題拆解成幾個機器學習模型能處理的子任務,用AI首次回答了這個歷史懸案。首先,Ocular無監(jiān)督字符識別系統(tǒng)能夠提取一頁英文打印書籍中的所有字符并進行分類,篩選出具有破損的字符,并通過訓練小的神經(jīng)網(wǎng)絡來判斷字符是否有破損。隨后,通過標注100-200個肉眼判斷為相似的字符樣本,訓練一個網(wǎng)絡來識別這些字符的相似性。最終,通過匹配已知出版者的作品中的字符,可以確定未署名版本的印刷者。
通過這些案例,陳丹露給我們展示了人工智能在古代文獻研究中的多樣化應用,從古希臘銘文的補全到甲骨文的綴合,從赫庫蘭尼姆卷軸的非侵入式破譯到莎士比亞對開本的印刷者識別,這些研究為歷史研究提供了新的視角和方法。
最后,在講座的互動環(huán)節(jié)中,在場聽眾提出了多個問題,陳丹露也結合實際研究經(jīng)驗進行了詳細解答。
提問:
從大量古代文獻中篩選韻文的工作,是否更接近圖像識別任務而非語言分析任務?是否需要人工預先標注數(shù)據(jù)?是否有比較有效的模型?
回答:
確實如此,篩選韻文的工作更接近圖像識別任務。圖像本質(zhì)上是矩陣,而文字需要轉化為機器能夠理解的連續(xù)形式,這增加了處理的復雜性。例如,在一百萬本書中,大約只有20%的文本經(jīng)過了人為標注。在這種情況下,通常會將其中5%的數(shù)據(jù)用作測試集,95%用作訓練集。從實際效果來看,基于圖像的方法往往比傳統(tǒng)的文字識別或特征提取方法表現(xiàn)更好。
提問:
建筑師手稿的OCR手寫體識別非常困難,目前的思路是人工標注后再進行機器識別,這是否正確?對于小樣本學習領域,您怎么看?在處理手稿時,除了中文和英文,還有繪制的相關圖紙,這種情況下是否更應該采用圖像處理的思路?
回答:
對于手寫體識別和小樣本學習,人工標注是非常關鍵的一步。實際上,只需要標注一小部分數(shù)據(jù),例如5%,就足以讓模型識別出95%的內(nèi)容。小樣本學習在近年來得到了廣泛應用,尤其在歷史文獻研究中,這種方法貫穿了項目的整個流程。對于包含多種語言和圖紙的手稿,圖像處理的方法(或者說多模態(tài)的特征輸入)確實更為適用。通過將手稿中的文字和圖紙視為圖像,可以利用圖像處理技術進行特征提取和分析,從而更好地處理這些復雜的內(nèi)容。
提問:
在處理大量文本并截取韻文時,如果中文世界中并沒有整頁或半頁的版式體現(xiàn),是否還能采用類似的方法?在《紅樓夢》這一例子中,使用的聚類分析方法是否可以手工微調(diào)這些庫的參數(shù)以獲得更好的結果?
回答:
如果中文文獻中沒有明顯的整頁或半頁版式,那么直接應用類似的方法確實會面臨困難。不過,韻文的例子是為了說明,除了文字內(nèi)容本身,還可以關注版式等非文字的特征。而關于《紅樓夢》的例子,在實際操作中,原文可能進行了字級別的篩選。雖然聚類分析主要依賴于第三方庫,但每一步的分析過程都是可以觀察和調(diào)整的。例如,可以選擇不同的參數(shù)來優(yōu)化聚類結果,使其更符合研究需求,比如情感色彩等特征。當然,需要注意的是,選擇參數(shù)時應盡量避免僅選擇那些能夠明確得出預期結果的參數(shù),否則可能會導致結果的偏差,從而陷入循環(huán)論證的謬誤。
提問:
關于銘文補充的例子,是否因為模型是在一個集中的數(shù)據(jù)集里訓練,所以結果會比較準確?是否存在循環(huán)驗證的情況?人類的詞語組合能力是否比機器更強,從而導致機器的錯誤率更高?現(xiàn)在所有模型都是基于大數(shù)據(jù)量訓練的,但對于中世紀手稿這類數(shù)據(jù)量不足且風格迥異的情況,該如何解決?
回答:
我認為,人類在銘文補充任務中的錯誤率59.6%可能有些偏高,因為這個數(shù)字是讓兩個做古典學的學生測出來的。但個人認為這并非完全是因為人類的詞語組合能力更強而導致人類可以補全得更多。大多數(shù)情況下,錯誤率較高是因為銘文缺損過多,導致無法準確補充。其次,機器給出的并非單一結果,而是多種可能性的概率分布,這為歷史學家提供了更多參考。最后,人和AI模型不應該是一種競爭關系,而是人與機器可以相互補充:機器可以進行初步篩選,尤其是在那些懂的人不多的語言中,由人類專家進行最終確認可能會更有效。對于小樣本問題,例如中世紀手稿,可以采用一些現(xiàn)有工具或方法。例如,像Ocular是一個專門用于處理小樣本和字符集較少的語言的工具。此外,也可以通過人工添加一些限制條件來優(yōu)化模型的訓練過程。
提問:
甲骨文和其他古文字的字數(shù)有限且相對規(guī)范,但竹簡文字的部件可以隨意拼貼組合,存在無數(shù)種可能性。在這種情況下,我們該如何識別?
回答:
可以嘗試讓模型生成關于這些部件的解讀,將分類問題轉化為描述性問題。這種方法可能有助于解決竹簡文字的識別問題。有些文字的分類并非固定組合,目前只有中文的簡帛存在類似問題,楔形文字其實也比較類似,但還是沒有竹簡字復雜。這是一個非常有趣且具有挑戰(zhàn)性的問題,值得進一步研究。
提問:
我試用了Ithaca,特意挑選了一些包含地名和時間信息的銘文讓它判斷,但模型在判斷字符權重時會忽略一些重要名詞。這是不是意味著我們需要再訓練一個大模型來輔助它,還是有其他方法可以讓一個模型同時實現(xiàn)字符推斷和結合歷史信息校正推斷?
回答:
Ithaca在訓練的時候特意去除日期和地點這種能泄露年代的信息,并主要從純文風角度去推斷銘文所屬的年代和地點,因此會忽略一些人類專家可能會注意到的權重,例如地名、人名等信息。解決辦法是針對具體需求重新進行相關訓練。由于數(shù)據(jù)量通常不會太大,因此不需要重新接入一個大模型??梢酝ㄟ^調(diào)整訓練數(shù)據(jù)和目標,讓模型更好地結合歷史信息進行推斷。
提問:
作為純文科體系的學生,如果想結合數(shù)字技術與人文研究,需要做哪些準備?
回答:
我個人的建議是,作為本科生,可以暫時把數(shù)字技術當作一個“黑箱”,現(xiàn)在的GPT大模型已經(jīng)將輸入和輸出簡化到了極致,所以暫時不需要深入了解其內(nèi)部工作機制,而是要清楚它能做到什么,不能做到什么。網(wǎng)上有許多關于數(shù)字技術與人文社科結合的學習資源,雖然可能僅限于了解如何對問題進行建模,但在學習專業(yè)課程時,可以思考某個問題為什么可以或不可以被數(shù)字技術建模。不要過于焦慮,如果對交叉領域感興趣,可以主動去學習更多的AI相關的數(shù)理課程,譬如說線性代數(shù)和機器學習基礎。更重要地是,要學會如何表述一個問題,思考如何將一個人文歷史問題轉化為可操作的分析問題,明確輸入和輸出,或者如何利用數(shù)字工具輔助研究,這是非數(shù)理技術專業(yè)的學者需要培養(yǎng)的重要能力。
講座現(xiàn)場