2023年7月4日 星期二

甲骨文與人工智能

        前年世界人工智能大會(WAIC)在上海世博中心舉辦以圍繞 「以人為本」的城市視角和人工智能自身的進化視角,從產業和科學角度展開深入闡釋。在大會上,有一款能「讀懂」甲骨文的智能文字識別技術,一鍵翻譯,讓人瞬間穿越回到3600年前,馬上讀懂古人所書所言。其後,通過人工智能識別甲骨文還將用在考古和甲骨文的學術研究中。

        這款能「讀懂」甲骨文的智能文字識別技術。「單身狗」、「白富美」、「買它買它」,當3600年前的甲骨文被科技轉化為網絡詞語,讓參觀者頓時有了穿越感。原來這是智能文字識別技術,將形象豐富的甲骨文復刻在龜甲上再進行重新排列組合後,一系列網絡熱詞便可以被一一「翻譯」出來,實現了時空的連接。「這一技術是首次在人工智能大會上展出,目前還處於內測階段。」大會工作人員介紹,現在的甲骨文多在出版物上以圖片形式出現,給文字檢索帶來困難。如今的年輕人對甲骨文的意義更是知之甚少。因此,合合信息專門為甲骨文識別開發了智能系統,通過大數據的生產識別、圖形聚集等一系列技術算法,對甲骨文進行檢測與識別並翻譯成簡體漢字。合合信息相關負責人表示:「甲骨文識別難點在於甲骨殘缺嚴重、素材難獲取、拓片清晰度低等難點,這些都是需要通過技術來解決。目前我們還在對甲骨文的撮合識別做更完善的技術研究,後期將用在考古和甲骨文的學術研究中。」

微軟應用AI在甲骨文的研究

        甲骨文早已入選聯合國教科文組織《世界記憶名錄》,其起源可以追溯至公元前1400年至公元前1100年的商代。雖然自1899年以來,便有載有甲骨文的文物出土,但多年來科學家只能從約4,000個已識別字符中,破譯出約1,000個字符意思。 其中最大的難處是,大多出土的甲骨文文本都是記載在牛肩胛骨或海龜腹殼上。同一塊甲骨可能被多次記錄,其清晰度和完整性程度亦不同。研究人員仍然需要手動比較每張圖像,以找到重複或重疊的部分,才能將碎片拼接成一個更大、更完整的文本以供研究。 

快速分辨重覆字符 提300對配對可能性
 
       有見及此,微軟研究人員Wu與另一名團隊成員Mo,花了8至9個月時間,構建一個名為「Diviner Project」的AI模型。透過上載甲骨文文本圖片,將用AI快速將每個文本,與數據庫中的數千個其他文進行比較,以識別眾多文本中,是否有重覆的部分。 微軟指,Diviner Project曾於去年11月,利用一周的時間,便比較了100個數據庫中的181,134 件拓片。不僅發現當中有數萬個重複的文本記錄,還發現了300多對新配對。Wu則指,Diviner Project目前工作是通過將小碎片連接到大碎片,並清理重覆數據使其恢復到原始形式。期望日後可以進一步協助破譯甲骨文字符的含義。
香港舉辦AI在甲骨文的研討會

  那些刻寫在獸骨上、竹簡上、石頭上、青銅器上的甲骨文,算是中國最早成系統的文字。世世代代對甲骨文的研究,不少學者苦行僧似的傾注了幾十年的心血,對其進行分析、輸入和摹本製作,研究環境特殊,研究工藝要求高,一個小失誤,也可能難以彌補。

  近期香港教育大學中國語言及中文教育研究中心舉辦的講座「人工智能在甲骨文研究中的應用」,邀請首都師範大學甲骨文研究中心的莫伯峰教授主講,教授深入淺出地剖析神秘的課題,把古文化與人工智能相結合,講座生動有趣。

  繼人臉識別、文字識別、圖像識別之後,這些年,古文字工作者們嘗試把ChatGPT運用到對甲骨文的研究工作中,用人工智能協助對古文字的識別,並且收穫卓有成效。機器是人類製造的,把人類的智慧從腦子裏摳出來,轉換成數字輸入機器,讓機器將其規則化、系列化,再做成規範的文本供人類使用。

  莫教授說,把出土的十幾萬件甲骨文殘片拼合起來,把一大堆凌亂的竹簡有序地排列起來,使之組成有關聯、有邏輯、有學術價值的史料,這樣繁複的工作,如果由人來做,極不容易,且影響準確率。但是讓機器來復原和分析,事情就變得輕鬆多了,準確率亦提高。

  這是一門深奧的學科,莫教授提及的「有監督學習智能模型」,我的理解大概是人與機器互補,將甲骨文拓本、摹本、照片按人的意志讓電腦分析,辨認,組合,去偽存真,根據規則盡量還原成書寫者的原意。

  要讓人工智能好好地工作,學者們要走的路還很長很長。這是一門交叉性的學科,多模式,多效應,揉和歷史、文字、人工智能等方面的知識,一件文物出自什麼朝代、在什麼地方發現、製作人的身份如何、所表達的意思是什麼,古文字編纂工作,正在掀起一次新的革命。

  象形、指事、會意、形聲、轉注、假借,甲骨文把中國文字形象化、會意化、語音化。而今,一日千里的人工智能每天都在影響人類的生活。甲骨文亦不再限於一門古老學科,它結合ChatGPT,研究顯得年輕,充滿活力,失誤少了,質量更佳。

  研討會是專業的,但也面向普通大眾。莫教授提到的綴合、辭例歸類、青銅器斷代、竹簡編聯等詞彙,經過一番講解,我們也能明白大概。這是一堂古文化大眾課。

  一項能翻譯甲骨文的技術,正在智能化地形成。將來或許我們只需手機一掃,就可以輕鬆與古人交流,輕鬆讀懂他們的所思所想。人工智能不但創造未來,還將追溯遠古。

沒有留言:

張貼留言