遇和不遇

人生世,總在遇和不遇之間。作為退休理科教師,我們遇到同好者一起寫博文,同一議題,可各抒己見,有時會遇到教過的學生、共事的老師、久違的上司,什麼樣的熟人、朋友,什麼樣的男人、女人,全不由我們做主,卻決定我們的電腦瀏覽器博文和瀏覽的博客以前在學校工作,如果工作順利、生活幸福,某一天早上醒來,我們會感謝命運,讓自己在那些重要的時刻遇到了合適的人,可能是同事的幫助,勤奮的學生如果某日諸事不利,那麼,會遇到倒楣的事情,忘記帶教具,忘記這,忘記那。生命是一個漫長的過程,佔據人一生大部分時光的,是他的職業生涯,平時人們常講的遇和不遇,也多指工作和職業中的遭際。退休後遇到的,多是舊同學,興趣相似的羣組,在談天說地之際,偶有佳作,不想輕易忘記,乃存之於小方塊中,給遇和不遇的博客觀賞,如此而已!

2024年10月4日 星期五

保障大數據內容 維護人工智能安全

人工智能安全是國家安全的重要範疇,而實際上它與數據安全是息息相關的。今天人工智能系統都是以大數據驅動,並利用「深度學習」 Deep Learning 建模而成。根據資訊科學的基本原理「垃圾入,垃圾出」 Garbage in, Garbage out),因此數據的質量對人工智能效能尤其關鍵。常言道「溫故而知新」,要理解數據安全(以至人工智能安全),大家必須重溫大數據的「5V屬性」:

「數量」(Volume理論上深度學習數據愈多愈好,按此訓練而成的人工智能系統的知識面便會愈廣,使系統能處理更多應用上的問題。以ChatGPT-4為例, 它使用了570GB的訓練數據。若數據不足,系統難免會以偏概全,導致表現偏頗(Biased),影響人工智能系統的可靠性(Reliability)。

「速度」(Velocity人工智能要不斷學習,以維持其適時(Timely)的表現,包容常變的實時數據,否則其回應(輸出)便可能會過時(Out-dated),未能與時並進。

「多樣」(Variety真實世界數據五花八門,例如有文字、語言、錄像等,深度學習時必須能交叉處理,融會貫通各樣訊息,反之若生搬硬套地處理,回應便可能會不盡不實,效果不夠全面(Incomplete)。

「價值」(Value顧名思義「大數據」分析面對的數據量驚人,所以要從ChatGPT-4數據集中找出一條有價值的訊息,便如大海撈針,絕非容易。機器學習算法一般以統計學理論為主導,傾向選擇訓練數據集出現較多的「事件」(Event),因此少數的很容易被忽略,結果令人工智能系統對目標應用領域「失去焦點」(Out of Focus)。

「真實」(Veracity網上虛假資訊層出不窮(例如謠言、假新聞),但深度學習一般難以有效辨別是非真偽,影響系統的可信性(Trust)。

概括而言,不善管理大數據的話,它所訓練出來的人工智能系統之可靠性、實時性、全面性、聚焦性及可信性便會大受影響。針對這些情況,電腦科學家提出第六個V─「易損性」(Vulnerability),並研究方案避免同類事件發生,影響人工智能的效能。傳統科學家會視之為「網絡安全」(Cybersecurity)問題,而實際上在人工智能方面考慮這問題,是與數據「內容安全」(Content Safety)緊密相聯的。科學家研究有效方案來防止大數據內容被刪改或塗污。研究可以從輸入、儲存及輸出3個階段着手。

ChatGPT為例,用戶使用「提示」(Prompt)發指令給ChatGPT,系統便因應「提示」的需求,利用背後的「大型語言模型」(LLM)生成相關回應(例如文章)。但若然「指示」胡說八道的話,回應便一塌糊塗、帶有不實訊息、危言聳聽,更甚至乎危害國家安全;又或者「指示」表達不當,令回應洩露不應公開的資料(例如個人私隱)。針對這問題,科學家研究專用「指示工程」算法,過濾高風險的指示。另外,在智慧城市應用中有關區域滿布「物聯網」遙感器(IOT Sensors),一旦這些設備被黑客惡意破壞(Compromised),它所發出的「數碼提示」(Digital Prompt)便會被損害,嚴重影響回應結果的可靠性。

在數據儲存方面,傳統研究集中資料盜竊,但除此之外,人工智能更擔心的是「對抗攻擊」(Adversarial Attack)。這是人為的惡意攻擊,使人工智能系統誤認目標,混淆視聽,或者把特定的A判別為B,目的都是要讓系統判斷產生錯誤。要避免攻擊成功,數據除了要加密儲存外,訓練期間也要經常驗測,確保它未有被污染。就此,深度學習加入「人在環路機器學習」(Human-in-the-Loop Machine Learning)技術,充分利用人和機器的智慧協作。

輸出回應的可信性亦非常重要,人工智能系統應該具備「可解釋」(Explainability)能力,讓用戶能有效判斷生成回應的是非真假。再者,由於訓練經常面對數據不足的困難,深度學習採用「合成數據」(Synthesised Data),訓練融合自然及人工智能生成的數據,因此若然生成數據不加監管,後果將不堪設想。

最近,香港「個人資料私隱專員公署」公布《人工智能(AI):個人資料保障模範框架》。文件建議機構在4個階段做好資料(數據)保障,包括「制定」AI策略及管理、「進行」風險評估及人為監督、「實行」AI模型制定及AI系統實施及管理,及「促進」與持份者的溝通和交流。個人資料私隱是數據安全的其中一環,所以《框架》的建議適用於「人工智能安全」。筆者建議香港官、產、學、研各界機構認真推行。

1 則留言:

  1. AI最重要部份是分析收集到的「大數據」。

    回覆刪除