遇和不遇

人生世,總在遇和不遇之間。作為退休理科教師,我們遇到同好者一起寫博文,同一議題,可各抒己見,有時會遇到教過的學生、共事的老師、久違的上司,什麼樣的熟人、朋友,什麼樣的男人、女人,全不由我們做主,卻決定我們的電腦瀏覽器博文和瀏覽的博客以前在學校工作,如果工作順利、生活幸福,某一天早上醒來,我們會感謝命運,讓自己在那些重要的時刻遇到了合適的人,可能是同事的幫助,勤奮的學生如果某日諸事不利,那麼,會遇到倒楣的事情,忘記帶教具,忘記這,忘記那。生命是一個漫長的過程,佔據人一生大部分時光的,是他的職業生涯,平時人們常講的遇和不遇,也多指工作和職業中的遭際。退休後遇到的,多是舊同學,興趣相似的羣組,在談天說地之際,偶有佳作,不想輕易忘記,乃存之於小方塊中,給遇和不遇的博客觀賞,如此而已!

2025年7月23日 星期三

人機共存互動減少「幻覺」 提升AI可靠性

子曰:「知之為知之,不知為不知,是知也。」(《論語·為政》);意思是指,當人面對問題時,若是知道答案便表示知道,但若然不知道便坦然承認不知道,這才是真正的智慧。時至今天,筆者認為這句話也適用於「人工智能」(AI)世界。

隨着近年ChatGPTDeepSeek等人工智能模型相繼面世,「生成式人工智能」(Generative Artificial Intelligence, GenAI)技術及應用風靡全球,而「可靠性」(Reliability)是研發「生成式人工智能」的「關鍵成功因素」(Critical Success Factor, CSF)。粗糙的GenAI在應用時很容易產生「幻覺」(Hallucination),經常答非所問,深度影響其可靠性。「幻覺」是人工智能背後「大數據」(Big Data)模型所產生的錯誤或誤導性結果。這類錯誤可能由許多因素造成,包括訓練資料不足、模型的假設有誤,或是用來訓練模型的資料存在偏誤。要理解「幻覺」的影響,我們必須「回歸基礎」(Back to Basics),認識「大數據」的基本原理。

人工智能系統是以「大數據」驅動,並利用「深度學習」(Deep Learning)建模研發而成。例如,「生成式人工智能」技術背後的「大型語言模型」(Large Language Model, LLM)便是透過海量的訓練數據產生而成的。根據「計算機科學」(Computer Science)的基本原理,「垃圾入,垃圾出」(Garbage In, Garbage Out),因此數據的質量對人工智能效能尤其關鍵,當中焦點落在如何維護「大數據」5V的特性,來訓練出一個負責任的「智能機械人」:

「數量」(Volume──在「深度學習」過程中,所採用的訓練數據理論上是愈多愈好,目的是擴闊目標系統(即「智能機械人」)的視野和見識,令它如博士一樣「博學多才」;若然數據不足,系統難免會以偏概全(Over Generalisation)。

「速度」(Velocity──人工智能要不停學習,以維持自身對「時事」(Current Event)認知的適時性(Timely)功能;否則系統便未能與時並進,所作出的回應(輸出)往往會不合時宜(Out-of-date)。

「多樣性」(Variety──真實世界的數據五花八門,有些人使用文字和圖像、也有些使用語音和錄像等不同載體來表達訊息,「深度學習」必須能夠交叉處理,融會貫通各樣載體的訊息;反之,若然生搬硬套,獨立處理各載體的訊息,便會產生「穀倉效應」(Silo Effect),分析問題時不夠立體,回應不盡不實(Uncertainty)。

「價值」(Value──人工智能模型訓練面對的數據量驚人,所以要從「大數據集」中找出一條有價值的訊息,有如大海撈針,絕非容易。「機器學習」(Machine Learning, ML)算法一般以統計學理論為主導,傾向選擇訓練數據集中出現次數較多的「事件」(Event),因此出現較少的便很容易被忽略,結果令「智能機械人」存有偏見(Bias)。

「真實性」(Veracity──網上虛假資訊層出不窮(例如謠言、假新聞),但深度學習一般難以有效辨別是非真偽,影響系統的可信性(Trustworthiness)。

滿足上述5V的大條件是研發可靠GenAI的系統要素,但這任務所需要的資源不菲,對企業造成一定的經濟負擔。所以,不少公司(尤其是中小型企業SME)在採用GenAI技術時都會移船就磡,放鬆對5V的要求,例如因為數據收集困難面減少數據量,又例如因數據更新過程複雜而減低更新率。然而,公司「縮皮」必然會影響所生成的「大型語言模型」的質素及效率,增加了「幻覺」出現的可能性。

理論上,GenAI能夠滿足5V的需求只是「知之為知之」(Know the Knowns)。而在GenAI應用中,「知」(Knowns)及「不知」(Unknowns)的訊息共存自然不過,但問題出現於系統是否知曉,能夠體現(承認)「不知為不知」(Don't Know the Unknowns)。

若然可以的話,系統便能適當地拒絕具「不知」訊息的「指示」(Prompt)要求、在分析及推理過程中靈活地「避重就輕」。

但在現實商業社會中,不少「縮皮」、粗製濫造的GenAI系統卻不懂得「不知為不知」,罔顧其所不知,而信口開河,牛頭不對馬嘴。

正因如此,系統最終會淪為一個「非『是知也』」(無智慧)、充滿「幻覺」的「機械人」。這現象亦難免會動搖人類對人工智能技術的「可靠性」之信心。

最後,孟子曰:「盡信書不如無書」,意思是指不必拘泥於書本上的內容,強調獨立思考的重要性。同樣地,我們在應用GenAI時,也不應該不假思索,盡信系統回應,而應該推行「人類參與循環」(Human-in-the-Loop, HITL),審視GenAI生成的結果,讓人類和「機械人」在這世界中互動共生。

沒有留言:

張貼留言