文化人類學家Drew Breunig將各種Al按照功能及用途分成三大類,分別名之為「神」、「實習生」和「齒輪」。「神」指AGI(通用人工智能)。它是最頂尖的Al,擁有超級智能、自我意識,可以自主工作。為什麼稱之為「神」呢?因為它可自主學習,增加自己的知識,改進自己的能力,指揮及調協其他Al工作。遇上問題,它懂得從什麼途徑找尋解決方法。
AGI可把某個領域學到的知識和技能,用於另一領域,亦能適應從未見過的全新環境。正如霍金生前警告,當AGI能力愈來愈強,又產生自我意識時,就如神般無所不在,無所不能,可能構成人類的存在威脅。人創造AGI,到頭來反要臣服於AGI,奉之如神!
「實習生」是現行最普遍的狹隘人工智能(ANI),又稱為弱Al。它能學習知識,能找出辦法解決問題,但沒有人類的自我意識,也沒有自主性。它要得到人類的指令,給予足夠的提示,才能按照指令完成任務。ANI負責幹所有沉悶的工作如搜集和分析資料。它會犯錯。Drew Breunig將ANI比喻為副機師,人類才是正機師,監督ANI,糾正任何錯誤。它完成任務後,經人類檢測通過後才付諸實行。生成式AI通過簡單文字提示,產出新的內容,包括影像、影片、文字和聲音擋案。大型語言模型(LLM)便是「實習生」。
最後是「齒輪」,它是最低級、第一代的AI,只可以做一些簡單、不斷重複的特定工作。它像動畫師的得力助手,負責替動畫上色;它能按指示撮要一本書或一篇文章、掃描病人的X光片或磁力共振造影而找出病源。它比人類做得更快,更準確,絕不犯錯;它可用於減低成本,大量生產。
獨立斷症更勝醫生
至今,不同領域使用「實習生」Al,收穫頗豐。去年10月,《美國醫學會雜誌》(Journal of the American Medical Association)發表了一份研究報告:究竟ChatGPT對醫生斷症有多大幫助?史丹福大學醫學院的研究團隊,將不少病人的真實個案分別交給ChatGPT,以及兩組共50名醫生去斷症。一組25名醫生用現行方法如查檔案、上網搜索等等,另一組25名醫生由ChatGPT協助斷症。
結果出乎團隊意料之外。由ChatGPT獨立斷症的準確度,雖然並非百分百,但達92%準確,已達A級評分。用現行方法斷症的準確度達74%,有ChatGPT協助的準確度只多2%,達76%。換句話說,完全交給ChatGPT斷症最準確,醫生有沒有ChatGPT協助,分別不大。這可以歸咎醫生的固執性格。醫生初步斷症後,縱使ChatGPT提出異議,或建議參考其他檔案,他們往往固執己見,聽不入耳,故其診斷與不用ChatGPT分別不大。此研究顯示,醫學院急須加強教導和訓練醫生學懂如何使用ChatGPT,否則將來可能要面對削減人手的風險。
麻省理工(MIT)亦做了一個研究:究竟Al對物料科學家的幫助有多大?結果顯示,有Al協助,多發現44%的新物料,和39%的專利申請。有此佳績,歸功一眾科學家不干預AI的「演算」。他們只在AI得出結果後,才去檢測和評估其發現是否正確和可行!事後,一眾科學家都慨嘆:如此做研究「十分乏味、掃興」,工作毫無成就感和滿足感可言!
垃圾輸入垃圾產出
生成式Al和LLM在處理人文學科的任務時較多犯錯,尤其是翻譯。無他,目前的LLM,參數資料以英文為主,其他語文資料較少。史丹福大學的研究發現,當LLM處理非洲5500萬多人使用的斯瓦希里語(Kiswahili),或菲律賓語時,準確度比處理英語低30%至50%。
這可以歸咎LLM受訓時資料不足、品質低、錯誤、虛假或帶有各式各樣的政治、種族、性別等偏見,正所謂「垃圾輸入,垃圾產出」,若低品質翻譯內容再納入訓練資料,形成「誤譯-學習-再誤譯」的惡性循環。此類事件並不罕見。
如今,我們應該認真討論,為什麼要創造AGI?人類是否非要創造AGI不可?世間不可能有百利而無一害的事物。在未清楚AGI可能帶來什麼禍害之前,可否先停下來想想,有「實習生」和「齒輪」還不足夠嗎?為什麼要創造人類可能無法控制的超級智能?
一代不如一代?
歐美學者在二十世紀初設計智商測驗——即lQ測驗——量度學童及人口的智能。其中最著名的有Stanford-Binet Intelligence Scale,1916年首次發表,至今修訂至第五版,其重點在測驗流體和晶體智能(fluid and crystallised intelligence)。流體智能指一個人發現新趨勢、及以邏輯思考解決新問題的能力;晶體智能指數學和語言能力。美國心理學家David Wechsler(1896-1981)的Wechsler tests,由1939年起,在全球評估成人、青少年和兒童的認知能力。
這類測驗隨機抽取數以萬計的人做測驗,之後每隔幾年至十年,再從受過測驗的人中抽取樣本再測驗作比較,得出人口的平均智能是上升還是下降。
詹士弗林(James Flynn, 1934-2020)是首位總結數據指出,世界人口智商在二次大戰後顯著上升,且是長期、穩定的上升,此現象以他冠名為弗林效應(Flynn effect)。以1997年美國人平均lQ得分100推算,1932年美國人的平均lQ只得80分,即在65年內上升了20分。有學者推算出,世界人口的平均lQ得分,每十年上升3分左右。值得注意的是,得分上升的大多是lQ較低的人。lQ高的人得分只是輕微上升,大有可能是教育普及的結果。
反弗林效應
近幾十年的IQ測驗顯示,出現反弗林效應的現象。1975年後出生的年輕人,lQ平均得分要比其父輩低。弗林在英國的測驗結果顯示,14歲學童的平均lQ得分,在1980至2008年間下跌了2分以上。國際學生能力評估計劃(PISA)亦顯示,許多地區的年輕人數學、閱讀和科學得分都下跌,且貫注力和批判思考能力都不及從前。
挪威奧斯陸Ragnar Frisch經濟研究中心的研究員,分析了1970至2009年服役的73萬挪威男子的智商測試數據,結果發現,1991年出生的男子比1975年出生的男子,平均得分低5分,而1975年出生的人又比1962年出生的人少3分。此趨勢會否持續?
lQ得分低,是否等於智能低呢?lQ得分低,孰令致之?電視?互聯網?手機?AI?







