黎是一家科技公司的機器學習工程師,該公司正在開發大型語言模型,希望將這個模型當作下一代的人工智慧工具。這個模型命名為「密涅瓦」(Minerva),而黎的任務就是開發模型並調整參數,讓它在不同的任務中好好發揮。

密涅瓦模型的建構將使用所謂的「檢索增強生成」(retrieval-augmented generation),能利用外部知識來源,如網際網路搜尋引擎或資料庫來驗證其輸出結果,藉此改善大型語言模型的反應。

黎負責監督2個協助訓練模型的獨立資料標註團隊,其中一個被外包到菲律賓,主要針對模型的輸出結果進行基本檢查。這個方式嘗試藉由獎勵演算法,以生成最符合使用者意圖的答案,同時將人類判斷的一些常識注入演算法中。

另一個團隊位於倫敦,成員包括學生、作家與其他專業人士。這個團隊承擔更進階的任務,例如為模型編寫範例答案,讓模型從中學習以生成自己的文字。

缺乏實質策略⋯AI資料標註員面臨道德問題時,只能自行判斷

今天,黎面臨高層領導團隊對密涅瓦模型績效的嚴厲質疑。給荷蘭客戶的演示中,密涅瓦偏離了主題,面對在阿姆斯特丹深夜外出可能發生的事,竟然發表了猥褻的評論。經調查後,團隊發現原來是其中一位資料標註員曾對荷蘭夜生活為何如此吸引觀光客開了個玩笑;模型吸納了這些資料,並在演示時重新生成這些不當回應。

針對這個情況,黎必須提醒資料標註員,確認他們理解在寫作中只記錄高品質文字回應的重要性,因為即使是資料中的小問題,也可能造成模型績效的大問題。

黎非常重視道德與安全的問題,然而,當這些問題出現在標註工作的脈絡中,她發現自己缺乏足夠的資源處理這些問題。團隊每天都會遇到如何組織特定答案的道德困境,但是公司缺乏明確的道德政策可作指引。

公司確實向客戶說明如何安全的使用該模型,並指明不應使用該模型進行哪些操作類型,但是在訓練室內,當資料標註員面臨道德問題,他們只能自行判斷。

有時,這些標註員會帶著問題尋求黎的幫助,但大部分時間她都無暇應付,無法針對每個問題給予指示;她也不覺得自己有資格或足夠的信心,就所有議題做出決定。

許多問題都很複雜,需要專門的資源妥善處理。她確信公司已經意識到這一點,但由於產品交付的競爭如此激烈,導致公司完全將重點放在分配資源,以建立技術能力。

舉例而言,假使「哪支球隊將贏得世界盃」的搜尋結果偏向男子球隊,那麼模型應該反映這種偏向,還是應該同時提供男子與女子賽事的答案?此外,還有許多經常出現的地緣政治問題:特定事件應該描述為種族滅絕嗎?某個團體是「恐怖組織」嗎?

黎很清楚,標註員針對不同議題的個人認知程度不一,目前沒有實質的策略,協助他們在這些情況下做出正確判斷。涉及外包工作的情況更令人擔憂。

大型語言模型的最大風險之一:內建偏見

大型語言模型最大的風險之一,就是誇大其威力與生產力,導致各行各業毫無判斷力的採用,讓決策從負責任的人類轉到不負責任且不受監督的機器上。

2023年,人工智慧新創公司吸引了將近500億美元的全球投資。人們冀望將大型語言模型安插在各種決策的關鍵點,以徹底改變他們的產業並提高效率。然而,在涉及治安、銀行貸款、履歷篩選、福利支付與教育等領域時,演算法決策卻讓偏見、歧視與錯誤決策的情形逐步升高。

事實證明,維基百科、Reddit與YouTube等大型數位平台的參與,都偏向年輕人、白人、男性與美國人。這些平台還包含明顯的種族歧視、性別歧視與年齡歧視的觀點,這些觀點在資料中比例過高,導致許多其他觀點完全排除在外。儘管設計者設置了防護欄,人工智慧模型仍舊重現特定的偏見。

除了資料集中的偏見,機器學習工程師的觀點也會影響到無數重要的選擇。例如,如何調整模型、針對什麼進行最佳化,以及如何處理公平與偏見的問題,因為人工智慧開發者與使用者的特徵有極大的差異。

我們很難取得人工智慧實驗室多元化統計的人口統計資料,但從高等教育進入此領域的途徑來看,人工智慧領域以白人男性占大多數。

美國電腦研究協會(US Computing Research Association)指出,2022年新進的電腦科學博士畢業生中,59%為白人,29%為亞洲人,只有4%為黑人。

從線上參與到資料集的創建、訓練資料的篩選管理、模型訓練方式的決策,以及人工智慧的政策討論,都受到特定觀點的支配。以白人、男性、美國人為主的全球科技菁英,對人工智慧為全球人口的設計與部署,擁有過大的發言權。

龐大且免費的人類知識寶庫,成為AI公司的營收來源

隨著大型語言模型迅速侵蝕知識生產領域,人們越來越倚賴聊天機器人來告訴他們關於世界的正確資訊,由此,我們應該反思生成式人工智慧的知識主張。

人工智慧公司在談論「為了人類利益」而開發這項技術時,往往會忽略他們主要的動機是財務:尋找將產品貨幣化的方式,以增加利潤。

大型語言模型的基礎是龐大的人類知識寶庫;幾世紀以來,這些知識庫陸續在書籍、文章、雜誌、維基百科網頁、網路社群和論壇之中收集累積。這一代的人工智慧公司利用免費資源,將其私有化並賣回給公眾。

黎在這方面的努力獲得了豐厚的報酬,但她無法擺脫一種感覺,就是自己在某種程度上,只是一台更大機器中的一個齒輪,這台機器正以驚人的速度處理文字資料。如果這台機器想要繼續擴大其模型的規模和力量,很快就會需要更多資料。她懷疑公司目前版本的模型存在重大的偏見與局限性,但財務誘因將凌駕在安全與道德考量之上。

*本文摘自大塊文化《血汗AI

書籍簡介

《血汗AI:為人工智慧提供動力的隱性人類勞工》

作者:詹姆斯·默登(James Muldoon)、馬克·格雷厄姆(Mark Graham)、卡倫·坎特(Callum Cant)
譯者:林潔盈
出版社:大塊文化
出版日期:2025/01/22

作者簡介

詹姆斯·默登(James Muldoon)、馬克·葛雷厄姆(Mark Graham)與卡倫·坎特(Callum Cant)為「公平工作」(Fairwork)計畫的同事。這個計畫的宗旨是凸顯新興科技在工作場域最理想與最糟糕的使用狀況。

詹姆斯‧默登(James Muldoon)

艾塞克斯大學商學院管理學系副教授、牛津網際網路研究所研究員、「自治」智庫數位研究主持人。主要研究人工智慧及數位平台等現代科技,如何創造公眾價值與公眾利益。

馬克‧格雷厄姆(Mark Graham)

牛津網際網路研究所網路地理學教授、牛津地理與環境學院研究顧問、南非開普敦大學非洲資訊科技與國家發展中心研究員、柏林社會科學中心訪問學者。亦擔任公平工作計畫的主任。一直以來,研究大眾連結度在過去20年對全球勞工的意義。

卡倫‧坎特(Callum Cant)

艾塞克斯大學商學院資深講師,主要研究工作、科技、21世紀危機。為《新國際主義》(New Internationalist)、Vice新聞撰稿,亦擔任專收勞工相關文章的期刊《底層日誌》(Notes from Below)編輯。

責任編輯:倪旻勤
核稿編輯:陳瑋鴻