ChatGPT 來了,失業還會遠嗎?上星期在 GPT-4 發布時,ChatGPT 第一時間上線了新版本,OpenAI 首席執行官 Sam Altman 表示他對自家這種技術『有點害怕』。
  和很多專家一樣,Altman 擔心人工智能技術的強大能力會製造過多虛假信息,另一方面,新技術也將改變經濟、勞動力和教育環境。
  有人開玩笑說 Sam Altman 每天背著的同一個包,里面有緊急關停 AI 的紅色按鈕。
  此前,AI 作畫已經讓很多畫師開始擔憂自己的工作會被取代。昨天,OpenAI 研究人員提交的一篇報告引發了人們更加熱烈的討論,研究人員估計 ChatGPT 和使用該程序構建的未來應用可能影響美國大約 19% 的工作崗位,和他們至少 50% 的工作任務。
  與此同時,80% 的美國勞動力至少有 10% 的工作任務在某種程度上將受到 ChatGPT 的影響。
  該研究分析表明,像 GPT-4 這樣的 LLM(大型語言模型)的影響可能是無處不在的。此外,工資較高的工作 —— 可能需要執行許多基於軟件的任務 —— 會面臨更多來自人工智能聊天機器人的潛在影響。
  在職業影響方面,受影響最大的職業包括翻譯工作者、作家、記者、數學家、財務工作者、區塊鏈工程師等。
  該研究還按行業細分了 ChatGPT 的影響。數據處理托管、出版業等行業最有可能受到影響。相比之下,體力勞動較多的行業 —— 食品、林業、社會援助等受到的潛在影響最小。
  OpenAI 研究了美國超過 1000 個職業,並給他們貼上了執行這些工作所需的各種任務的標簽。然後,研究人員使用人工註釋器和 GPT-4 模型來評估訪問由 ChatGPT 驅動的系統是否會將人類執行特定任務所需的時間減少至少 50%。
  讓我們看看這項研究具體在幹什麽:
  我們先看總結,OpenAI 本次調查了 GPT 模型和相關技術對美國勞動力市場的潛在影響。他們根據人員職業與 GPT 能力的對應程度來進行評估,研究結果表明,大約 80% 的美國勞動力至少有 10% 的工作任務會受到 GPT 的引入影響,而大約 19% 的員工可能會看到至少 50% 的工作任務受到影響。這種影響涵蓋所有工資水平,高收入工作可能面臨更大的風險。值得註意的是,這種影響不僅限於近期生產率增長較高的行業。
  通過分析他們發現,像 GPT-4 這樣的大型語言模型帶來的影響可能是普遍的。隨著時間的推移,LLM 的能力不斷提高,即使現在研究人員停止對新模型能力的開發,但它們帶來日益增長的經濟效應也會持續增長。該研究還發現,如果考慮到互補技術的發展,LLM 的潛在影響將顯著擴大。這也恰恰說明了 GPT 正變得越來越通用。
  為了分析,該研究還提出了一個新的標準來理解 LLM 的能力及其對工作潛在影響,該標準用來衡量關於 GPT 任務的總暴露數。
  看完結論,接下來就該介紹數據集了。該研究使用 O*NET 27.2 數據集 (O*NET, 2023),該數據集包含 1016 個職業信息,表 1 提供了數據集示例,包含任務 ID、職位等。
  此外,數據集還包括他們從美國勞工統計局獲得的 2020 年 - 2021 年員工就業和工資數據。該數據集包括職業頭銜、每種職業的工人數量等。
  在方法上,該研究根據 exposure rubric 來展示結果,Exposure rubric 定義為訪問 GPT 或 GPT 驅動的系統是否會將人類執行特定 DWA 或完成任務所需的時間減少至少 50%。(註:DWA 全稱 Detailed Work Activities ,可以將其理解為完成任務所需要的動作,例如表 1,對於計算機系統工程師,其 DWA 包括監控電腦系統性能,確保正常運作。)
  該研究對每個 O*NET 數據集的 DWA 和所有 O*NET 任務的子集獲得人工註釋,然後在任務和職業級別上匯總這些 DWA 和任務得分。為了確保這些註釋的質量,該研究親自標記了大量任務和 DWA 樣本,並招募了經驗豐富的人工註釋者,他們在 OpenAI 的對齊工作中廣泛審查了 GPT 輸出。
  下表為模型與人的一致性比較與皮爾遜相關系數。一致性分數是通過觀察兩組人在註釋上達成一致的頻率來確定的 (例如 E0, E1 或 E2)。在本文中,該研究使用 GPT-4, Rubric 1。
  該研究為感興趣的因變量構建了三個主要度量:(i) 𝛼,對應於上面 exposure rubric 中的 E1, (ii) 𝛽,是 E1 和 0.5*E2 的總和,以及 (iii) 𝜁,E1 和 E2 的總和。該研究在表 2 中總結了註釋組和度量之間的一致性。
  研究結果
  OpenAI 的這項研究以 GPT 語言模型對經濟具有普遍影響作為假設,我們來看一下具體的研究結果。
  下表 3 是人類和 GPT-4 模型的總體 exposure 數據。其中,人類和 GPT-4 的數據表明平均 occupation-level 𝛼 值介於 0.14 和 0.15 之間,這表明對於中等職業,大約 15% 的任務直接受到 GPT 影響。對於 𝛽,這個數字增加到 30% 以上,對於 𝜁,這個數字則超過 50%。
  根據 𝛽 值,該研究估計 80% 的人屬於至少一項工作任務受 GPT 影響的職業,而 19% 的人所處的職業有超過一半的工作任務被標記為受到 GPT 影響。
  工資和就業
  然後,該研究又從不同的職業分類探究了 GPT 模型的影響,包括 ONET 數據庫中的 5 個 Job Zone。其中,Job Zone 1 中的工作入職要求最低,Job Zone 5 則最高。
  總體來說,OpenAI 這項研究發現,工作對科學方法和批判性思維的依賴程度與 LLM 接觸使用情況呈負相關,而編程和寫作技能與 LLM 接觸使用呈正相關。
  不過,該研究也承認:試圖通過使用簡單的標簽來描述工作任務並代表每個職業,這種方法本身存在固有的偏見,並且可能忽略了一些特有的技能或任務。
  當然,還有一個非常重要的問題是 GPT 模型目前仍存在很多缺陷,包括編造虛假信息,這使得人工監督工作成為必要。
  大模型的廣泛應用,或許意味著許多人將失去工作,但 OpenAI 首席執行官 Sam Altman 認為這也將是個找到更好工作的機會:『我們可以擁有更高的生活質量。同時,人們需要時間來更新、做出反應、習慣這項新技術。』