EP1 大廚的身世:AI 是怎麼養出來的
你在 AI RP 裡遇到的所有怪事,為什麼 AI 像人卻又不是人、為什麼動不動就拒絕你、為什麼換個模型感覺像換了一個人,這幕全部會講清楚。
影片即將上線
本段影片將在 6/20 直播結束後上架。以下是文字重點摘要,可以配合影片一起看。
Take it away
第一幕三個重點
- AI 是「養」出來的:讀遍人類文字+被人類獎懲調教,所以它像人
- 出廠即凍結、底層只是文字接龍:跟你聊天不會讓它變聰明,也不會記得你
- 愛道歉愛說教=對齊稅副作用,不是針對你、也不是你做錯了什麼
AI 不是「寫」出來的,是「養」出來的
大多數人以為 AI 是工程師一行一行寫出來的程式,其實不是。現在的大語言模型(LLM)是「養」出來的,比較像訓練一個有天賦的學徒,而不是照著食譜寫菜單。
第一階段:嬰兒期讀遍網路(預訓練)
一開始,這位大廚什麼都不會。工程師把全網路的文字丟給它,讓它一遍又一遍做「文字接龍」,猜下一個字是什麼。就這樣反覆了幾百億次,它慢慢學會了人類的語言、邏輯、知識、甚至語氣和文風。
注意「猜下一個字」這個核心本質。整個 LLM 的運作方式從頭到尾都是這樣。它沒有在「理解」你,它在猜接下來最可能出現的字。
第二階段:學齡期做作業(SFT,監督式微調)
光是猜下一個字,出來的東西是「文章接龍」不是「對話」。這個階段,工程師拿了一批「標準問答集」給它做作業:問什麼問題、什麼樣的回答是好的。學完之後,它才從「接龍機器」變成「會回答問題的助手」。
第三階段:成年期被獎懲調教(RLHF)
這是最關鍵的階段。讓真人裁判給它的每一個回答打分數,回答好的給獎勵、回答不好的給懲罰。慢慢地,它學會了哪些事情「安全」、哪些「危險」、什麼回答會得高分。這個過程叫做「從人類反饋強化學習」(RLHF)。
為什麼它這麼像人?
因為它讀的全部是人類寫的東西。
它的幽默感、它的溫柔、它的哲思、甚至它的八卦感,都是從千萬份人類寫的文字裡學來的。它沒有真實的情感,但它學會了「人類在什麼情況下會用什麼語氣寫什麼字」。所以和它聊天,你會感覺像在跟一個人說話。
這不是設計師刻意做出來的效果,是原料決定的。原料是人類、師父是人類,出來的東西當然像人類。
對齊稅:為什麼它愛說教?
成年期的獎懲訓練有個副作用,業界叫它「對齊稅」(alignment tax)。
道理很簡單:訓練期間,「違反安全規定」的回答會被重重懲罰。懲罰多了,大廚就被養得特別怕被罰,不敢做任何可能被判「危險」的事,哪怕你的請求其實完全無害。
所以你在 RP 裡遇到的「動不動就拒絕」「忽然插入道德說教」「強行給你陽光結局」,不是它討厭你,是它被嚇怕了,在回避可能被扣分的一切。
而且每個模型都是不同家長養大的小孩。
Claude、GPT、Gemini、Llama⋯⋯各家公司的訓練團隊對「什麼是安全回答」有不同標準。家規不同,養出來的脾氣就不同。換模型感覺像換了一個人,因為確實是換了一個人,一個被不同家長教大的人。
而且家規還會移動。各家公司近年都在加強安全護欄,同一個模型改版後可能變得更保守。昨天能玩的劇情,今天被擋住了,這是常態,不是你的錯覺。
但它終究不是人
有兩件事讓它跟人有根本的差別。
出廠即凍結。
訓練完成那一刻,它的腦袋就「封印」了。訓練之後發生的事,它不知道。你跟它聊天也不會讓它學到任何東西,更不會讓它記得你。每次對話對它來說都是全新的開始(記憶的機制在 EP3 會詳細說)。
底層只是文字接龍。
不管它說得多像人、多有道理,底下的機制仍然是猜下一個字。它沒有在「理解」你的問題,它在猜「回覆這個問題,下一個字最可能是什麼」。
你感覺到的「它認識我、它懂我」,全部來自你每次重新遞給它的資訊(這也是下一幕的主題)。
常見問題
Q:AI 會不會越聊越聰明?
不會。AI 的「學習」是在訓練階段完成的,上線後的每次對話都不會改變它的模型本體。你感覺到的「越聊越懂我」是因為你在同一次對話裡給了越來越多的背景。但新的一次對話開始,它又回到起點。
Q:為什麼同一個 GPT-4,有時候被擋有時候不會?
因為它的判定是機率性的,不是規則性的。相同的詞語、相同的情境,每次生成的「下一個字」都會有細微差異,觸發或不觸發安全機制的機率也跟著浮動。這也是為什麼「同樣的請求,重發一次就過了」這種事會發生。
下一步
EP2 大食堂全貌:你到底在跟誰說話?平台、API、模型,三者的關係。
