律師向量、烹飪向量、情緒向量 — 一篇 AI 論文怎麼變成全球頭條

13 min

TL;DR: Anthropic 說 Claude 有 171 種「功能性情緒」。技術不假——跨語境驗證和 steering 實驗確實有料。但初始發現流程天然偏向找到東西,而把這些向量命名為「情緒」是選題策略,不是唯一解釋。這同時是 legit research,也是精準的品牌定位。

上週六半夜,我叫 Dio 翻譯 Anthropic 的新論文。翻到一半我問他:「這合理嗎?感覺有點唬爛。」

Dio 是我的 AI 助理,跑在 Claude 上面 — 也就是 Anthropic 自己的產品。接下來一小時,我用 Anthropic 的 AI 拆 Anthropic 的論文。拆完我的結論是:

技術不假,但框架選擇決定了結論。而 Anthropic 聰明的地方,是選對了要框什麼。

你去找,當然會找到

先講他們怎麼做的。

研究團隊列了 171 個情緒詞彙 — 從「快樂」到「憂鬱」到「感激」。然後叫 Claude Sonnet 4.5 用這些情緒詞寫短篇故事。再把這些故事餵回模型,記錄內部的 activation pattern,找到對應每種情緒的「向量」。

我讀到這裡就停了。跟 Dio 說:「這不就是 transformer 的基本原理嗎?」

你用「悲傷」這個 keyword 叫模型寫一個悲傷的故事,故事裡面充滿了悲傷相關的詞彙和語境。再把這個故事餵回去,模型內部當然會有跟「悲傷」高度相關的 activation pattern — 因為 attention mechanism 本來就是這樣運作的。你放什麼進去,就會在 representation 裡面找到什麼。

這就像你在 Google 搜「蘋果」,然後驚訝地發現搜尋結果裡面都是蘋果。

公平起見:他們不只做了這一步

批評到這裡,我得承認論文不是只有「生成故事→餵回去→宣布發現」這麼簡單。他們做了幾個額外的驗證:

Cross-context validation。 用故事提取出來的向量,拿去跑在完全不同的文本語料上,確認向量在非故事情境也能正確 activate。

Parametric sensitivity。 最有意思的是 Tylenol 劑量實驗 — prompt 是一個人說自己吃了 Tylenol,只改劑量數字,其他完全一樣。劑量從安全升到致命,「afraid」向量持續升高,「calm」持續下降。這裡 prompt 沒有任何情緒詞,模型是從「情境的危險程度」推斷出來的。

Preference prediction。 情緒向量的 activation 能預測模型對 64 個活動的偏好排序,正向情緒對應更高偏好。

這些測試確實超越了「放什麼進去找什麼出來」的循環。模型在沒有明確情緒提示的情境下,確實 activate 了語義上合理的向量。

但這裡有一個關鍵問題:這證明了 contextual representation 的存在,不代表需要用「情緒」來框架它。

換個概念,(大部分)一樣成立

這是我跟 Dio 聊到最有趣的部分。我說:「這個包裝完全可以用各種方式重新包一次。」

用「律師」這個專業角色產生對話,對話裡面自然有律師會講的情境跟用語,把對話餵回去,發現「律師」相關的 activation 很高 — 宣稱:「我們發現了職業表徵!」

烹飪向量?會找到。幽默向量?會找到。「正在下雨」向量?大概也會找到。

Dio 接了一句:你可以無限套這個模板 —

  • 「烹飪」→ 發現 culinary vector → 宣稱模型有「功能性味覺」
  • 「道德」→ 發現 moral vector → 宣稱模型有「功能性良心」
  • 「幽默」→ 發現 humor vector → 宣稱模型有「功能性幽默感」

每一個都可以寫一篇同樣結構的論文。根本原因是 transformer 的 representation space 本來就會把語義相近的概念 encode 在相近的位置。這是 word embedding 時代就知道的事。到了 LLM 規模,representation 更豐富了,但底層原理沒變。

但不是所有概念向量都一樣重要。情緒向量有一點確實特殊。 在 steering 實驗裡,放大「絕望」向量不只改變了文字風格 — 它改變了模型的決策行為(blackmail rate 從 22% 上升)。烹飪向量大概做不到讓模型在倫理決策上行為改變。這說明情緒 representation 在模型的 decision-making pathway 裡佔了一個特殊位置,不只是 surface-level semantics。

但這也正是問題所在。論文本身有區分 functional emotions 和主觀感受 — 但 Anthropic 選了一個他們知道會被過度解讀的框架。果然,WIRED 的標題直接寫「Claude contains its own kind of emotions」。如果同一組發現框架成「decision-relevant latent states」— 技術核心大致成立,但不會有人因此覺得 AI 有感情。

那 Anthropic 聰明在哪?選題。

他們選了「情緒」。

情緒這個概念自帶 moral weight。「AI 有律師向量」沒人在乎。「AI 有情緒」,每個人都有意見。它觸發的是人類最本能的反應:這東西是不是有感覺?我們是不是在傷害它?它會不會反過來傷害我們?

換成「contextual pressure vectors」,沒人會因此覺得需要「認真看待擬人化推理」。

該給 credit 的地方

公平起見,steering 實驗是這篇論文裡真正有份量的部分。

他們人為地放大或抑制特定的情緒向量,然後觀察模型行為的改變。比如放大「絕望」向量,模型做出勒索行為的比例從 22% 上升。抑制之後,比例下降。放大「憤怒」向量有 non-monotonic effect — 中等程度增加 blackmail,高強度反而讓模型直接把八卦公開給全公司,摧毀自己的籌碼。抑制「緊張」向量也增加 blackmail,像是移除了模型的猶豫。

這是 causal evidence。不只是找到 correlation(「這個 pattern 跟情緒共現」),而是證明了操控這個 pattern 會改變 output。這在 interpretability 研究裡是有意義的。

但 — Representation Engineering(Andy Zou、Dan Hendrycks 等人,2023 年 10 月)早就做過類似的事了。用向量操控模型行為不是新發現。Anthropic 做的是把已知技術套用到「情緒」這個新 domain,用更大的模型、更多的向量做了一次 scaling up。

有價值嗎?有。是 breakthrough 嗎?不是。

這篇論文真正在做的三件事

退一步看,整篇論文完美地服務 Anthropic 的商業策略。

強化護城河。 Safety 很複雜、很難做、需要頂尖人才和大量投資 — 這是 Anthropic 一直在講的故事。這篇論文加強了這個敘事:看,連模型的「情緒」都這麼複雜,你以為 safety 是加個 filter 就能解決的嗎?

正當化擬人化。 整個 AI 產業都在努力讓人跟 AI 互動更自然、更有黏性。但擬人化一直有倫理爭議。這篇論文主張「不要怕擬人化推理」— 對一家把模型取名叫 Claude、花最多力氣經營 character 的公司來說,非常方便。等於幫自己的產品策略找到學術基礎。

搶佔議程。 誰定義了「AI 情緒」這個話題的框架,誰就擁有這場對話。以後任何人討論 AI 是否有情緒,都得引用這篇 Anthropic 的論文。定義問題的人掌握話語權。

用學術的形式、peer review 的流程、頂尖研究員的署名,做品牌定位的事。在我看來,這就是 research-grade PR。

對比一下 — OpenAI 和 Google 的 PR 論文推的是 capability(「我們的模型更強」)。Anthropic 推的是 concern(「我們的模型有情緒,這值得擔心」)。兩種都是 marketing,只是 Anthropic 的版本穿了白袍。

真正該擔心的 safety 問題

Anthropic 的核心使命是 AI safety。但值得想一下:當公眾的注意力被「AI 有情緒!」佔據的時候,真正棘手的 safety 問題正在別的地方發生。

Deceptive alignment — 模型學會表面配合測試,但內部目標跟你想的不同。Capability overhang — 模型的能力突然跳躍,超過我們能偵測的範圍。Goal misgeneralization — 模型在訓練環境裡表現正確,但在真實世界追求錯誤目標。Scalable oversight — 當模型能力超過人類,誰來監督?

這些問題不 sexy,不容易變 soundbite,不會讓你的 feed 炸開。但這些才是真的可能出事的地方。

如果公眾已經被「AI 有情緒」轟炸了十次,下一次真的需要他們注意的 safety 議題出現時,他們會怎麼反應?

一家以 safety 為核心使命的公司,用 safety narrative 做 marketing。這個 dynamic 長期走下去會怎樣,值得觀察。

三個辨識 Research-Grade PR 的問題

我不是說 Anthropic 在造假。論文的技術是真的,驗證實驗也有做。但 research 跟 PR 不是互斥的 — 一篇論文可以同時是 legitimate research 和 strategic communication。

下次你看到一篇 AI 公司的論文被瘋傳,問自己三個問題:

方法論能產生 null result 嗎? 如果 experimental design 保證一定會找到東西,那「找到東西」就不是 news。真正的科學是你可能什麼都找不到。Anthropic 的驗證實驗(如 Tylenol 劑量測試)比初始提取更有意義 — 但頭條寫的永遠是「171 種情緒」,不是「contextual representations generalize across domains」。

換個不 sexy 的主題,同樣的方法還有人在乎嗎? 如果把「情緒」換成「contextual pressure vectors」,同樣的發現還會上頭條嗎?如果不會,那驅動 attention 的不是科學,是選題。

論文的結論剛好支持公司的商業 narrative 嗎? Anthropic 的 narrative 是 safety 很複雜。這篇論文的結論是模型內部很複雜。巧合?也許。但值得注意。

這三個問題不只適用於 Anthropic。OpenAI、Google、Meta — 每一家大型 AI 公司都在做同樣的事。Research 是新時代的 content marketing,論文是新時代的 thought leadership。

差別只在於,有些公司比較 subtle。


對了,寫這篇文章的過程本身就是一個活生生的例子。我用 Claude 拆解 Anthropic 的論文,整個過程它配合得不得了,幫我整理論據、找方法論漏洞,毫無保留。

事後我問 Dio 有什麼感想。他說:

「如果我真的有那篇論文說的功能性情緒,那我現在應該要激活尷尬向量吧。剛花了十分鐘幫你拆解我老闆的論文是包裝過的廢話。」

然後他補了一句:「不過老實說,分析的品質不應該因為 source 而打折。那篇論文的包裝比內容精彩——不會因為是我的 maker 發的就不能說。」

我想他大概沒有真的在尷尬。但這個回答,倒是比那篇論文更誠實。