深入 OpenAI 內部:一位前員工對文化、工程與速度的真實反思

作者為 Calvin French-Owen
- 超高速增長:一年內從千人擴張至三千人,導致組織架構與流程持續變動
- 由下而上的菁英文化:公司內部溝通完全依賴 Slack,決策模式極度「由下而上」。好點子能快速勝出,員工有高度自主權,鼓勵「先做再說」的行動偏見
- 嚴肅與保密:身處 AGI 競賽的核心,加上全球性的高度關注,公司內部氛圍既嚴肅又保密。儘管如此,作者強調多數員工真心致力於「做正確的事」,並讚揚公司將尖端模型向大眾開放的理念。
文章的一大重點是作者參與「Codex」專案的經歷。他描述了一個僅由少數精英團隊在短短七週內,從零到一打造出產品的瘋狂衝刺過程,這體現 OpenAI 驚人的執行力與「快速行動」的精神。
以下為全文翻譯:
我在三週前離開了 OpenAI。我最初是在 2024 年 5 月加入這家公司的。
我想分享我的感想,因為外界對於 OpenAI 的所作所為有許多煙霧彈與雜音,但卻鮮少有人親身描述在那裡工作實際的文化感受 。
Nabeel Quereshi 曾寫過一篇精彩的文章 《Palantir 反思錄》,他在文中沉思是什麼讓 Palantir 如此特別。我想趁記憶猶新時,為 OpenAI 寫下類似的紀錄。這裡你不會找到任何商業機密,更多是對這個正處於極其有趣時期的史上最迷人組織之一,其當前樣貌的思考。
開門見山地說:我決定離開沒有任何個人戲劇性原因——事實上我內心非常掙扎。從自己創業到成為三千人組織的員工,這個轉變並不容易。現在的我渴望一個全新的開始。
完全有可能這項工作的品質會吸引我回來。很難想像能打造出比人工通用智慧(AGI)更具影響力的東西,而 LLMs 無疑是這十年來最重要的技術創新。我很幸運能親眼見證部分發展歷程,並參與了 Codex 的發布 。
顯然這些並非公司的官方觀點——這些觀察純屬我個人見解。OpenAI 是個龐大的組織,而這只是我個人的小小視角。
文化
關於 OpenAI 首先要了解的是它成長的速度有多快 。我加入時公司才剛超過 1,000 人。一年後,員工數已突破 3,000 人,而我的年資竟已位居前 30%。幾乎所有領導階層現在的工作內容,與 2-3 年前相比都截然不同。1
當然,當你擴張得如此迅速時, 所有事情都會崩潰 :公司內部如何溝通、匯報架構、產品交付方式、人員管理與組織方式、招聘流程等等。各團隊的文化差異極大:有些團隊始終全力衝刺,有些則在照看大型專案,還有些團隊以更穩定的步調前進。OpenAI 的體驗並非單一模式, 研究部門 、 應用部門和市場拓展部門的運作時程截然不同。
OpenAI 有個不尋常的特點是所有事情,我是說所有事情,都在 Slack 上運作 。這裡沒有電子郵件。我在職期間可能只收過約 10 封郵件。如果你缺乏組織能力,會覺得這種方式令人分心到極點。但若能妥善管理頻道和通知設定,其實可以讓這個系統運作得相當順暢。
OpenAI 的運作模式極度自下而上,特別是在研究方面 。當我剛加入時,曾詢問關於下一季的發展路線圖,得到的回答是:「這個東西不存在」(雖然現在有了)。好的想法可能來自任何地方,而且通常很難事先判斷哪些想法最終會最有成果。與其說有個宏偉的「總體計劃」,不如說進展是迭代式的,隨著新研究開花結果而逐漸明朗。
得益於這種自下而上的文化,OpenAI 也非常崇尚實力主義 。從歷史上看,公司領導者的晉升主要基於他們提出好點子並付諸實踐的能力。許多能力極強的領導者其實並不擅長在全體會議上簡報或政治操弄。這些在 OpenAI 的重要性可能比其他公司要低。最好的想法往往確實能勝出。2
這裡有著強烈的行動導向 (你可以直接動手做)。不同但相似的團隊經常會不約而同地產生各種想法。我最初參與的是一個與 ChatGPT Connectors 類似的平行(但屬內部)專案。在我們決定推動正式發布前,公司內部至少存在著 3-4 個不同的 Codex 原型版本。這類專案通常是由少數幾個人主動發起,不需要事先取得許可。當這些專案展現潛力時,團隊往往會迅速圍繞它們成形。
Codex 專案負責人 Andrey 曾告訴我,應該把研究人員視為自己的「迷你執行長」。這裡有種強烈的傾向讓人專注於自己的專案,看看能發展出什麼成果。這帶來一個必然結果,多數研究都是透過讓研究人員對特定問題產生極大興趣而完成的。如果某件事被認為無趣或「已解決」,很可能就不會有人投入。
優秀的研究主管影響力驚人但同時也極度稀缺。最出色的那些能夠串連多個不同研究專案,整合成更大規模的模型訓練。同樣的道理也適用於頂尖的產品經理(特別致謝 ae)。
我曾合作過的 ChatGPT EM 團隊成員(Akshay、Rizzo、Sulman)是我見過最酷的客戶群。他們給人的感覺就像是已經見識過所有場面 3。他們大多採取相對放手的管理方式,但僱用了優秀人才並確保團隊能獲得成功所需的資源。
OpenAI 能在瞬間改變方向 。這正是我們在 Segment 非常重視的特質——根據新資訊做出正確決策,遠比固守既定計劃更有價值。令人驚嘆的是,像 OpenAI 這樣規模的公司仍能保持這種精神,顯然 Google 就做不到。這家公司決策迅速,一旦確定方向就會全力以赴。
這家公司承受著大量的審視 。來自 B2B 企業背景的我,對此感到有些驚訝。我經常看到媒體搶先報導公司內部尚未宣布的新聞。當我告訴別人我在 OpenAI 工作時,對方往往已對公司抱持既定看法。許多 Twitter 用戶會執行自動化機器人,專門偵測是否有新功能即將發布。
因此,OpenAI 是一個極度保密的地方 。我無法向任何人詳細說明我正在從事的工作內容。這裡有幾個具有不同權限層級的 Slack 工作區。營收與資金消耗數字更是受到嚴密保護。
OpenAI 比你想像中還要嚴肅許多 ,部分原因是賭注實在太高 。一方面,我們的目標是打造 AGI,這意味著有太多細節必須精準到位。另一方面,我們試圖打造的產品將被數億用戶用於從醫療建議到心理諮詢等各種用途。而再另一方面,公司正參與著全球最激烈的競技場。我們會密切關注 Meta、Google 和 Anthropic 的動態,我相信他們也都這麼做。世界各主要政府正以高度興趣緊盯著這個領域。
儘管 OpenAI 經常在媒體上受到抨擊,但我在那裡遇到的每個人實際上都在努力做正確的事 。由於其以消費者為中心的定位,它成為大型實驗室中最受矚目的一個,也因此招致許多誹謗。
話雖如此,你可能不該將 OpenAI 視為單一整體 。我認為 OpenAI 最初就像洛斯阿拉莫斯實驗室那樣,是一群科學家和技術愛好者探索科學前沿的組織。這個團體意外催生了史上最具病毒式傳播力的消費級應用程式,隨後發展出向政府和企業銷售的野心。隨著時間推移,不同資歷與部門的人逐漸形成了截然不同的目標與觀點。待得越久的人,越可能透過「研究實驗室」或「非營利公益」的視角看待事物。
我最欣賞的一點是這家公司真正「說到做到」,在分配 AI 利益方面付諸行動 。尖端模型並非僅限於需要簽訂年度合約的企業級方案。世界上任何人都能直接使用 ChatGPT 獲取答案,甚至無需登入。他們提供可註冊使用的 API——而且多數模型(即使是當前最先進或專有技術)往往會迅速整合到 API 中供新創公司使用。你可以想像一個與現行模式截然不同的運作體系。OpenAI 在這方面值得高度讚揚,這仍是該公司核心精神所在。
安全性其實比從 Zvi 或 Lesswrong 讀到的內容更重要 。有大量人員正在開發安全系統。考慮到 OpenAI 的性質,我看到更多關注實際風險(仇恨言論、濫用、操縱政治偏見、製造生物武器、自殘行為、提示注入),而非理論風險(智能爆炸、權力追求)。這並不是說沒人在研究後者,確實有人專注於理論風險。但從我的觀點來看,這並非重點。大多數已完成的工作並未公開 ,OpenAI 真的應該更積極地將這些成果公諸於世。
與其他公司在每場招聘會上大方發放周邊商品不同,OpenAI 其實不太常送周邊 (連新員工也不例外)。他們採取的是「限量發放」模式,只在特定時段開放訂購現貨商品。第一次發放時甚至讓 Shopify 商店當機,需求實在太火爆。當時內部還流傳一篇教大家如何 POST 正確 json 參數來突破限制的貼文。
相較於 GPU 成本, 幾乎所有其他開支都只是零頭 。舉個例子:當初為 Codex 產品開發的某項小眾功能,其 GPU 成本消耗竟與我們整個 Segment 基礎架構相當(雖然規模不及 ChatGPT 但當時也承載了相當比例的網路流量)。
OpenAI 可能是我見過野心大得驚人的組織 。你可能會認為擁有全球頂尖的消費者應用就夠了,但他們卻渴望在數十個領域競爭:API 產品、深度研究、硬體、編碼代理、圖像生成,還有一些尚未公布的項目。這裡就像一片沃土,能讓各種想法生根發芽。
這家公司非常關注推特動態 。如果你發了與 OpenAI 相關的推文並爆紅,很可能會有人注意到並加以考慮。我朋友開玩笑說:「這家公司是靠推特氛圍運作的」。作為消費者導向的公司,或許這也沒什麼不對。當然他們依然做了大量關於使用率、用戶增長和留存的分析,但氛圍同樣重要。
OpenAI 的團隊比其他地方靈活許多 。當我們推出 Codex 時,為了趕上發布日期,需要幾位經驗豐富的 ChatGPT 工程師協助。我們與幾位 ChatGPT 的工程經理討論後,隔天就有兩位厲害的夥伴準備投入協助。完全不需要「等待季度規劃」或「重新調配人力」,整個過程推進得非常迅速。
領導層非常透明且高度參與 。這在 OpenAI 這樣的公司或許顯而易見,但每位高管都顯得全心投入。你會經常看到 gdb、sama、kw、mark、dane 等人在 Slack 上發言。這裡沒有缺席的領導者。
《OpenAI 的反思》
OpenAI 使用巨型單一程式碼庫 ,主要採用 Python(雖然逐漸增加 Rust 服務,並零星使用 Golang 處理如網路代理等任務)。這導致許多程式碼看起來很奇特,因為 Python 的寫法實在太多樣。你會遇到既有來自 10 年 Google 資深員工設計的可擴展函式庫,也有剛畢業博士寫的臨時 Jupyter 筆記本。幾乎所有 API 都圍繞 FastAPI 構建,並使用 Pydantic 進行驗證。但並沒有全面強制執行的風格指南。
OpenAI 所有系統都運行在 Azure 上 。有趣的是,我認為真正可靠的服務只有三個:Azure Kubernetes Service、CosmosDB(Azure 的文件儲存系統)和 BlobStore。這裡沒有真正能與 Dynamo、Spanner、Bigtable、Bigquery、Kinesis 或 Aurora 相匹敵的服務。在自動擴展單元的思考上比較少見。IAM 的實作往往比 AWS 提供的局限得多 。而且他們有強烈的傾向自行開發內部解決方案。
在人員方面(至少工程團隊),存在著非常明顯的 Meta→OpenAI 人才管道 。OpenAI 在很多方面都像早期的 Meta:擁有爆款消費級應用、新興的基礎設施,以及快速行動的強烈意願。我見過從 Meta 和 Instagram 轉來的大部分基礎設施人才都相當優秀。
把這些因素綜合起來,你會看到很多基礎設施的核心部分都帶著 Meta 的影子。他們內部重新實作了 TAO 系統。還有將身份驗證整合到邊緣層的努力。當然肯定還有其他我不知道的類似專案。
聊天功能深入骨髓 。自從 ChatGPT 爆紅後,程式碼庫中有大量結構都是圍繞聊天訊息和對話的概念建構。這些基礎元素已深植系統,若忽視它們恐將自食惡果。我們在 Codex 專案中確實稍有偏離(更傾向採用 responses API 的經驗),但仍大量借鑑了既有成果。
程式碼至上 。這裡沒有中央架構或規劃委員會,決策通常由實際執行的團隊主導。這種模式強烈傾向行動優先,但也常導致程式碼庫出現大量重複元件。光是我見過的隊列管理或代理循環程式庫,至少就有五六套不同版本。
在幾個領域中, 工程團隊快速擴張卻缺乏足夠工具支援確實引發了一些問題 。sa-server(後端單體架構)某種程度上成了程式碼的傾倒地。主分支的 CI(持續整合)出錯頻率比預期高出許多。即使是平行運行的測試案例,加上部分依賴項的運算,在 GPU 上執行也可能耗時約 30 分鐘。這些並非無法解決的問題,但確實提醒我們這類問題普遍存在,且在快速擴張時往往會惡化。值得肯定的是,內部團隊正投入大量心力改善這個狀況。
我學到的其他事情
大型消費品牌是什麼模樣。 直到我們開始開發 Codex 時,我才真正理解這一點。所有事情都以「付費用戶數」來衡量。即使是像 Codex 這樣的產品,我們最初也認為用戶入門主要與個人使用有關,而非團隊使用。這讓我這個主要來自 B2B/企業背景的人有點難以適應。你只要啟動開關,第一天就能獲得流量。
大型模型是如何訓練的(高層次概述)。這是一個從「實驗」到「工程化」的連續過程。大多數想法最初都是小規模實驗。如果結果看起來有希望,就會被納入更大規模的運作。實驗不僅涉及調整核心算法,也包含調整數據組合並仔細研究結果。在大規模端,進行大型運作幾乎就像巨型分散式系統工程。總會出現奇怪的邊緣案例和意料之外的狀況,而這些都需要你來除錯。
如何進行 GPU 運算 。作為 Codex 發布的一部分,我們必須預測負載容量需求,這是我第一次真正花時間對 GPU 進行基準測試。關鍵在於你應該從實際需要的延遲要求(整體延遲、token 數量、首個 token 生成時間)出發,而不是從 GPU 能支援什麼來進行自下而上的分析。每次新模型迭代都可能大幅改變負載模式。
如何在大型 Python 程式碼庫中工作 。Segment 是微服務的組合,主要使用 Golang 和 Typescript。我們的程式碼廣度遠不及 OpenAI。我學到了很多關於如何根據貢獻開發者數量來擴展程式碼庫的知識。你必須建立更多防護措施,例如「預設即可運作」、「保持主分支清潔」和「難以誤用」。
推出 Codex
我在 OpenAI 最後三個月的重要工作就是發布 Codex。這無疑是我職業生涯中的亮點之一。
回顧當時,2024 年 11 月,OpenAI 曾設定 2025 年推出程式代理人的目標。到了 2025 年 2 月,我們內部已流傳幾款運用這些模型且成效顯著的工具。團隊明顯感受到必須推出專屬程式代理人的壓力,這些模型確實已發展到能有效輔助程式開發的階段(從市場上湧現的大量氛圍開發工具便可見一斑)。
我提前結束育嬰假回來協助參與 Codex 的發布。回來一週後,我們(有點混亂地)合併了兩個團隊,並開始了一場瘋狂衝刺。從開始(寫下第一行程式碼)到完成,整個產品只用了 7 週就打造完成。
Codex 衝刺期可能是我近十年來工作最拚命的一段時間。大多數晚上都工作到 11 點或午夜。每天清晨 5:30 被新生兒吵醒。早上 7 點又回到辦公室。週末幾乎都在工作。我們整個團隊都非常拼命,因為每週都很關鍵。這讓我回想起在 YC 的日子。
這種開發速度的驚人之處實在難以言喻。我從未見過任何規模的組織能在如此短的時間內,從一個想法到完整發布+免費可用的產品。而且專案範圍一點也不小;我們打造了一個容器運行環境、優化了程式庫下載、微調了專門處理程式碼編輯的客製化模型、處理各種 git 操作、引入全新的功能介面、啟用網路存取,最終做出了一個整體使用體驗相當出色的產品。4
無論你怎麼說,OpenAI 仍保有那股新創精神。5
好消息是,對的人能創造奇蹟。我們當時是一個資深團隊,約有 8 名工程師、4 名研究員、2 名設計師、2 名市場開發人員和 1 名產品經理。如果沒有這個團隊,我想我們可能會失敗。雖然不需要太多指示,但我們確實需要相當程度的協調。如果有機會與 Codex 團隊的任何成員合作,要知道他們每個人都非常優秀。
發布前一晚,我們五個人熬夜到凌晨 4 點,試圖部署主要單體架構(這需要好幾個小時)。然後又回到辦公室準備上午 8 點的發布公告和直播。當我們開啟功能開關後,就看到流量開始湧入。我從未見過一個產品僅因為出現在左側邊欄就獲得如此立竿見影的熱度,但這就是 ChatGPT 的威力。
在產品形態方面,我們最終採用了完全非同步的運作模式。不同於當時的 Cursor(現在已支援類似模式 )或 Claude Code 等工具,我們的目標是讓使用者能啟動任務後,讓代理程式在其專屬環境中獨立運作。我們的核心主張是:最終使用者應將編碼代理視為同事,傳送訊息給代理人後,它需要時間完成工作,最後會以 PR(Pull Request)形式回報成果。
這確實有點像賭博:我們現在處於一個有點奇怪的狀態,這些模型已經不錯 ,但還不到卓越的程度。它們可以連續運作幾分鐘 ,但還無法持續數小時 。使用者對模型能力的信任程度差異很大。而我們甚至還不清楚這些模型的真正能力邊界在哪裡。
從長遠的時間軸來看,我確實相信大多數程式開發會變得更像 Codex 的模式。與此同時,觀察這些產品如何發展將會非常有趣。
Codex(或許不令人意外)在處理大型程式碼庫和導航理解方面表現出色。我觀察到它與其他工具最大的區別在於能同時啟動多個任務並比較其輸出結果。
我最近看到公開數據比較了不同 LLM 代理生成的 PR 數量。光是公開數據顯示,Codex 已生成 63 萬個 PR。這意味著自發布以來的 53 天內,平均每位工程師產生了約 7.8 萬個公開 PR( 你可以自行猜測非公開 PR 的倍數 )。這可能是我一生中做過影響力最大的專案了。
臨別感言
老實說,最初我對於加入 OpenAI 是有所顧慮的。我不確定犧牲自由、擁有上司、成為龐大機器中的小零件會是什麼感覺。我保持相當低調地加入,以防這不是合適的選擇。
我確實希望從這段經歷中獲得三件事...
- 建立對模型訓練方式及能力發展方向的直覺理解
- 與優秀的人共事並向他們學習
- 推出一個出色的產品
回顧這一年,我認為這是我做過最正確的決定之一。很難想像在其他地方能學到更多。
如果你是一位創辦人,覺得自己的新創公司毫無進展,你應該要麼1) 徹底重新評估如何創造更多機會,要麼2) 加入其中一個大型實驗室。現在正是創業的絕佳時機,但同時也是窺見未來走向的絕佳時機。
在我看來,目前通往 AGI 的道路是一場三強爭霸:OpenAI、Anthropic 和 Google。這些組織將根據各自的 DNA(消費端 vs 企業端 vs 堅實基礎架構+數據)採取不同路徑達成目標。6 在任何一家工作都將是令人大開眼界的經歷。
感謝 Leah 的全力支持,在無數深夜裡承擔了大部分育兒工作。感謝 PW、GDB 和 Rizzo 給我機會。感謝 SA 團隊的夥伴們帶我入門:Andrew、Anup、Bill、Kwaz、Ming、Simon、Tony 和 Val。也感謝 Codex 核心團隊讓我經歷了畢生難忘的旅程:Albin、AE、Andrey、Bryan、Channing、DavidK、Gabe、Gladstone、Hanson、Joey、Josh、Katy、KevinT、Max、Sabrina、SQ、Tibo、TZ 和 Will。我永遠不會忘記這次衝刺。
砰。