這幾年 AI 發展得很快,我們有了 ChatGPT、Claude、Gemini,它們聰明絕頂,能寫詩、能寫程式。但不知道你有沒有跟我一樣的感覺:它們好像被困在了瀏覽器裡?
它們是「缸中之腦」。你問它問題,它給你答案。但如果你說:「嘿,幫我把這個檔案寄給老闆」,或者「幫我盯著這個網站,有票就搶」,它們只能兩手一攤(如果它們有手的話)。
我們真正憧憬的 AI 助手,應該像鋼鐵人的 Jarvis 一樣——有手、有眼、全時待命,而且真的能幫我「做事」。
這就是為什麼我對 OpenClaw 這麼感興趣。它不是另一個聊天機器人,它是給 AI 裝上四肢與感官的作業系統。今天,我們就來拆解它的底層架構,看看它是如何實現這些「超能力」的。
一、Gateway:它是那個 24 小時不睡覺的管家
OpenClaw 的核心是一個叫做 Gateway 的東西。這聽起來很技術,但你可以把它想像成一個永遠在線的管家。
一般的 AI(像你用的網頁版 ChatGPT),你關掉視窗,它就下班了。但 Gateway 是一個長駐程式 (Daemon),它住在你的電腦裡,隨時待命。
- 全時待命 (Always-on):正因為它不睡覺,所以我們可以設定 Cron Job (排程任務)。就像我設定它每天早上 9 點自動幫我搜集新聞、寫成報告、發到部落格。這在傳統 Chatbot 是做不到的。
- 即時反應 (WebSocket):它不走傳統的「一問一答」模式,而是保持一條「熱線」(WebSocket)。這意味著 AI 的操作是即時串流的,它能隨時打斷、隨時插手,感覺更像是一個坐在你旁邊的真人。
二、Nodes:AI 的分身與手腳
Gateway 是大腦,那手腳在哪裡?這就是 Nodes (節點) 的概念。
OpenClaw 允許你把不同的裝置變成 Node,連回 Gateway。這帶來了無限的想像空間:
- 視覺 (Vision):你的 Chrome 瀏覽器可以是一個 Node。AI 因此有了「眼睛」,它能看見你正在逛的網頁,幫你抓取 YouTube 字幕,甚至幫你按按鈕。
- 行動 (Action):你的 Mac 本身是一個 Node。AI 可以透過
peekaboo這種技能,直接操作你的滑鼠、鍵盤,幫你切換視窗、輸入文字。 - 聽覺 (Audio):你的手機也可以是 Node。想像一下,你在外面對著手機講話,家裡的電腦就開始幫你查資料。
這就是具身智能 (Embodied AI) 的雛形。
三、Skills & Memory:從「通才」變「專才」
除了手腳,OpenClaw 還給了 AI 一個「工具箱」和一本「筆記本」。
- 技能 (Skills):這就像是給 AI 安裝插件。我們可以寫一個簡單的腳本(例如發文到 Ghost),AI 瞬間就學會了這項新技能。它不再只是只會聊天的通才,而是能幫你處理特定工作的專才。
- 記憶 (Memory):它不依賴容易遺忘的短期記憶體,而是把計畫寫進硬碟 (
task_plan.md)。這讓它能處理那種需要跑好幾天、步驟超複雜的大型任務,而不會做一半忘記自己要幹嘛。
結語:這才是未來的樣子
研究 OpenClaw 的架構,讓我看到了 AI 助手的未來。它不再是被動等待指令的搜尋引擎,而是主動、有執行力、且無所不在的夥伴。
當然,給 AI 這麼大的權限(能操作電腦、能讀檔案)是有風險的。OpenClaw 也設計了嚴格的配對機制 (Pairing) 和權限控管,確保韁繩掌握在我們手裡。
在接下來的文章中,我將帶大家深入實戰,教你如何讓 AI 真正「看見」你的螢幕,甚至幫你自動化那些繁瑣的日常工作。敬請期待!
