? 所謂的編排層,就是一個 for 循環(huán)加一個 HTTP 服務器
? 在 Agent 的世界里,操作系統(tǒng)就是多余的
? 買屏幕盯 Agent 和調試提示詞,是同一件事
? 選本地模型只看一個指標:coding 能力。因為 coding 能力映射的就是調用工具的能力
以上內容,來自我和伯炎的對話
以上內容,來自我和伯炎的對話,我倆可能都完全錯了
本篇是「賽博史記 · 逮蝦戶列傳」的第二篇,記錄這波浪潮里最前沿的一批人在想什么、在做什么
王子伯炎,做了 MimiClaw,把 OpenClaw 跑在了一塊5美元的 ESP32 上。沒有操作系統(tǒng),純 C,5天 2.7K star,330 個 Fork
![]()
GitHub Star
王子伯炎(真叫這個),奇績 F25,輟學于曼徹斯特大學的 PhD ,研究方向是 AI 編譯器 for AIoT,當時的課題是把模型壓進嵌入式設備。現(xiàn)在模型在云端了,他壓的是調用模型的那個循環(huán)
對于再往下掉內容,我得先強調
這個時代沒有共識,我跟伯炎之間可能也沒有,但這些思考本身值得被記錄操作系統(tǒng)是給人用的
OpenClaw 可以跑在各種設備上,只要裝上一堆依賴就行
伯炎看完它的底層之后,發(fā)現(xiàn)真正在運轉的東西很簡單。用戶發(fā)一條消息,模型收到,思考,發(fā)現(xiàn)需要調用工具,調用,拿到結果,再思考,再調用。一個標準的 ReAct 循環(huán)
那么,這個流程還可以進一步抽離:一個 for 循環(huán),加一個能發(fā) HTTP 請求的網絡模塊,就夠了
至于無論 Mac 還是 Linux 在管什么?進程調度,文件系統(tǒng),用戶權限,圖形界面
這些都是給人用的。把人從這個循環(huán)里拿掉,操作系統(tǒng)就是多余的
這樣的話,事情就簡單了:把 for 循環(huán)用 C 寫死,編譯成固件,就能燒進5美元的芯片
插上 USB 供電,連 WiFi,發(fā) Telegram 消息就能用
所以,他做了 MimiClaw
累計搞了三天,其中等快遞花了兩天,做那個紅白機風格的 GitHub banner 花了半天,寫代碼畫了半天
![]()
Banner 花的時間和寫代碼差不多
我問他當初為什么做這個?
他想了一下說:誠懇地說,我想羞辱一下那些在 Linux 開發(fā)板上重新跑一遍的人
有個類似項目用 Go 重寫了 OpenClaw,買了很多 PR,現(xiàn)在11萬 star。但它依然需要 Linux
OpenClaw 本來就在 Linux 上跑,你換一塊板子再跑一遍,增量是零
5美元芯片上把操作系統(tǒng)整個去掉,for 循環(huán)照樣轉。這個才有增量
他讀博研究的就是怎么把東西壓進嵌入式設備。四年前用的是 AI 編譯器,針對上一代 CV 模型。他說當時覺得離人太遠了,后來輟學。現(xiàn)在他不壓模型了:模型在云端,芯片只需要能跑那個 for 循環(huán)、能存 memory
米哈游立項原神的時候,手機跑不了開放世界游戲。他們賭等游戲做出來的時候硬件能追上。賭對了
伯炎做 MimiClaw 的邏輯很像:
現(xiàn)在沒有瀏覽器操控能力,看上去是個缺陷,他賭的是瀏覽器會消失
你需要那么多屏幕,是因為 AI 不聰明
Mac mini 能操控瀏覽器。很多 OpenClaw 的能力是通過瀏覽器實現(xiàn)的,比如打開網頁,填表單,抓數(shù)據
但 MimiClaw 沒有瀏覽器
對此,伯炎的理由是:以后沒有給人用的瀏覽器了
Agent 在瀏覽器上點來點去,操作的其實是文字。網頁是給人看的渲染層,Agent 需要的是底下那層數(shù)據。給 Agent 套一個瀏覽器,是因為很多服務還沒有提供 Agent 友好的接入方式
他當時是用這個想法,立項的 MiniClaw
第二天,Cloudflare 發(fā)布了把網站轉成 Markdown 的服務、Google 出了 Web MCP
這些大廠,在把給人看的網頁,翻譯成給 Agent 讀的文本
瀏覽器這個中間層,開始被跳過了
OpenClaw 的創(chuàng)始人 Peter 說:80%的 APP 會死
延續(xù)這個判斷,伯炎接了一步:不會死的 APP 是帶傳感器的。你房間的溫度、身體的心率、周圍的空氣質量...這些數(shù)據在互聯(lián)網上搜不到。ESP32 天然能接傳感器,幾毛錢一個模塊焊上去就能用
說到這里,我跟他講了我自己的情況
過去一個月我新買了兩塊顯示器,一個49寸,一個57寸,今天又下單了一臺85寸的8K電視
同時,我還訂了兩塊163寸,LED 屏準備貼滿兩面墻...
為了這些屏幕,我租了鄰居的房間。把他家具全買下來扔了,刷白墻,擺設備
還有,我還搞了套全向麥克風拾音系統(tǒng):對著某塊屏幕說話,后面的計算模塊能識別方向,執(zhí)行任務
畢竟...我同時在用超過5臺電腦,鍵鼠切換器不夠用了
對了...我的顯示器,由于太重,把新買的桌子壓彎了
![]()
展示下我剛買的 57 寸顯示器
伯炎聽完說了一句:以后不需要屏幕
我當時沒接住這話。因為我確實需要...我同時在跑多個 Agent,要看狀態(tài)、審核輸出,犯錯的時候介入。現(xiàn)在的軟件全是按「一個人同一時間做一件事」設計的。我要同時管10個 Agent,真的需要10塊屏幕
他的邏輯:你需要看那么多東西,是因為 Agent 還不夠好
然后我想到一件事,在 Agent 出現(xiàn)之前,大家手動搭 workflow。因為不放心自動化...萬一某一步出錯呢?要設檢查點,要人工審核,要畫流程圖
現(xiàn)在 Agent 來了...我買屏幕、搭中控系統(tǒng),本質上還是因為不放心
workflow 是軟件層的「我不放心」,顯示器是硬件層的「我不放心」
顯示器是2026年的 Coze
等 Agent 的 benchmark 從70分漲到95分的那天,這些屏幕可能全是多余的
伯炎設想的終局是一個拇指大的設備,語音下達指令,Agent 在云端完成一切,完了告訴你一聲。不需要屏幕,不需要確認
他的信心來自一個判斷:Anthropic CEO 說過,不要優(yōu)化模型現(xiàn)在做不到的事
模型能力會持續(xù)變強,應該面向未來做產品
我沒辦法反駁這個方向,如果哪個老板天天站在秘書身后盯著他干活,就只能說明秘書還不夠好
乘100,或者零
MimiClaw 之前,伯炎做過一個叫 Memov 的項目:給 AI 編程做版本控制,大概就是每次跟 Claude Code 對話,自動記錄每一輪的 prompt、plan、代碼變化,完整保存上下文
這個產品跟 GitHub 前 CEO 辭職創(chuàng)業(yè)后做的東西功能一模一樣
后來,伯炎復盤這件事的時候說:這個產品只做了乘3的提升,不夠
以前做產品,比別人好20%就能多拿20%關注。現(xiàn)在產品太多,注意力太稀缺
你帶來的體驗乘3已經是零,乘100才有人看見
他之前做過一個法語考試網站。針對加拿大移民的法語考試,競品連數(shù)據庫都沒有:沒有錯題本,沒有做題記錄
加上數(shù)據庫就是從0到1的體驗差
一共 1000+ 個用戶,300個+付費,付費率極高
MimiClaw 能傳播,原因很簡單:他把整個操作系統(tǒng)去掉了,跑在5美元芯片上
至于推廣方式...非常簡單粗暴,他有一個 1000+ 粉的推特小號,每當別人問「怎么部署 OpenClaw」的時候,他就在的評論區(qū)回了一句「不要部署了,用 MimiClaw」
這些評論,給項目帶來了數(shù)十萬次的曝光,然后那些從來沒玩過 ESP32 的人開始下單買面包板
![]()
ESP32-S3 開發(fā)板,拇指大小
聊到最后,我問他信不信 AGI,他說他不信,或者說他不認為 transformer 能在 10 年內達到那個水平
「它只是知道得多。不是因為它真的比你聰明」
在他的眼中,風吹在臉上的感覺,房間里的濕度...這些東西怎么壓成 token?他讀博的時候研究的就是怎么壓模型。壓了幾年,覺得離人太遠了,輟學,現(xiàn)在他不壓模型了。壓的是調用模型的那個 for 循環(huán)
然后它就跑在了5美元的芯片上
就有了 MimiClaw
![]()
github.com/memovai/mimiclaw
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.