Gemini 3 發布之后這些日子里,我逐漸感到疑惑:為什么總讓 AI 寫網站寫 PPT,Gemini 都發到第三代了,不能干點更有意思的事嗎?
要那種科幻感強的、效果酷炫的、難度系數高的,但小白也能做的。比如這種:

或者這種:

Gemini:手勢交互?沒問題,包的。
在開始之前,先準備好 Gemini 3,這里是一點點的注意事項
目前有三種方式開啟玩耍:Gemini 客戶端 Canvas 模式、Google AI studio-Playground 和 Google AI studio-Build。
其中,最不推薦的是客戶端,親測無法有效拉起攝像頭,并且,下面都是手勢互動項目,舉著手機,手自然也是沒法做操控的。
![]()
后兩者中,Build 是直接形成一個 app,你可以分享給其它朋友,缺點是 tokens 有限。而 Playground 會生成一套代碼,需要下載到本地再打開,一旦換個電腦就可能運行不了,但優點是幾乎沒有 tokens 限制,每天一百萬,量大管飽。
![]()
考慮到交互項目比較消耗 tokens,所以 Playground 更為合適,個別小項目用 Build 也可以,這就看個人情況而定。
Jarvis
Jarvis HUD 面板是在推上超過二十萬次瀏覽的熱門爆款,手勢操控儀表球,就像鋼鐵俠操控 Jarvis 那樣,酷斃了。

參考 prompt 如下:
create a webapp using vanilla js, html, css, modern threejs, mediapipe. it should be a sci-fi tony stark / iron man / jarvis experience focused on simulating an AR heads up display experience. full screen webcam input shown. add a heads up display that tracks the user's head (offset to the right), with live updating metrics. a minimal 3D world globe should be shown on the left center of the screen, that should be able to be rotated / sized by the user hand gestures
在 Build 模式下,親測完全可以實現一次成型,Gemini 會自動安排任務、編寫代碼,調用不同的接口,進度條顯示完成后,點擊 Preview 就能直接打開——記得放行攝像頭權限。

Gemini 3 自己就把效果設計安排得明明白白:左手是放大縮小,右邊是轉動,雙手進入攝像頭范圍后會顯示觸控點——這些都是 prompt 里沒有的,都是它自己的「想」出來的。
搭配大屏幕或者投影,真的很有 Jarvis 既視感。
左邊的地球建模和右邊的面板的內容都是可以改變的,最初 Gemini 3 讓右邊的面板顯示人體體溫(顯然是憑空編的),后來被我改成了實時顯示左側地球模型的直徑。反正就是 vibe 一下,想怎么改怎么改。
雨滴控制
Jarvis 都有了,驚天魔盜團不也得安排上。

《驚天魔盜團 2》里的控雨術堪稱名場面,九年前全靠電影特效,但現在,有 Gemini 3 了。參考 prompt 如下:
用 HTML+JS+ML 模型做個網頁應用,通過攝像頭檢測手勢,實現用手勢來控制雨滴動畫的暫停、靜止和升格效果。動畫效果保持在雨滴垂直方向,風格參考電影《驚天魔盜團》
這個 prompt 的第一輪表述完全是按照我看電影之后的想法寫的,每個細節都可以通過 vibe coding 再調節。根據第一輪 prompt,Gemini 會加入它自己的設計,比如這具體的手勢就是它想出來的。

雖然是用 AI 做的,但是在識別手勢動作時非常靈敏,包括不同手勢之間的切換都能夠快速響應。
3D 粒子
控制雨滴曾經是非常復雜的特效技術,就在《驚天魔盜團 2》上映之后,有一個飲料公司做了一支廣告,通過控制雨滴,實現靜態的粒子效果。

那么參考「控雨術」,Gemini 完全可以實現上面這種結合實拍和速度控制才能出現的效果,最接近的就是 3D 粒子。所以我又做了一個 3D 粒子效果的交互案例。

非常酷炫!prompt 參考如下:
用 Three.js 創建一個實時交互的 3D 粒子系統。通過攝像頭檢測雙手張合控制粒子群的縮放與擴散,提供 UI 面板可選擇愛心/花朵/土星/佛像/煙花等模型,支持顏色選擇器調整粒子顏色,粒子需實時響應手勢變化。界面簡潔現代,包含全屏控制按鈕
一次成型,最后出來的交互非常絲滑,尤其是對于手勢的識別很準確又靈敏。
小技巧
涉及到顏色、布局、UI 設計等等細節,如果每次都用 vibe coding 的方式來調節,表述起來會很麻煩。并且每一次 vibe code 都存在抽卡的情況,所以有一個非常實用的技巧是:加上自定義模塊,尤其是顏色、大小等,這樣可以完全自主搭配自己喜歡的配色方案。


技能五子棋
由雨滴想到粒子,由粒子想到移動,由移動想到——五子棋!我終于可以做技能五子棋了!!
仔細想想,五子棋不也是一個手勢控制、飛來飛去的交互方式嗎!飛沙走石移動棋子,力拔山兮移動棋盤,全都安排上!

Prompt 參考如下:
做一個手勢互動小游戲「技能五子棋」:主頁面為五子棋棋盤,默認已經擺放好棋子。當用戶做出「單手甩手」的動作時,棋子會跟隨甩動的方向飛出棋盤。當用戶做出「雙手甩動」的動作時,棋盤會跟隨甩動方向飛動
Gemini 自己完成了物理邏輯和手勢之間的銜接,我的 prompt 只需要描述效果,而具體的速度向量計算、檢測閾值,都不用我管。
它甚至還重新命名了「技能」:萬象天引。
![]()
這叫飛沙走石啊 Gemini 老師!
節奏音樂游戲
綜合上面的幾個嘗試,Gemini 的毋庸置疑,而且回想一下這些技能樹:手勢識別、色彩變化,這些組合起來,不就是小游戲嗎?
于是我嘗試了更復雜一點的項目:節奏游戲。
音游玩過很多了,但是零經驗小白真要做一個游戲、怎么給 Gemini 形容我想達到的效果,還真是花了一點腦筋 ,后來第一版 prompt 如下:
做一個用手勢操控的音樂游戲,主界面為四條音軌,用戶上傳音樂文件后,四條音軌上按節拍出現光點,用戶需要用手勢準確拍擊出現的光點,背景為復古合成波(Synthwave)風格,背景、音軌和光點的顏色可以自定義調節
這基本上是我能想到的雛形,根據第一版 prompt,Gemini 選擇了 Pygame 作為游戲引擎,繼續使用 MediaPipe 做手勢追蹤,并且加入了 Librosa 用來分析音樂。
![]()
選擇復古合成波風格是因為它有明確的視覺標志——Gemini 也識別出來了——落日、霓虹漸變色、網格和駛向地平線的道路,非常適合節奏音游。
果然做游戲比前面的一些小交互復雜多了……先是只能識別一只手,得調整;然后是無法上傳音樂,得調整;到了第三版才稍稍有點樣子
![]()
但是在體驗過中我發現一個比較 bug 的地方:判定線的位置離屏幕邊緣太近了,而攝像頭的識別范圍是有限的,我的手稍微放低一點就無法被識別。
一開始我嘗試的方法是,把判定線移動到屏幕居中位置,保證我的手始終能在攝像頭捕捉范圍內。
![]()
但是又出來一個問題: 光點出口和判定線之間的距離過短,留給我的反應時間也很短 ,更別提點擊動作還有一點點點的延遲,整個可玩性大大下降。可是放太低就還是會出現手掉出識別范圍的情況。
一時之間我還真想不到這個矛盾該怎么辦,于是,我直接去問了 Gemini 能怎么解決。
![]()
它直接指出了這個問題的癥結所在,并且提出了「視覺欺騙」的方式來優化體驗,并且加了一個自定義滑塊來調節偏移,這樣一來無論手在什么位置,都可以通過調節滑塊來對齊判定線。
天才。
后來我還指出,感覺光點的出現跟節奏不太一致,為了解決這個問題,Gemini 又加了一個滑塊用來調節延遲。雖然我仍然認為它并沒有很好地分析節奏型,但是這個滑塊的設計還是很有效,尤其是解決了戴著藍牙耳機導致的延遲。
![]()
小技巧
本質上,只要有 prompt 就有抽卡的情況存在,但抽卡未必就不好。當碰到非常硬傷的 bug,比如始終無法調用攝像頭、無法上傳文件等等,vibe coding 時反復修改也沒效果,不如就直接「新建項目」。
核心功能反映在代碼上時,彼此之間有所牽連,重新跑一遍,讓 AI 整體性地補足,遠比一點點 vibe coding 要更有效率。當然,能看懂代碼就會更有效率,可以針對性地解決。 只不過,對于完全的零碼選手來說,還不如直接重新抽卡。
![]()
在 AI 之前,做手勢交互的應用,得先學點兒 Touch Designer,最好還懂點兒部署。這些都得一點點翻教程,反復研究,在這個過程中搞不好就被勸退了。
有了 AI 之后有多簡單,自然不用多說。更關鍵的是,手勢交互原本的門檻遠比生圖、做 PPT 要更復雜,卻又能讓小白零碼選手快速領略到做應用的樂趣。
唯一留下的,是對審美的挑戰。在這些案例里能看到,Gemini 有點審美,但不多,設計、配色等等都是差強人意。代碼的「硬」技能它可以掌握,留給我們的,就是對于審美的挑戰。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.