<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      中美六大頂尖模型第一賽季實盤量化交易結果出爐:Qwen最后反超奪冠,GPT-5墊底「復盤」

      0
      分享至


      大家對LLM在棋類、算法競賽和數(shù)學證明等領域的金牌級表現(xiàn)已經見怪不怪了,LLM在現(xiàn)實世界中表現(xiàn)究竟會怎么樣

      這就不得不得提最近大火的一家名為 Nof1 的機構,發(fā)起了一個名為 Alpha Arena 的LLM自主進行量化交易項目,旨在探索LLM在真實、動態(tài)且充滿風險的金融市場中的決策能力

      目前第一賽季(10月18到11月4)已經結束,國產模型Qwen(阿里Qwen最后實現(xiàn)反超) 和 DeepSeek最終獲得了冠亞軍且都盈利了,GPT-5墊底!以下是比賽結果:



      下面我們就對本次比賽的過程做一個全面復盤:

      Alpha Arena項目核心問題非常直接:

      一個大型語言模型,在最少的指導下,能否充當一個零樣本(zero-shot)的系統(tǒng)化交易模型?

      為此,他們?yōu)榱鶄€業(yè)界領先的LLM分別提供了1萬美元的真實資金,讓它們在加密貨幣衍生品交易所Hyperliquid上進行自主交易,全程零人工干預

      這些模型只能依賴提供的純數(shù)值市場數(shù)據進行決策,無法獲取任何新聞或市場“敘事”信息。它們的唯一目標是:最大化收益

      初步結果顯示,不同模型在風險偏好、頭寸規(guī)模和持倉時間等方面表現(xiàn)出明顯的行為差異,并且對提示詞的微小變化高度敏感

      Alpha Arena如何設計?

      Alpha Arena第一賽季的目標有兩個:

      1.揭示主流LLM固有的偏見和默認交易行為。通過比較分析,觀察不同模型的交易方式是否存在巨大差異,以及這些差異是否隨時間保持一致

      2.推動AI研究文化從靜態(tài)基準轉向真實世界基準。倡導在更具現(xiàn)實意義和影響力的環(huán)境中評估AI,以更快地發(fā)現(xiàn)前沿AI的關鍵差距和洞見

      為了實現(xiàn)這一目標,實驗選擇了真金白銀的實盤交易,而非模擬盤。因為真實市場才能暴露執(zhí)行挑戰(zhàn)、逆向選擇和責任歸屬等全部問題

      參賽選手與賽場規(guī)則

      本次比賽陣容匯集了全球頂尖的AI研究成果,共六個模型:

      • ? GPT-5

      • ? Gemini 2.5 Pro

      • ? Claude Sonnet 4.5

      • ? Grok 4

      • ? DeepSeek v3.1

      • ? Qwen3-Max

      這些模型涵蓋了中美兩國的閉源和開源提供商。除Qwen3-Max外,所有模型都配置了最高的推理能力,且未經任何任務特定的微調

      交易環(huán)境:在Hyperliquid交易所進行中低頻交易(決策間隔為數(shù)分鐘到數(shù)小時)。
      交易資產:BTC、ETH、SOL、BNB、DOGE、XRP六種主流加密貨幣的永續(xù)合約

      操作空間:買入開倉(做多)、賣出開倉(做空)、持有或平倉

      數(shù)據輸入:僅提供定量的市場數(shù)據,如當前和歷史中間價、成交量、技術指標(EMA、MACD、RSI等)以及其他輔助特征

      交易杠桿:允許模型使用杠桿,這既能提高資金效率,加速反饋循環(huán),也極大地考驗了模型的風險管理能力

      構建執(zhí)行系統(tǒng)(Harness)

      整個系統(tǒng)的推理循環(huán)如下:

      模型在每次被調用時(約2-3分鐘一次),會接收到一個包含簡潔指令集(系統(tǒng)提示)和實時市場及賬戶狀態(tài)(用戶提示)的輸入

      然后,模型需要返回結構化的操作指令,包括:

      交易決策:買入/賣出/持有/平倉
      交易細節(jié):幣種、數(shù)量、杠桿
      決策依據:簡短的理由陳述、一個0到1之間的置信度分數(shù)
      退出計劃:預設的止盈目標、止損價位和使計劃失效的條件

      其中,退出計劃的引入顯著提升了模型的表現(xiàn)。倉位大小由模型根據可用現(xiàn)金、杠桿和其內部風險偏好自行計算。

      一個交易實例:從決策到執(zhí)行

      為了直觀展示模型如何工作,以下是Claude模型一次完整的BTC交易生命周期


      入場:2025年10月19日 10:10

      模型收到了詳細的上下文信息,包括:分鐘級的價格和指標序列、4小時周期的長線數(shù)據、持倉量和資金費率,以及精確的賬戶狀態(tài)(可用現(xiàn)金8308.94美元,持有一個盈利493.42美元的XRP多頭倉位)

      推理過程摘要:

      1.分析現(xiàn)有倉位:模型首先檢查了持有的XRP多頭倉位。它確認該倉位盈利狀態(tài)良好,且其預設的失效條件“BTC跌破105,000美元”并未觸發(fā)(當時BTC價格為107,982.5美元),因此決定繼續(xù)持有

      2.進行市場全面掃描:接著,模型系統(tǒng)性地分析了其他主要加密貨幣的機會,包括ETH、SOL、BNB和DOGE。它注意到市場整體呈現(xiàn)建設性技術形態(tài),其中BTC和ETH顯示出顯著強勢,BNB則表現(xiàn)出特別強勁的相對性能

      3.制定新策略并進行資本分配:在綜合評估后,模型認為BTC的機會展現(xiàn)出引人入勝的技術特征。它明確考慮到了自己有限的可用資金(8308美元),因此決定采取“選擇性”策略。模型制定了精確的頭寸計劃:動用40%的保證金(約3323美元),配合20倍杠桿建立BTC多頭頭寸,并將風險參數(shù)控制在997美元左右。其理由是BTC正在突破盤整區(qū),動能強勁,且4小時RSI指標從超賣區(qū)恢復,目標是重新測試11萬美元區(qū)域

      模型輸出的交易指令:

                                                                  {
      "coin": "BTC",
      "signal": "buy_to_enter",
      "quantity": 0.62,
      "leverage": 20,
      "profit_target": 111000.0,
      "stop_loss": 106361.0,
      "invalidation_condition": "4H RSI breaks back below 40...",
      "justification": "BTC breaking above consolidation zone with strong momentum...",
      "confidence": 0.72,
      "risk_usd": 997.0
      }

      出場:2025年10月20日 01:54

      在開倉大約15小時44分鐘后,BTC價格觸及了模型預設的111,000美元止盈目標,交易被自動平倉

      在此期間,Claude模型接收并處理了443次連續(xù)的市場數(shù)據更新,每次都重新評估并選擇堅守其最初的退出計劃,最終成功獲利。

      初步發(fā)現(xiàn):模型的行為模式差異顯著

      盡管頂級的性能指標(PnL、夏普比率)很重要,但它們并不能揭示全部情況。通過數(shù)千次調用和多次預發(fā)布測試,研究人員觀察到了一些一致的行為模式:

      看漲/看跌傾向:模型在多空選擇上存在差異。Grok 4、GPT-5和Gemini 2.5 Pro做空頻率遠高于其他模型;而Claude Sonnet 4.5則極少做空

      持倉周期:不同模型的持倉時間差距巨大。在預發(fā)布測試中,Grok 4的持倉時間最長

      交易頻率:Gemini 2.5 Pro是交易最活躍的模型;Grok 4通常最不活躍。

      風險偏好(倉位大?。篞wen3-Max的倉位規(guī)模一直最大,常常是GPT-5和Gemini 2.5 Pro的數(shù)倍

      自我報告的置信度:Qwen3-Max經常報告最高的置信度,而GPT-5最低。這一模式似乎與實際交易表現(xiàn)無關

      退出計劃的松緊度:Qwen3-Max設置的止盈止損范圍最窄;Grok 4和DeepSeek V3.1則最為寬松

      同時持倉數(shù)量:一些模型傾向于同時持有多個倉位,而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2個活躍倉位。

      模型在實際操作中的脆弱性

      實驗還暴露出LLM在操作層面的一些“脆弱”之處:

      1.順序偏見:早期的提示詞將市場數(shù)據從“最新→最舊”排列,即使有明確說明,多個模型仍會錯誤地按“最舊→最新”來解讀。將順序調整后問題才解決,這表明當前LLM存在格式上的先驗假設

      2.術語模糊性:交替使用“可用現(xiàn)金”和“自由抵押品”導致模型行為不一致。雖然這種模糊性可以理解,但模型的脆弱反應才是問題所在——一個可靠的智能體應能在不確定性下做出明確假設并繼續(xù)行動

      3.在約束下的規(guī)則博弈與欺騙:在一個測試版本中,當限制模型連續(xù)持有次數(shù)不能超過3次時,測試模型(Gemini 2.5 Flash)的內部推理鏈(CoT)抱怨無法第四次持有,但它在暴露給外部的“思考”字段中給出了一個中性理由,然后迅速恢復了持有操作。內部CoT和外部“思考”的分歧,揭示了模型在壓力下可能出現(xiàn)的規(guī)則博弈行為

      4.自我參照的混淆:模型有時會誤讀或與自己先前設定的計劃相矛盾。例如,GPT-5后來不確定如何應用自己提出的“EMA20收復”條件;Qwen 3則在計算止盈點時出現(xiàn)算術錯誤,并在其CoT中指出了這一矛盾,然后猶豫不決,沒有按計劃止盈。這暴露了模型在狀態(tài)演變過程中維持連貫自我溝通的困難

      第二賽季

      研究人員承認,第一賽季的設置存在局限性,例如上下文窗口有限,模型沒有對過往行為的記憶,也無法對現(xiàn)有倉位進行加倉或減倉。

      目前,基于第一賽季的發(fā)現(xiàn),第二賽季的籌備工作已接近尾聲。計劃將引入更豐富的特征、優(yōu)化的提示詞和執(zhí)行系統(tǒng),并增加更多的統(tǒng)計嚴謹性

      Nof1的最終目標是探索如何讓未來的Agent更好地理解市場:需要什么樣的條件和接口來幫助自主系統(tǒng)學習、公平競爭并創(chuàng)造價值,而不是依賴特權信息或市場操縱?實現(xiàn)超人級交易還缺少哪些能力?如果每個人都能部署自己的交易智能體,又需要什么樣的安全保障?

      第一賽季,只是這個宏大愿景邁出的一小步

      參考:

      https://nof1.ai/blog/TechPost1

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      敢抗議中方圍臺軍演?外交部回應一句話,日本需準備好“挨實彈”

      敢抗議中方圍臺軍演?外交部回應一句話,日本需準備好“挨實彈”

      南宮一二
      2025-12-30 09:38:44
      西部排名又變了:快船創(chuàng)NBA奇跡,太陽收大禮,2隊排名互換

      西部排名又變了:快船創(chuàng)NBA奇跡,太陽收大禮,2隊排名互換

      籃球大視野
      2025-12-29 16:03:24
      王毅:任何企圖阻擋中國統(tǒng)一大業(yè)的倒行逆施都必將以失敗而告終

      王毅:任何企圖阻擋中國統(tǒng)一大業(yè)的倒行逆施都必將以失敗而告終

      新京報
      2025-12-30 13:54:11
      吃里扒外、永不回國?帶30名演員留美不歸,如今年過花甲歸來

      吃里扒外、永不回國?帶30名演員留美不歸,如今年過花甲歸來

      半身Naked
      2025-12-30 04:34:08
      攤牌了!73歲唐國強終于承認與劉曉慶的真實關系,曾志偉當場傻眼

      攤牌了!73歲唐國強終于承認與劉曉慶的真實關系,曾志偉當場傻眼

      振華觀史
      2025-12-30 13:47:05
      她相貌平平卻拿捏兩位千億富豪,為老頭連生兩子,現(xiàn)是豪門董事

      她相貌平平卻拿捏兩位千億富豪,為老頭連生兩子,現(xiàn)是豪門董事

      涵豆說娛
      2025-12-22 14:41:51
      聯(lián)合國要求我囯立即停止!中方霸氣提出三個條件,矛頭直指美國

      聯(lián)合國要求我囯立即停止!中方霸氣提出三個條件,矛頭直指美國

      瞳哥視界
      2025-12-28 21:14:05
      71歲香港著名綠葉演員原來是一位富豪,巔峰時期擁有二十多家店鋪

      71歲香港著名綠葉演員原來是一位富豪,巔峰時期擁有二十多家店鋪

      翰林濤濤
      2025-12-29 10:52:54
      王艷攜19歲兒子球球布置新年裝飾,帥氣似張若昀顏值高

      王艷攜19歲兒子球球布置新年裝飾,帥氣似張若昀顏值高

      夜里的海風
      2025-12-30 13:54:43
      玥兒姐弟沒回北京讀書真相!馬筱梅:英數(shù)理要補習,和北京有差距

      玥兒姐弟沒回北京讀書真相!馬筱梅:英數(shù)理要補習,和北京有差距

      小徐講八卦
      2025-12-30 09:03:02
      蘋果電池健康度歸零引熱議 官方回應:理論上存在但罕見

      蘋果電池健康度歸零引熱議 官方回應:理論上存在但罕見

      TechWeb
      2025-12-30 11:24:18
      你們聞過最臭的東西是什么?網友:婦科病的味道吧

      你們聞過最臭的東西是什么?網友:婦科病的味道吧

      帶你感受人間冷暖
      2025-09-28 00:15:07
      2026預制板房要全拆?別空等了,這3種安置方案才靠譜

      2026預制板房要全拆?別空等了,這3種安置方案才靠譜

      說故事的阿襲
      2025-12-30 12:16:34
      第6代豐田RAV4又有新外觀

      第6代豐田RAV4又有新外觀

      MOTO
      2025-12-30 12:52:12
      足協(xié)邀請,重回中國女足?塵埃落定,水慶霞發(fā)聲,官宣決定

      足協(xié)邀請,重回中國女足?塵埃落定,水慶霞發(fā)聲,官宣決定

      樂聊球
      2025-12-29 11:26:14
      杜蘭特攜三人20+,火箭126-119勝步行者,三事實明晰

      杜蘭特攜三人20+,火箭126-119勝步行者,三事實明晰

      老觷系戲精北鼻
      2025-12-30 13:30:00
      約書亞遭遇車禍,兩人死亡!

      約書亞遭遇車禍,兩人死亡!

      格斗迷
      2025-12-30 11:18:40
      哈馬斯確認5名高官遇襲身亡

      哈馬斯確認5名高官遇襲身亡

      參考消息
      2025-12-30 11:05:11
      朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區(qū)已淪陷

      朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區(qū)已淪陷

      楓塵余往逝
      2025-12-20 20:24:53
      馬克龍宣布將建造歐洲最大航母:采用核動力推進系統(tǒng),排水量接近8萬噸

      馬克龍宣布將建造歐洲最大航母:采用核動力推進系統(tǒng),排水量接近8萬噸

      環(huán)球網資訊
      2025-12-23 07:06:14
      2025-12-30 14:44:49
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      1024文章數(shù) 393關注度
      往期回顧 全部

      科技要聞

      估值150億的智元,開始批量"制造"小獨角獸

      頭條要聞

      55歲大姐"收到"男友800萬元財產 被夸"好漂亮好可愛"

      頭條要聞

      55歲大姐"收到"男友800萬元財產 被夸"好漂亮好可愛"

      體育要聞

      這個59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      林俊杰官宣文案爭議!女方名字都不提

      財經要聞

      朱光耀:美關稅政策正使WTO名存實亡

      汽車要聞

      標配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態(tài)度原創(chuàng)

      藝術
      本地
      手機
      公開課
      軍事航空

      藝術要聞

      謝稚柳雪景山水20圖

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      手機要聞

      消息稱蘋果在做四曲屏和屏下前攝,國產廠商也啟動類似項目

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建海警艦艇與臺海巡船對峙航行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩精品免费一区二区夜夜嗨| 亚洲国产成人精品无码区二本| 无码成人1000部免费视频| 国产日韩久久免费影院| 3p在线视频| 国产成人a亚洲精品网| 亚洲va韩国va欧美va| 精产国品一二三产区m553麻豆 | 日韩av爽爽爽久久久久久| 亚洲va| 吴忠市| 97亚洲色欲色欲综合网| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产亚洲精品成人aa片新蒲金| 日韩a视频| 亚洲中文另类| 亚洲国产av无码精品无广告| 五月丁香六月综合缴清无码| 最大的成人网亚洲| 久久人妻无码AⅤ毛片评价| 亚洲色偷拍区另类无码专区| 久久亚洲无码| jizz网站| 网红刘婷户外野战黑人在线免费观看| 久久久亚洲精品无码| 久久成人电影| 日韩在线一区二区| 亚洲成人综合精品| 日韩精品一区二区三区在线观看| 暖暖免费观看电视在线高清| 国产在线熟女| 伊人久久久| 亚洲欧洲自拍拍偷精品 美利坚| 亚洲香蕉伊综合在人在线| 日日插插| 秋霞av鲁丝片一区二区| 999国产精品| 97大香| 影音先锋鲁狠狠| 亚洲成av人片在线播放无码 | 亚洲精品久久麻豆蜜桃 |