網易首頁 > 網易號 > 正文申請入駐

NASA望遠鏡藏了1萬顆行星沒人發(fā)現(xiàn)

2026-04-27 19:36:23　來源: 摸魚算法

北京舉報

分享至

「TESS數據里還藏著幾千顆行星，只是沒人去搜。」普林斯頓大學的Joshua Roth這句話，暴露了天文觀測領域一個尷尬現(xiàn)實：我們手里攥著海量數據，卻還在用老辦法挖金子。

一次"考古"挖出的行星寶庫

Roth團隊重新分析了TESS望遠鏡2018年發(fā)射后第一年的觀測數據。不是新發(fā)射衛(wèi)星，不是升級硬件，純粹是換了個分析方法——把望遠鏡拍攝的圖像疊加組合，讓原本看不清的暗弱恒星顯現(xiàn)出來。

結果驚人：11,554顆候選行星，其中10,091顆是此前任何搜索都沒發(fā)現(xiàn)過的。這些行星最遠跑到距地球6,800光年的銀河系中心方向，直接把TESS的探測距離翻了一倍。

TESS的設計原理并不復雜。它盯著滿天恒星，捕捉亮度驟降的瞬間——那意味著有行星從恒星前方掠過，擋住了部分光線。這種"凌日法"是系外行星探測的主流手段，但有個前提：你得先看清那顆恒星。

之前的分析只盯著亮星，暗星被自動過濾掉了。Roth團隊的做法相當于把曝光時間虛擬延長，讓暗星的信號累積到可識別程度。技術上沒突破，思路上打了個補丁。

90%是"熱木星"，這本身就是問題

新發(fā)現(xiàn)的行星里，超過90%是"熱木星"——氣態(tài)巨行星，貼著恒星狂飆，公轉周期只有幾天。這類行星在TESS的視野里特別顯眼：個頭大，擋光多；軌道近，凌日頻率高。

但熱木星在真實宇宙中可能并不常見。它們更容易被發(fā)現(xiàn)，不代表數量真的占優(yōu)。這好比在路燈下找鑰匙，找著的地方亮，不代表鑰匙就掉在那兒。

剩下少量是海王星和"超級地球"——比地球大、比海王星小的巖石或冰質行星。這類天體才是搜尋地外生命的重點，但在TESS的數據里占比可憐。

更扎心的是假陽性問題。Roth直言：TESS的候選行星通常有50%是假的。雙星系統(tǒng)、儀器噪聲、數據 glitch，都能偽裝成行星凌日的信號。按他的估計，這1萬多顆里最多5,000顆是真行星，可能只有3,000顆。

即便如此，3,000顆新行星也能讓全人類已確認的系外行星總數（目前6,000多顆）暴漲一半。NASA系外行星科學研究所首席科學家Jessie Christiansen的表態(tài)很直白：「我想要盡可能多的系外行星，這樣才能開始分類切割——它們有什么不同？不同類型的木星在不同恒星環(huán)境下怎么形成？」

數據金礦與挖掘工具的錯配

TESS迄今確認了750多顆行星，候選名單卻積壓著數千顆。這次"考古"證明，積壓的數據里還有數量級更大的漏網之魚。問題不是數據不夠，是分析方法沒跟上。

天文學正在經歷從"觀測稀缺"到"分析瓶頸"的轉型。TESS每27天掃描一片天空，兩年完成全天覆蓋，數據洪流持續(xù)涌入。但確認一顆行星需要地面望遠鏡跟進觀測，資源有限，排隊嚴重。

Roth的圖像疊加技術，本質是用計算資源替代觀測資源。既然地面望遠鏡不夠用，那就先從數據里篩出更可靠的候選，減少無效跟進。這是典型的"用算法換望遠鏡時間"策略。

但算法也有偏見。熱木星的發(fā)現(xiàn)效率被放大，小質量行星被壓制。TESS的設計初衷是"全天普查"，實際產出卻是"熱木星特供"。這不是故障，是物理規(guī)律決定的觀測選擇效應——大目標優(yōu)先被看見，小目標需要更長時間、更復雜的方法。

Christiansen想要的"分類切割"，前提是樣本足夠多樣、偏差足夠可控。現(xiàn)在的情況是：我們有一堆熱木星，對它們知根知底；對真正可能宜居的巖石行星，反而樣本稀少、統(tǒng)計乏力。

確認率50%：一個行業(yè)的效率黑洞

50%的假陽性率聽起來很糟，放在系外行星領域卻是常態(tài)。開普勒望遠鏡的候選行星確認率也差不多這個水平。這不是技術失敗，是科學嚴謹性的代價——寧可錯放一千，不可誤認一顆。

但代價確實沉重。每顆候選行星都需要獨立驗證，通常用徑向速度法：測量恒星因行星引力牽引產生的微小擺動。這種方法對熱木星有效，對小質量行星靈敏度驟降。TESS發(fā)現(xiàn)的海量候選，很多注定無法被現(xiàn)有技術確認，只能永遠停留在"候選"狀態(tài)。

Roth估計最終可能只有3,000顆成真，意味著8,000多顆候選將被放棄或無限期擱置。這些"數據尸體"占用存儲、消耗算力、稀釋注意力，卻產出不了科學價值。

更深層的問題是：我們到底在找什么？如果目標是"盡可能多地發(fā)現(xiàn)行星"，TESS的數據挖掘還有巨大空間，Roth的方法可以推廣到后續(xù)年份的數據，行星數量還能再漲。但如果目標是"理解行星系統(tǒng)的多樣性"，熱木星的邊際價值正在遞減——我們已經知道它們很常見，知道它們很難宜居，知道它們的形成機制有幾種可能。

系外行星科學正在從"發(fā)現(xiàn)驅動"轉向"表征驅動"。下一代任務（如詹姆斯·韋伯太空望遠鏡）的重點不是找更多行星，是分析已知行星的大氣成分，尋找生命跡象。TESS的角色也在調整：從"行星獵手"變成"目標篩選器"，為韋伯等望遠鏡提供候選清單。

但篩選器的質量取決于輸入數據的處理方式。Roth的圖像疊加技術，能把探測距離推到6,800光年，卻也把更多遙遠、暗淡、難以跟進的候選塞進隊列。這些目標對韋伯來說可能過于暗弱，最終淪為"無法驗證"的統(tǒng)計數字。

算法考古學：一種新研究范式？

重新分析舊數據挖出新發(fā)現(xiàn)，在天文學不算新鮮事。但TESS案例的特殊性在于：數據發(fā)布才幾年，"考古"就挖出數量級躍升的成果。這說明原始數據的處理流程存在系統(tǒng)性盲區(qū)，不是隨機遺漏，是方法論層面的結構性偏差。

Roth團隊的核心改動是"疊加圖像"——把同一區(qū)域的多次曝光合并，提高信噪比。這聽起來像攝影里的堆棧技術，但在天文數據流水線里需要重新設計整套處理流程：對齊、去噪、測光、變源檢測，每個環(huán)節(jié)都要適配低信噪比場景。

更關鍵的是，這種分析是計算密集型的。TESS第一年數據包含數億顆恒星的時序測光，疊加處理需要大規(guī)模并行計算。幾年前，這種分析在成本和時間上都不劃算；現(xiàn)在，云計算和GPU普及讓"重挖舊礦"變得可行。

這指向一個趨勢：天文數據的"半衰期"在延長。過去，數據發(fā)布幾年后科學價值就大幅衰減；現(xiàn)在，算法進步可以讓老數據持續(xù)產出新成果。TESS的設計壽命兩年，已經超期服役，但數據挖掘的潛力可能再撐十年。

對科研資源分配來說，這是挑戰(zhàn)也是機遇。挑戰(zhàn)在于：數據存儲和歸檔的成本上升，"處理完就扔"的模式不再適用。機遇在于：小規(guī)模團隊可以用算法創(chuàng)新撬動大科學成果，不必排隊申請望遠鏡時間。

Roth的團隊規(guī)模不大，成果卻蓋過了許多大型巡天項目。這種"輕資產"研究模式，在數據密集型科學時代越來越常見。但前提是你得有算法能力、有計算資源、有對數據盲區(qū)的敏銳嗅覺。

行星科學的樣本困境

回到Christiansen的"切片切割"訴求。她想要足夠多的行星樣本，支撐統(tǒng)計分析和分類比較。但樣本的質量比數量更重要，而TESS的樣本存在嚴重選擇偏差。

熱木星占90%以上，不是因為宇宙里熱木星占90%，是因為TESS的探測方法對熱木星敏感度最高。這種偏差在統(tǒng)計上可修正，但修正本身引入不確定性。更糟糕的是，我們對"熱木星之外"的行星了解太少，修正模型缺乏獨立驗證。

系外行星的"周期-半徑分布"——不同大小、不同軌道距離的行星各有多少——是行星形成理論的核心約束。但觀測選擇效應讓這個分布的重建充滿陷阱。TESS的新樣本主要填充"短周期、大半徑"區(qū)域，對"長周期、小半徑"區(qū)域幫助有限，而后者才是類地行星和宜居帶的所在。

Roth的方法能把探測距離翻倍，但距離本身也是偏差來源。越遠的恒星越暗，能探測到的行星越大。6,800光年處的熱木星和100光年處的熱木星，物理性質可能相似，但后續(xù)研究的可行性天差地別。韋伯望遠鏡的時間寶貴，不會浪費在過于遙遠的目標上。

所以這些新發(fā)現(xiàn)的"科學價值"是分層級的：少數近距、亮星、小質量候選是黃金目標；多數遠距、暗星、大質量候選是統(tǒng)計填充物。Roth的1萬顆行星里，黃金目標占比可能極低，但這不妨礙它們作為"行星普查"的拼圖塊存在。

從"找行星"到"用行星"

TESS的使命正在演變。發(fā)射時的定位是"發(fā)現(xiàn)機器"，現(xiàn)在更像"目錄編制者"。它的價值不在于單顆行星的突破性發(fā)現(xiàn)，而在于系統(tǒng)性覆蓋——告訴天文學家"這片天區(qū)有哪些可能性"，供后續(xù)任務挑選。

這種角色轉換反映了系外行星科學的成熟。2010年前，每顆新行星都是新聞；現(xiàn)在，批量發(fā)現(xiàn)是常態(tài)，個體特征才是焦點。TESS的750顆確認行星里，有幾顆進入了韋伯的觀測清單，大氣光譜正在揭示它們的溫度和成分。

但"目錄編制"的效率瓶頸日益凸顯。確認流程跟不上發(fā)現(xiàn)速度，候選名單越積越長。Roth的"考古"成果加劇了這種失衡：1萬顆新候選加入隊列，地面望遠鏡的跟進能力卻沒有同比增長。

解決方案可能是分層篩選：用算法預測候選的"真實概率"，優(yōu)先跟進高概率目標。Roth的50%假陽性率估計，本身就是這種概率思維的體現(xiàn)。但預測模型需要訓練數據，而訓練數據恰恰來自已確認的行星——樣本偏差再次嵌入算法。

另一種思路是接受"高候選量、低確認率"的現(xiàn)狀，把TESS的輸出當作"可能性空間"而非"發(fā)現(xiàn)清單"。天文學家可以在這個空間里做統(tǒng)計推斷，不必等待個體確認。但這需要方法論創(chuàng)新，也需要同行評審標準的調整。

數據民主化的另一面

TESS數據是公開的，任何人都可以下載分析。Roth的成果證明，這種開放政策能釋放未被官方流水線捕捉的價值。普林斯頓團隊沒有專屬望遠鏡時間，靠算法創(chuàng)新就搶到了大發(fā)現(xiàn)。

但"數據民主化"也有代價。官方團隊（NASA戈達德航天中心）維護的標準流水線，追求穩(wěn)健和可重復，更新謹慎。民間團隊可以激進實驗，但也可能引入難以復現(xiàn)的處理偏差。Roth的圖像疊加方法，如果參數選擇不同，產出清單會有差異，哪種更"正確"？

系外行星的確認最終需要獨立觀測，這在一定程度上緩解了方法分歧——假的真不了。但候選清單的質量直接影響后續(xù)資源分配，錯誤的優(yōu)先級排序會浪費寶貴的望遠鏡時間。Roth估計最多5,000顆成真，這個判斷本身也是一種資源分配：暗示官方不必為所有候選等量投入。

在數據泛濫的時代，"發(fā)現(xiàn)"的定義在模糊。找到信號是發(fā)現(xiàn)，從噪聲里重建信號也是發(fā)現(xiàn)，用新算法重新詮釋舊數據同樣是發(fā)現(xiàn)。TESS的1萬顆行星，屬于最后一種：它們一直"存在"于數據里，只是之前看不見。

這種"發(fā)現(xiàn)"的歸屬權也有爭議。如果官方團隊遲早會用類似方法處理完全部數據，民間團隊的"搶先"是貢獻了新知識，還是僅僅加速了時間線？學術界的獎勵機制更認可"首次發(fā)現(xiàn)"，但"首次用X方法處理Y數據"的邊界越來越模糊。

當算法成為望遠鏡的延伸，誰該被記功——寫代碼的人，還是造望遠鏡的人，還是公開數據的人？TESS的案例沒有給出答案，但提出了問題。

下一步：從候選到認知

Roth團隊計劃把方法推廣到TESS后續(xù)年份的數據。如果第一年就能挖出1萬顆，四年全周期可能再貢獻數萬候選。系外行星的總候選數將逼近十萬量級，確認行星數可能突破一萬。

但數字增長本身不等于科學進步。Christiansen的"切片切割"需要的不只是數量，是多樣性、是可控偏差、是可追溯的物理參數。TESS的熱木星泛濫，某種程度上是方法成功的副作用——它太擅長找這類目標了。

真正的突破可能來自方法互補。TESS擅長短周期行星，其他技術（如微引力透鏡、直接成像）覆蓋不同參數空間。把多種方法的樣本拼接，才能拼湊出行星分布的完整圖景。但拼接需要統(tǒng)計模型，模型需要假設，假設需要驗證——循環(huán)往復。

韋伯望遠鏡正在改變游戲規(guī)則。它的中紅外儀器可以分析行星大氣，把"點"變成"球"，把"軌道參數"擴展為"氣候特征"。但韋伯的視場極小，需要TESS這類巡天任務提供目標清單。兩者的配合，是下一代系外行星科學的主軸。

Roth的1萬顆行星，有多少能進入韋伯的觀測計劃？距離、亮度、科學價值三重篩選后，可能只剩幾十顆。但這幾十顆的代表性，取決于候選清單的完整性和無偏性——恰恰是當前方法最薄弱的地方。

系外行星科學正在經歷從"發(fā)現(xiàn)時代"到"表征時代"的轉型。TESS的數據挖掘，是發(fā)現(xiàn)時代的尾聲狂歡，還是表征時代的奠基工程？答案取決于我們如何處理這些候選：是急于確認、急于發(fā)表，還是耐心構建統(tǒng)計框架、等待方法成熟？

Roth的估計很克制：最多5,000顆成真，可能只有3,000顆。這個范圍本身反映了不確定性——不是測量誤差，是方法局限和選擇效應的綜合體現(xiàn)。在系外行星領域，承認不知道什么，和知道什么同樣重要。

當算法能讓我們"看見"之前看不見的數據，我們如何確保看見的不是幻覺？當候選數量遠超確認能力，我們如何決定相信哪些、放棄哪些？TESS的1萬顆行星，既是技術進步的里程碑，也是方法論困境的警示牌——數據越多，篩選越難，偏見越深。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.