PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關注,點亮星標 ??
不錯過每日前沿資訊
認知神經科學前沿文獻分享
![]()
![]()
研究背景
你是否經歷過這樣的絕望:幾個月前采集的核磁數據,現在卻死活想不起被試的編號邏輯;寫論文急需某個分析結果,翻遍了文件夾只找到一堆命名為“新建文件夾”的迷宮;好不容易翻出了數據,卻發現格式打不開,或者備份硬盤突然損壞……
在認知神經科學和心理學研究中,我們每天都在處理海量的行為數據、影像文件和問卷結果。數據管理(Research Data Management, RDM)不僅僅是整理文件,更是科研可重復性和學術規范的基石。
近日,發表在 《PLoS Computational Biology》 上的一篇新文章 “Ten simple rules for effective research data management”,為我們總結了從項目啟動到數據歸檔的10條黃金法則。無論你是剛進實驗室的本科生,還是帶領團隊的PI,這篇指南都能救你于“數據混亂”的水火之中。
![]()
核心建議
法則 1:不僅要埋頭實驗,更要抬頭看“規則”
很多同學在項目開始前,只關注實驗設計,卻忽略了適用的政策。事實上,國家、資助機構(如NSF, DFG)、專業協會甚至所在的實驗室,都可能有具體的數據政策 。因此在項目啟動階段,就去查閱資助方官網或學校科研處的要求,盡早繪制數據發布場景圖(例如:哪些數據必須公開,哪些必須保密),以匹配相關政策 。避免臨近投稿才發現數據不符合資助方的“透明度要求”或“共享規定”,那將面臨巨大的修改成本 。
法則 2:倫理與法律是“高壓線”
對于我們研究人類被試的心理學和腦科學領域,這一條是底線。必須時刻遵守倫理原則(如赫爾辛基宣言)和法律法規(如GDPR)。在數據采集前,務必通過倫理委員會(IRB)審核。
特別注意數據的去標識化(De-identification),保護被試隱私,簽署知情同意書。
法則3:構建“3-2-1”數據存儲堡壘
硬盤損壞是每個研究者的噩夢。作者強烈推薦數據備份的 “3-2-1 原則” :
3 份副本: 保留原件加上兩份備份。
2 種介質: 存放在兩種不同的存儲設備上(例如:本地電腦 + 機構網絡云盤/移動硬盤)。
1 個異地備份: 至少有一份備份不在你現在的辦公地點(防止火災、盜竊等物理災害)。
對于敏感數據,務必使用加密工具(如 Veracrypt)進行保護 。
法則4:拒絕混亂,讓文件夾結構化
良好的文件夾架構和明明習慣會使得科研事半功倍,但這往往是很多人的痛點。作者在文中提供了兩個非常實用的圖表方案:
![]()
Fig 2. Exemplary folder structure.
針對文件夾結構,不要把所有文件都堆在根目錄下。建立一個邏輯清晰的樹狀結構 :
一級目錄: 項目文件夾。
二級目錄: 管理(Admin)、評估(Evaluation)、原始數據(Original data)、報告/手稿(Reports, manuscripts)。
三級目錄(示例): 在“評估”文件夾下,再細分為代碼(Code)、衍生數據(Derived data)、結果數據(Result data)。
(注:如 Fig2 所示,統一的結構能讓你和合作者迅速定位文件 )
![]()
Fig 3. Exemplary file naming structure.
針對文件命名規范,文件名應包含“上下文”和“標準元素”
上下文: 項目名(Project)+ 類型(Type)+ 部分(Part)。
標準元素: 貢獻者(Contributor)+ 版本(Version)+ 日期(Date)。
示例: TenR_Man_01_MJH_v01_2025-02-01.docx
(注:Fig3 示例的命名方式能讓你一眼看出文件內容,無需打開文件 )
法則5:采集數據,貴在“精準”與“克制”
數據不是越多越好,冗余的數據會帶來巨大的管理成本 。
預先規劃: 在動手前,明確你需要什么數據來回答科學問題 。
樣本量計算: 依據統計學效力(Power analysis)確定最小樣本量,不多采也不少采 。
試點研究(Pilot Study): 正式采集前跑一個小樣本,確保流程順暢,數據質量達標 。
法則6:文檔是數據的“說明書”
沒有說明和釋義的數據是毫無價值的。作者建議每一個數據文件夾中都應包含一個 Readme 文件(對應論文 Box 1),其中必須包含 :
數據的解釋;
數據的原始目的/項目歸屬;
作者/創建者;
數據創建日期/時間段;
所需的軟件或特殊說明。
對于更復雜的數據,還可以使用數據字典(Data Dictionaries)或標準化的元數據格式(如 Dublin Core)。
![]()
法則7:制定數據管理計劃 (DMP)
DMP 應在項目啟動時撰寫,并伴隨項目全周期 。作者列出了DMP必須回答的關鍵問題:
![]()
采集: 收集什么數據?怎么收集?
訪問: 項目期間誰有權訪問?
標準: 使用什么元數據標準?
共享: 怎么發布?有什么許可證(License)?
預算: 存儲和管理需要多少錢?
長期保存: 項目結束后數據存在哪?
法則 8:使用“開放”和“標準”的文件格式
為了確保你的數據在10年后還能打開,盡量避免使用專有的、封閉的格式(Proprietary formats)。作者在 Table 1 中推薦了各領域的最佳格式 :
表格數據: 推薦 .csv(逗號分隔值),而不是 .xlsx。
文本: 推薦 .txt 或 .pdf/a,而不是 .doc。
圖像: 推薦 .tiff 或 .png(無損),而不是有損壓縮格式。
音頻: 推薦 .flac 或 .wav。
![]()
法則 9:讓數據創造價值:共享與發布
數據發布不僅僅是上傳文件,而是一個流程。文中提供了一個清晰的發布流程圖:
![]()
Fig 4. The process of data publication
獲得數據概覽 (Obtain data overview)
檢查要求 (Check requirements): 資助方和期刊的要求。
選擇數據 (Select data): 依據 Table 2 的標準,選擇具有獨特性、復用價值的數據發布;剔除測試數據或錯誤數據 。
準備數據與文檔 (Prepare data and documentation): 確保去標識化(De-identification)處理 。
發布數據 (Publish data): 選擇合適的存儲庫(如 Zenodo, Dryad),獲取DOI 。
法則 10:持續的自我監測
RDM 不是一勞永逸的任務。
定期復盤: 定期檢查你的進度、存儲配額和文檔完整性 。
技能提升: 在自我監測的過程中,你不僅是在管理數據,更是在評估和提升自己的科研管理能力 。
![]()
結語
![]()
Fig 1. Data life cycle. Suggested by Surkis and Read [7], own illustration
從 Fig1 展示的數據生命周期(Data Life Cycle)來看,數據管理貫穿了從“計劃與設計”到“評估與歸檔”的每一步 。希望這份基于 PLoS Computational Biology 新文的詳細解讀,能幫助大家建立起更規范的科研習慣。畢竟,不被混亂的數據絆倒,我們才能在探索大腦奧秘的路上跑得更快。
![]()
基本信息:
Title:Ten simple rules for effective research data management
發表時間:2025.12.8
Journal:PLOS Computational Biology
影響因子:3.6 Q1
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
前沿交流|歡迎加入認知神經科學前沿交流群!
![]()
核心圖表、方法細節、統計結果與討論見原文及其拓展數據。
分享人:天天
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.