今天我們來分享一篇2024年美國威斯康辛大學麥迪遜分校化學系的Lloyd M. Smith 和Ying Ge教授為通訊作者的Top-Down proteomics 綜述,該文章聯合了多位Top-down 領域的專家學者,發表于
Nature Reviews Methods Primers,系統闡釋了Top-down Proteomics(TDP)的實驗方法,應用實例以及面臨的挑戰。
中心法則描述了信息從 DNA 流向mRNA,最終轉化為執行生物學功能的蛋白質的過程。大量的 proteoforms 形成了化學性質多樣的蛋白質家族。proteoforms 的產生源于翻譯后修飾(PTMs)、RNA 可變剪接以及遺傳變異(圖 1a)。因此,
全面了解 proteoforms 對于理解生物系統以及建立基因型和表型之間的聯系至關重要。然而,可能存在的 proteoforms 數量遠超基因數量,這帶來了分析上的挑戰。目前,
Top-Down 蛋白質組學(TDP)已經成為了全面研究蛋白分子形式的最強大技術,它通過Top-Down質譜(TDMS)實驗,不需要酶切,直接分析完整的蛋白質,以提供 proteoforms的全局視角。TDMS 實驗需要同時進行準確的完整分子質量測量(“top” 部分)和氣相分子的可控碎裂(“down” 部分)。與TDP不同,Bottom-up蛋白質組學(BUP)需要對蛋白質進行充分酶解,得到通常小于 3 kDa 的肽段。目前 BUP 比 TDP 應用更廣泛,因為肽段比蛋白質更易于分離、電離和碎裂。然而,BUP 存在固有的局限性,每個蛋白質只能檢測到有限數量的肽段,且蛋白質序列覆蓋率通常較低。這導致在繪制序列變異和翻譯后修飾圖譜時,proteoforms 信息及其關聯性會丟失。BUP 的另一個局限性是無法推斷不同 proteoforms 上修飾的不同組合。捕捉這種組合信息對于理解 proteoforms 的功能和調控至關重要(圖 1b)。
圖1.中心法則以及TDP和BUP的對比
樣品制備與對照
樣品制備是 TDP 的關鍵步驟。傳統的蛋白質提取方法使用 Good緩沖液,這類緩沖液含有高濃度鹽(>100 mM)、蛋白酶和磷酸酶抑制劑,以及表面活性劑,用于總蛋白質的溶解。然而,這些常規試劑往往與 TDP 不兼容,因為它們會干擾蛋白質離子的檢測并抑制質譜信號。因此,為獲得高質量數據,必須去除這些物質。不兼容的鹽和小分子可通過超濾管離心或使用尺寸排除色譜(SEC)離心柱去除。由于信號抑制,表面活性劑對下游質譜分析構成特殊挑戰。目前,可裂解表面活性劑已被開發出來,如可酸降解的Rapigest、ProteaseMAX、MaSDeS;可光降解的Azo;可氧化還原降解的N-十二烷基二硫-β-d-麥芽糖苷等。另外,前端分餾和富集策略可在質譜分析前從復雜生物樣品中選擇性分離亞蛋白質組,提升低豐度 proteoforms 的檢測效率。
儀器設備
自上而下方法需要三個主要步驟(圖 2):電離(從目標蛋白質產生可在質譜儀中傳輸的氣相離子)、通過 MS1 對電離蛋白質進行完整質量分析、完整氣相碎裂以產生序列信息產物離子(通過 MS2);以及數據處理(包括數據庫搜索),用于 proteoforms 的鑒定、表征和定量。
高質量分辨率對 TDP 尤為重要,因為完整蛋白質產生的碎片離子可能形成復雜的質譜圖,其中不同電荷狀態的各種離子可能部分重疊。許多現代質譜儀能夠可靠地實現高分辨率,包括傅里葉變換質譜系統(如離子回旋共振(FTICR)和軌道阱(Orbitrap)質譜儀),以及飛行時間(TOF)和四極桿飛行時間(QTOF)儀器。
圖2 Top-Down蛋白組學基本流程
完整蛋白的分離
蛋白質組的復雜性對 TDP 構成了重大挑戰,需要在質譜分析前對完整蛋白質進行分離。當處理較大的蛋白質(≥30 kDa)時,這一挑戰尤為突出。早期使用了基于凝膠電泳的分離技術,如二維凝膠電泳分離、虛擬二維凝膠質譜平臺、PEPPI-MS等。還可以通過SEC(尺寸排阻色譜)、RPLC(反相液相色譜)、HIC(疏水相互作用色譜)、IEX(離子交換色譜)的方法分離。盡管新的完整蛋白質分離方法發展迅速,但沒有單一方法能夠完全分離目標蛋白質組中的所有物質。多維液相色譜(MDLC)通過結合多種分離模式,為提高 TDP 的分辨率提供了可能。另外,毛細管電泳 - 質譜(CE-MS)的最新進展使其能夠作為變性和非變性分離技術用于 TDP。離子淌度質譜(IMS)基于分子在電場作用下的氣相運輸性質和碰撞截面積(CCS)分離蛋白質,高分辨率 IMS 有望快速分離具有高度序列同源性的 proteoforms。
串聯質譜技術
在 TDP 中,MS/MS 通常包括以下步驟:通過 MS1 分析完整蛋白質,選擇前體蛋白離子,將其碎裂為更小的碎片離子,然后分析碎片離子以推導蛋白質的一級結構和修飾(圖3a)。有多種活化/解離方法可用于產生產物離子(圖 3b)。大多數儀器能進行碰撞誘導解離(CID),通過與中性氣體分子(如氮氣或氬氣)相互作用產生的碰撞活化,生成b/y離子。紅外多光子解離(IRMPD)涉及低能紅外光子的吸收,可產生b/y離子;當吸收多個光子時,可能產生次級及更高階的碎片離子,從而提供更豐富的蛋白質序列信息。基于電子的解離方法(ExD),如電子捕獲解離(ECD)和電子轉移解離(ETD),在產生高序列覆蓋率方面通常優于 CID。ExD 會產生c/z離子,可用于可靠的proteoforms 表征和翻譯后修飾定位。使用 193 nm 或 213 nm 激光,紫外光解離(UVPD)會產生更復雜的串聯質譜圖,其序列覆蓋率與 ExD 方法相當或更高。
圖 3 用于自上而下蛋白質組學的串聯質譜技術
數據采集
數據采集的關鍵考量包括選擇合適的高分辨率儀器和方法,以提供適當的峰分辨率、分析分離度、靈敏度以及串聯質譜的覆蓋深度。這些評估步驟對于改進下游精確完整質量的計算,以及解析具有特殊和組合翻譯后修飾(PTMs)的 proteoform,或難以通過色譜法分離的單氨基酸取代的 proteoform 至關重要。目標是在整個觀測質量范圍內獲得單位質量分辨率,并對每個蛋白質分子離子進行同位素分辨。最常見的 TDP 數據采集方法是數據依賴采集(DDA)。數據非依賴采集方法(DIA) 正在_bottom-up 蛋白質組學(BUP)工作流程中快速發展和應用 ,同時也為 TDP 帶來了令人期待的機遇。
原始數據解讀與可視化
受同位素、電荷狀態對儀器信噪比(S/N)的影響,以及人類蛋白質組 10⁸–10¹²的高動態范圍和寬質量范圍,完整蛋白質譜圖分析難度大,低豐度蛋白質檢測困難。譜圖解卷積是簡化 TDP 數據的關鍵步驟,可將復雜的同位素和電荷狀態分布轉換為單一單同位素質量。對于同位素分辨譜圖,多數工具依賴 Averagine 模型進行去同位素化和理論同位素分布預測。質譜在液相色譜梯度上連續采集,precursor常以多種電荷狀態存在,提取離子色譜圖和多個電荷狀態峰的額外信息有助于譜圖解卷積。譜圖未達同位素分辨時,可利用多種電荷狀態離子推導 proteoform 的平均中性質量 。TDP 譜圖的高復雜性需專門軟件提取分子信息。目前正持續開發標準化質譜數據存儲文件格式,最通用的是 mzML(最新版本1.1.1),由人類蛋白質組組織蛋白質組學標準倡議(HUPO-PSI)支持。
數據分析
TDP 數據分析流程始于自上而下的質譜預處理和解卷積,生成解卷積質譜圖用于 proteoform 譜圖匹配(PrSMs)。下一步是將解卷積質譜圖與蛋白質或 proteoform 序列數據庫搜索,以鑒定具有假發現率(FDR)控制的 proteoform 并表征翻譯后修飾。最后對 proteoform 豐度定量,鑒定樣品間差異豐度的 proteoform。TDP 工作流程通常分為靶向工作流程(基于對單個或一組蛋白質的先驗知識指導分析)和發現工作流程(對可能的 proteoform 和修飾狀態知之甚少)。
質譜圖與候選 proteoform 的匹配通常先經快速過濾將候選數量從數千減至數十,再用較慢匹配方法確定匹配分數。已有多種 TDP 譜圖鑒定過濾方法,匹配參考序列時,串聯質譜的前體質量會與數據庫中 proteoform 或其片段的分子質量匹配。含可變翻譯后修飾時用多缺口搜索,允許多個前體質量差異。允許質量偏移時,常用序列標簽、open search策略和未修飾蛋白質片段方法。過濾得到的候選 proteoform 會與譜圖比對,鑒定含可變翻譯后修飾或質量偏移的 proteoform。
proteoform 的鑒定與表征
TDP能全面洞察 proteoform 圖譜,使鑒定、新proteoform的發現和深入的序列表征成為可能。TDP 可表征組合翻譯后修飾及多基因家族中不同基因編碼的異構體(常具高度序列同源性)。例如,肌節蛋白有多種異構體和翻譯后修飾,TDP 可研究單個肌細胞的 proteoform 變化。當單個蛋白質分子上存在多種翻譯后修飾時,TDP 是唯一能解析復雜 proteoform 和組合翻譯后修飾的技術。如組蛋白是與 DNA 相關的高度修飾結構蛋白,具多種翻譯后修飾并以多種異構體存在,TDP 是解析其復雜性并定量描述分子化學計量的關鍵工具。
proteoform 的定量
與 BUP 類似,TDP 有三種定量方法:label-free(利用 proteoform 強度定量)、同位素標記(通過差異同位素標記定量)和化學標記(用化學報告分子定量,通常在 MS2 水平)。其他標記技術,如氨基酸穩定同位素標記(SILAC)、同量異位(isoabric)標記、假同量異位(pseudoisobaric)標記和NeuCode SILAC已經顯示出定量TDP的潛力。
統計分析與誤差計算
TDP的軟件通常會使用E值和P值來反映串聯質譜和蛋白分子形式的匹配程度,此外FDR值也常被用來描述鑒定的可靠性。
應用
通過改進的方法和平臺,可繪制多種生物樣品的全局proteoform圖譜。在癌癥、心血管疾病、神經退行性疾病和傳染病等領域,TDP 有助于識別疾病相關的蛋白質變體,為疾病機制研究和生物標志物發現提供支持。在生物制藥方面,TDP可用于分析生物治療藥物的結構,如單克隆抗體和抗體 - 藥物偶聯物,在質量控制中發揮作用。在臨床應用方面,TDP已用于病原體鑒定和疾病診斷(如血紅蛋白病、漿細胞疾病等),但需提升TDP 蛋白質組的靈敏度和自動化程度以獲得更廣泛的應用。
面臨的挑戰與優化策略
由于諸多新技術和方法的出現,TDP 發展迅速。然而,挑戰依然存在:(1)分析樣品有限的生物系統中的 proteoform 需要高分析靈敏度。但實現高靈敏度是 TDP 面臨的主要挑戰;毛細管電泳 - 質譜(CE-MS)在單細胞的高靈敏度 TDP 分析中顯示出潛力。nanoPOTS技術也可用于高靈敏度 TDP。高靈敏度平臺有潛力加速高靈敏度 TDP 應用,使常規單細胞 TDP 成為可能。(2)高分子量proteoform 的鑒定;為分析更大的離子,可能需要超高分辨率平臺,如傅里葉變換離子回旋共振(FTICR)質譜儀。在質譜分析前,基于SEC或凝膠的技術,例如整合蛋白質組學方法或 PEPPI-MS可能解決大離子分析的挑戰;(3)一般而言,蛋白質序列末端的碎裂效率較高,而中間區域的碎裂覆蓋率有限。這種差異在較大的蛋白質中更為明顯。能夠準確整合內部碎裂的新方法和數據分析工作流程可能增強蛋白質序列表征和 proteoform 注釋 ;(4)翻譯后修飾(PTMs)的實驗定位和 proteoform 化學組成的精確表征具有挑戰性。低豐度 proteoform通常受到低靈敏度和不穩定的PTMs阻礙。富集策略可以提高低化學計量或低豐度信號;然而,解決不穩定 PTMs 通常需要優化特定的碎裂方法,例如使用更溫和的基于電子的方法,如ETD或ECD。(5)TDP 相對較低的通量和較高的數據復雜性是新手和有經驗的用戶面臨的主要障礙。自動制備和分離系統的發展,以及軟件性能的提升都有助于改善通量的問題。
展望
TDP是目前唯一能夠確定proteoform 分子形式特征并量化其豐度的技術。proteoform 的重要性及其作為細胞、環境或生物系統健康標志物的潛在作用,意味著 TDP 技術有望繼續快速發展。需要解決的兩個關鍵領域是改進復雜proteoform 混合物的深度表征和大分子量proteoform 的鑒定和表征。通過將自上而下的數據與其他數據類型(包括基因組和轉錄組序列、BUP 和糖組學)相結合,存在諸多機遇。盡管 proteoform 提供了對細胞過程的獨特見解,但僅憑其自身無法提供生物學解釋。需要將 proteoform 與相關的可測量輸出(例如轉錄物和代謝物)聯系起來,并破譯生物學的基本原理。隨著單細胞蛋白質變體測量技術的迅速發展,相關技術將進一步拓展。這些令人振奮的多組學進展有望帶來生物學預測和調控的新時代。
參考文獻:Roberts, D.S., Loo, J.A., Tsybin, Y.O., et al. Top-down proteomics[J]. Nature Reviews Methods Primers,2024,4(1):38.
作為生物信息學的領軍企業,BSI專注于蛋白質組學和生物藥領域,通過機器學習和先進算法提供世界領先的質譜數據分析軟件和蛋白質組學服務解決方案,以推進生物學研究和藥物發現。我們通過基于AI的計算方案,為您提供對蛋白質組學、基因組學和醫學的卓越洞見。旗下著名的PEAKS®️系列軟件在全世界擁有數千家學術和工業用戶,包括:PEAKS®️ Studio,PEAKS®️ Online,PEAKS®️ GlycanFinder, PEAKS®️ AB,DeepImmu®️ 免疫肽組發現服務和抗體綜合表征服務等。
聯系方式:021-60919891;sales-china@bioinfor.com