← 文章列表
LLM

Dynamic Cheatsheet Paper 筆記

2025-11-06 · — views

核心問題

如何讓 LLM Agent 在推理(Inference)階段也能夠持續學習,使其表現隨著推理次數增加而逐步提升?

傳統的機器學習模型在訓練完成後就固定不變,但 Dynamic Cheatsheet 提出了一種創新方法,讓模型在實際使用過程中也能累積經驗並自我優化。

論文連結Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory

技術架構

Dynamic Cheatsheet 框架由三個核心模組組成,協同運作以實現推理階段的持續學習:

1. 動態速查表記憶體(DC Memory)

用於儲存模型在推理過程中自動識別出的有效策略、程式碼片段與解題洞見。

特點

  • 動態擴充與精簡:記憶體內容可隨任務進行調整
  • 高可轉移性:儲存的知識片段可應用於類似任務
  • 精煉性:保留最有價值的洞見,避免冗餘

2. 自我策展機制(Self-curation Engine)

負責在推理階段自動篩選、抽取並整理可重用的知識片段,完全無需人類介入

功能

  • 自動識別有效的解題模式
  • 過濾低品質或無關的經驗
  • 保持速查表內容的高質量與高相關性
  • 防止語境膨脹(Context Bloat)

3. 推理階段記憶調用模組(Inference-time Retrieval)

在每次推理時,根據任務需求動態調用速查表內容,輔助模型生成更準確的解題步驟或答案。

優勢

  • 即時能力強化
  • 任務導向的知識檢索
  • 提升推理準確性與效率

關鍵發現(Key Findings)

透過實驗驗證,研究團隊發現了一個重要現象:

單純保留過去經驗的方法效果有限:將所有過去的輸入輸出範例(Input-Output Examples)直接放入 LLM 的輸入情境中的方法(Full History, FH),不僅無法顯著提升表現,有時甚至比完全不使用這些經驗、單純用 Prompt 驅動 LLM 的基準方法(Baseline, BL)來得更差。

為什麼會這樣?

  1. 資訊過載:大量未經篩選的經驗會造成情境污染
  2. 缺乏相關性:不是所有過去經驗都與當前任務相關
  3. 噪音干擾:低品質的經驗可能誤導模型推理

解決方案的重要性

這個發現凸顯了 DC-RS(Dynamic Cheatsheet with Retrieval and Self-curation)方法中兩個關鍵機制的重要性:

  1. Retrieval(檢索):只取出真正相似且相關的過去經驗
  2. Curation(策展):將這些經驗精煉成更簡潔、更泛化的洞見(Insights)

核心洞察(Summary)

單純地將所有資訊放入 Memory 或從 Memory 中取出所有資訊,所帶來的表現提升是非常有限的。

真正有效的記憶管理需要:

智能檢索(Memory Retrieval):根據任務相似度選擇性提取相關經驗\

內容策展(Curation):將原始經驗提煉為可重用的知識片段\

動態更新:持續優化記憶體內容,淘汰過時或低效的資訊

這三者缺一不可,才能實現高效率的推理階段學習與表現提升。

延伸閱讀