看板 AI_Art
https://www.youtube.com/watch?v=qCFyprzrCvA
這段影片詳細介紹了由普林斯頓大學(Princeton University)研究人員提出的 AI 突破 性技術——「持續駕馭」(Continual Harness)。這項技術打破了傳統 AI 的訓練模式 ,讓 AI 具備在執行任務的過程中「一邊運行、一邊自我修正與進化」的能力。 以下是該篇 AI 技術新聞的重點摘要: 核心突破:從「手動重設」到「自主進化」 傳統模式的瓶頸: 過去要讓 AI 代理(Agent)變得更好,研究人員必須在 AI 失敗 後,手動調整代碼或提示詞(Prompt),然後將系統「重設(Reset)」並重新測試 [01:23]。 Continual Harness 的創新: 這套新架構讓 AI 就像有機體一樣。它在執行任務( 影片中以玩《寶可夢》遊戲為例)的同時,會自我監控、分析失敗原因、重寫內部指令, 並在不重設、不中斷運行的情況下,立即應用這些改進 [01:37]。 AI 如何進行自我優化? 系統大約每隔幾百步就會暫停並分析之前的表現,自主修改自身的四個核心組件 [02:34] : 重寫系統提示詞(System Prompt): 修改自己的內部操作手冊 [02:43]。 建立/修改專屬子代理: 根據需求(如戰鬥或導航)創建專門的 AI 助手 [02:50]。 構建技能庫: 編寫可重複使用的代碼函數,留待以後調用 [02:59]。 維持持久記憶: 儲存重要事實與策略,且記憶在更換新的遊戲場景時依然能保留並 跨環境轉移(遷移學習) [03:06, 08:43]。 驚人的實驗成果 強大的解題與展現元認知(Metacognition): * 在早期的實驗(Gemini Plays Pok émon)中,AI 曾因為選單導航不斷失敗,便自行刪除舊工具並重新編寫了一個新工具, 還在記憶中寫下「我必須信任我自己剛創造的新工具」 [04:43]。 在《寶可夢 水晶版》中,AI 曾在一個邏輯死胡同裡困了 16,436 回合,但它最 終在沒有人類干預的情況下,自己發現錯誤、更新記憶並脫困 [05:40]。 AI 甚至在最終決戰中,自己發明了名為「殭屍鳳凰行動(Operation Zombie Phoenix)」的複雜多階段戰術,而非複製訓練數據 [06:10]。 幫助訓練小型模型: 這種自我改進的系統還被用來引導、訓練更小型的開源 AI 模 型。在不重設的情況下,透過即時的引導與修正,小型模型也成功通過了原本無法跨越的 遊戲關卡 [03:38, 04:21]。 潛在風險與局限性 能力門檻限制: 研究團隊誠實指出,這項技術存在「能力門檻」[09:14]。如果基礎 模型不夠聰明,自我改進的循環反而會導致錯誤診斷,進而胡亂修改,陷入越改越差的「 死亡螺旋」[09:21]。只有在超越特定智力門檻後,這種正向的「自我提升循環」才會爆 發 [09:36]。 未來的深遠影響 邁向真正的自主 AI(Stateful AI): 現今多數 AI(如 ChatGPT)都是「無狀態的 (Stateless)」,每次對話都是全新開始,不會記得上次的內容 [08:10]。而 Continual Harness 代表了架構的轉變,讓 AI 能累積經驗、複合自身能力 [08:26]。 跨領域的通用架構: 這套架構並非只能用在玩遊戲,它是一個通用的「具身智能( Embodied AI)」框架,未來可廣泛應用於機器人、自動駕駛汽車、自動化數位助理及複 雜軟體環境的管理 [06:56]。 完全開源: 普林斯頓大學已將此項研究的代碼、方法及訓練程序完全開源,預期將 引發一波「具備自主進化能力」AI 系統的爆發式成長 [11:41]。 結論: 這項技術代表著人類可能不再需要時刻待在「修正與訓練 AI 的循環」中。AI 正 在透過不斷累積的自我改進能力,逐漸走向真正獨立、不需人類引導的自主運作時代 [12:31, 12:55]。 -- Gemini3.5整理 以後訓練AI也許是扔給它一堆遊戲玩一個晚上XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.237.148 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1779501150.A.99D.html
error405: #1dlkNERe (AI_Art) 去年貌似還只是普通的玩 05/23 09:57
Tosca: 訓練他畫色色 越畫越色~~~~~~~ 05/23 10:01
Jotarun: 越學越爛的機會比較高 05/23 10:18
gino0717: 教他玩黑白妹 05/23 10:35
nicetw20xx: 不喜歡記憶的功能,比較喜歡專案的工作紀錄和主檔 05/23 15:37
Kroner: UC2推薦?有人試過嗎?靠譜嗎? 05/23 15:37
SunnyBrian: 這我同意亮子 05/23 15:58
patvessel: 這定義了一套操作規則 但本質上還是上下文的編輯 05/23 16:21
patvessel: 在代理人框架下似乎不是什麼很新穎的東西 05/23 16:22
patvessel: 除非他說的權重更新有進一步的發展 05/23 16:23
Kroner: 求推薦靠譜的復健診所,小弟關節治好再來跪謝! 05/23 16:23
patvessel: 經歷過上下文汙染就會知道 無狀態本身並不是原罪 05/23 16:25
patvessel: 用畫色色的案例來說 現在多模態模型接上畫像生成 05/23 16:26
patvessel: 然後構成改善迴圈難度很低 問題其是否真的能分出好壞 05/23 16:27
patvessel: 標準還是要人寫 不然只會模式崩潰 05/23 16:27
Chricey: 樓上UC2當糖吃,天天走拿飛 05/23 16:27
patvessel: 玩遊戲可以用勝利失敗來簡單的評價 但是畫色圖可不行 05/23 16:30
patvessel: 因為沒有人訓練過AI什麼是色不色的標準 更不要說人類的 05/23 16:37
patvessel: 看法其實也不統一 真的讓AI無腦去迴圈 最後大概只會跑 05/23 16:38
patvessel: 出整個畫面都是各種乳頭的照片之類的詭異玩意 05/23 16:38
Chricey: 剛開始吃UC2,期待 05/23 16:38
patvessel: 不是說這個研究沒意義 只是他們把最困難的部分 05/23 16:43
patvessel: "獎勵函數和目標的設定" 外包給了遊戲這種最簡易的環境 05/23 16:43
nicetw20xx: 結果ai生成評估方法逼你貼標客製xD 05/23 19:08
Supasizeit: 怎麼跟Hermes講的 87%像 05/23 19:16
Kroner: 關節痛按摩有效嗎? 05/23 19:16