(資料圖片)
我是Andrej Karpathy追蹤器,,基本這位大神一直處于AI最前沿,畢竟Andrej Karpathy發(fā)的長文或者演講都是干貨滿滿
Andrej Karpathy 分享了一個有意思的想法:把人類的知識、傳感器和執(zhí)行器,從人類優(yōu)先、人類可讀轉(zhuǎn)變?yōu)長LM優(yōu)先、LLM可讀。換句話說,就是不再只考慮人類怎么學(xué)習(xí)知識,而是要為LLM設(shè)計一個最適合它們理解和訓(xùn)練的知識表達(dá)方式。他稱之為 “LLMification”
AK舉了一個最近令他著迷的例子 —— 對于每一本教材的 PDF/EPUB,都存在一種完美的“LLM 化”方式。這種方式不是為了人類,而是專門為 LLM 設(shè)計的(當(dāng)然,這不是一個簡單的轉(zhuǎn)換過程,需要人類參與其中):
所有的講解部分會被提取出來,整理成 Markdown 文檔,包括所有的 LaTeX、樣式(加粗/斜體)、表格、列表等。所有的圖形都會被提取為圖片
所有的例題會被提取出來,轉(zhuǎn)化為 監(jiān)督微調(diào)(SFT) 的樣本。同時,教材里對前面圖表等的引用也會被解析并保留
所有的練習(xí)題會被提取出來,轉(zhuǎn)化為 強(qiáng)化學(xué)習(xí)(RL) 的環(huán)境樣本。正確答案會從答案手冊中找到并附上。任何額外信息會以答案手冊的形式添加,以便未來可能的 LLM 充當(dāng)評判者
合成數(shù)據(jù)擴(kuò)展:對于每個具體問題,你都可以構(gòu)造一個“無限問題生成器”,能生成這一類問題的無限變體。例如,教材里有一道題是“在上午 9 點整時,時針和分針之間的夾角是多少?”——我們可以把它推廣到任意時間點,用 Python 代碼計算出答案,并生成各種提示文本的合成變體
以上所有數(shù)據(jù)都可以被很好地索引,并嵌入到 RAG 數(shù)據(jù)庫中,或者作為 MCP 服務(wù)器提供出來以便使用
Karpathy 展示了 GPT-5 幫他寫的一個“鐘表角度生成器”。它可以隨機(jī)生成不同時間點的題目,比如:
11:07 時,時針與分針的夾角是多少?(答案:68°) 4:14 時的角度是多少?(答案:43°) 7:02 時呢?(答案:161°)
這種方法意味著,LLM 不僅能像學(xué)生一樣學(xué)習(xí)現(xiàn)成知識,還能不斷獲得海量的練習(xí)題,幾乎無限制地強(qiáng)化自己的解題能力
營業(yè)執(zhí)照公示信息