突然火爆全網(wǎng)!中國“神秘力量”震�(dòng)美國科技�
多平�(tái)下載
Android�PC�
查看所� 0條評(píng)�>�(wǎng)友評(píng)�
低成本培�(yǎng)出的“數(shù)理天才�
DeepSeek R1有多厲害�
有測(cè)試者讓R1詳細(xì)解釋勾股定理,R1在不�30秒的�(shí)間內(nèi)生成了完整的圖形�(dòng)�,給出了�(jīng)典的證明過程,沒有出�(xiàn)差錯(cuò)。另一�(gè)常用的測(cè)試問題是碰撞檢測(cè),測(cè)試者要求大模型編寫一�(gè)程序,使得一顆小球在某�(gè)緩慢旋轉(zhuǎn)的幾何形狀�(nèi)彈跳,并保持小球停留在形狀�(nèi)。碰撞檢�(cè)十分考驗(yàn)?zāi)P偷耐评砟芰?,稍有不慎就?huì)�(dǎo)致肉眼可見的物理�(cuò)�。這項(xiàng)�(cè)�?yán)铮琑1的表�(xiàn)明顯�(yōu)于OpenAI o1 pro模式�
OpenAI�2024�9月發(fā)布了推理模型o1,首次實(shí)�(xiàn)真正的通用推理能力,相比其前作GPT-4o有巨大的性能提升,能在“博士級(jí)別”的科學(xué)問答�(huán)節(jié)上超越人類專家。新加坡南洋理工大學(xué)�(jì)算機(jī)�(xué)院助理教授劉子緯向《中國新聞周刊》解�,傳�(tǒng)的ChatGPT模型屬于感知模型,擅長提取事件信�。但真實(shí)世界的很多任�(wù)不能僅靠感知完成,而是需要一定的決策推理,而且越復(fù)雜的任務(wù)決策成分越多,比如編�、數(shù)�(jù)分析�。因�,推理模型是�(yè)界公�(rèn)的通往通用人工智能(AGI)不可或缺的模型形態(tài)�
同為推理模型,在很多方面,R1都與o1的性能持平。在美國�(shù)�(xué)邀�(qǐng)賽AIME2024的測(cè)試中,R1取得�79.8%的成績,甚至略高于o1,甩開其他開源模型一大截。編碼類任務(wù)方面,R1也展�(xiàn)出專家級(jí)水平,在算法�(jìng)賽平�(tái)Codeforces上的表現(xiàn)超過�96.3%的人類參賽��
在DeepSeek公開�22頁技�(shù)�(bào)告中,有一�(gè)展示R1能力的直觀案例。在解決一道復(fù)雜數(shù)�(xué)表達(dá)式問題時(shí),R1在解題步驟中突然停下來說“等�,這是�(gè)值得�(biāo)記的啊哈�(shí)刻�,隨后自主修正了解題過程?!鞍」鳖愃朴谌祟惖念D�,R1的這種行為完全是自�(fā)�(chǎn)生的,而非�(yù)先設(shè)�。這也意味著,它已�(jīng)擁有了相�(dāng)程度的思考和自悟能力�
看上去R1已經(jīng)走出了“題海戰(zhàn)�(shù)�,轉(zhuǎn)而�(jìn)入了探究性學(xué)�(xí)的領(lǐng)�。事�(shí)�,這正是它的核心技�(shù)�(qiáng)化學(xué)�(xí)與傳�(tǒng)�(jiān)督學(xué)�(xí)的差�。劉知遠(yuǎn)指出,傳�(tǒng)大模型特別是o1以前的GPT系列模型,都采用�(jiān)督學(xué)�(xí)的訓(xùn)練方�,意味著模型�(xué)�(xí)的目�(biāo)有標(biāo)�(zhǔn)答案。比如讓模型根據(jù)一篇文章的部分文字,去�(yù)�(cè)下一�(gè)詞。由于用于訓(xùn)練的文章是完整的,因此這�(gè)詞是固定�,預(yù)�(cè)�(jié)果也有明確的�(duì)�(cuò)。人類就像嚴(yán)厲的老師,對(duì)模型的預(yù)�(cè)行為反復(fù)�(guī)�(xùn)�
而強(qiáng)化學(xué)�(xí)則是在開放環(huán)境中�(jìn)行的任務(wù)�(xùn)�,開�(fā)者只�(huì)告訴模型,它走出的每一步會(huì)得到外部�(huán)境怎樣的反饋。模型需要根�(jù)反饋,自己學(xué)�(huì)如何去接近最終目�(biāo)?!斑@�(gè)世界沒有那么多純�(shù)�(xué)�,因此無法永�(yuǎn)通過給標(biāo)�(zhǔn)答案的方�,讓模型完成�(jiān)督學(xué)�(xí)?!眲⒅h(yuǎn)�。從�(jiān)督學(xué)�(xí)向強(qiáng)化學(xué)�(xí)的范式轉(zhuǎn)變,是實(shí)�(xiàn)推理模型的關(guān)��
劉子緯指出,o1可視作大模型�(qiáng)化學(xué)�(xí)的鼻�,但其沒有公開技�(shù)文件,因此其�(qiáng)化學(xué)�(xí)的具體技�(shù)路線和占比,只能靠業(yè)�(nèi)猜測(cè),但可以確定其采用了�(yù)�(xùn)�、監(jiān)督微�(diào)、強(qiáng)化學(xué)�(xí)的流程。預(yù)�(xùn)練類似“背書自�(xué)”基�(chǔ)知識(shí),監(jiān)督微�(diào)類似�(xué)生模仿教師的示范來解例題,最后強(qiáng)化學(xué)�(xí)相當(dāng)于“模擬考試�。而R1則拋棄了�(jiān)督學(xué)�(xí),也就是跳過了例題階�,僅憑基�(chǔ)語言能力和數(shù)�(xué)�(guī)則,在持�(xù)解題試錯(cuò)中自悟方法論,考出高分,這一�(diǎn)得到了絕大多�(shù)從業(yè)者的贊嘆�
而除了性能�,R1更令人震撼的�(yōu)�(diǎn)在于便宜�2024年底,DeepSeek推出V3模型,作為R1的前�,訓(xùn)練成本僅�557.6萬美�,�2020年發(fā)布的GPT-3的訓(xùn)練成本接�1200萬美元,GPT-4更是�1億美�。技�(shù)�(bào)告顯示,R1面向開發(fā)者的服務(wù)定價(jià)為每百萬輸入字符串(token�1�4�,這一�(jià)格只有o1�1/30左右�
R1怎么能如此便�?劉子緯�(rèn)為,算力�(dá)到一定量�(jí)的情況下,可以通過工程�(chuàng)新把性能差距抹平。在堆算力的“大力出奇跡”路線�(jìn)入瓶頸后,DeepSeek選擇了在底層算法、訓(xùn)練模式和�(shù)�(jù)三�(gè)層面�(jìn)行了工程迭代?;诨旌蠈<夷P?、注意力�(jī)制等方面的創(chuàng)�,R1做到了“用50次運(yùn)算達(dá)成別人做100次運(yùn)算的效果�,效能提升明�。而在拋棄�(jiān)督學(xué)�(xí)�,計(jì)算資源的需求也大幅減少�
由于超高性價(jià)��1�27日,蘋果App Store中國區(qū)免費(fèi)榜顯�,DeepSeek站上首位。同�(shí),DeepSeek在美區(qū)蘋果App Store免費(fèi)榜從昨日的第六位飆升至第一�。有�(yè)�(nèi)人士稱,R1已經(jīng)成為美國頂尖高校研究人員的首選模�。一位不愿具名的來自澳門大學(xué)的AI研究者向《中國新聞周刊》表示,R1完全可以取代�??蒲�?duì)GPT模型的使用需�,在�(duì)科研文章的錯(cuò)誤識(shí)別、修改潤�、語言�(zhuǎn)換上都表�(xiàn)出色�
商業(yè)化落地仍待探�
盡管R1展現(xiàn)出了驚人的推理能力,但它的思維過程可能難以被人理解。技�(shù)�(bào)告指出,純強(qiáng)化學(xué)�(xí)�(xùn)練出來的模型存在可讀性差和語言混雜問題,有用戶反映多語言輸入可能�(huì)造成模型輸出混亂,有�(shí)中文的提問也可能得到英文的回�。這一�(xiàn)象更多出�(xiàn)在純�(qiáng)化學(xué)�(xí)的R1-Zero模型中�
劉子緯也將R1形容為“有些偏科的�(shù)理天才�。R1在他眼中雖然很聰明,但給出的文字回復(fù)相比于o1缺乏流暢性和情緒�(jià)�,顯得笨�?!肮径ㄎ粫?huì)�(dǎo)致其偏重模型性能?!眲⒆泳曊f。由于DeepSeek還在提升模型能力,尚未開始優(yōu)化用戶體�(yàn),因此用戶親和度方面還有待提�。在這一�(diǎn)�,OpenAI涉足較早�
但當(dāng)�(chuàng)作任�(wù)涉及推演和類比時(shí),R1的表�(xiàn)仍可圈可�(diǎn)。有�(cè)試者用�(jiǎn)單的幾�(gè)提示�,就讓R1在極短時(shí)間內(nèi)�(chuàng)作了一篇情節(jié)精彩的科幻小說。社交平�(tái)�,有電影�(píng)論賬�(hào)喂給R1《出師表�,讓其仿照該文體�(chuàng)作一篇影�(píng),R1給出了符合文言文規(guī)范,且“超越一般影�(píng)人”的洞見。劉子緯�(rèn)為,模型的推理能力可以遷移到文學(xué),令其產(chǎn)生通過邏輯思辨的方式創(chuàng)作議論文的能��
用戶使用R1的過程中,偶爾會(huì)得到�(cuò)誤答�,甚至有用戶�(fā)�(xiàn)詢問R1身份�(shí),其可能自稱o1。這種混亂廣泛出現(xiàn)在現(xiàn)有大模型中,有業(yè)�(nèi)人士�(rèn)�,這源于大多數(shù)模型�(duì)OpenAI基礎(chǔ)模型的蒸�。蒸餾即將訓(xùn)練過的“教師模型”的知識(shí)傳遞給“學(xué)生模型”,從而在最大程度保存原模型性能的同�(shí),大幅縮減計(jì)算資源消�?!坝心P妥龅�?0�,我想迅速達(dá)�55分的水平,比較快的方式就是去蒸餾一�(gè)‘教師模型�,可以迅速拿到模型反饋,暴露思維過程,得到可貴的�(shù)�(jù)基礎(chǔ)。研�(fā)初期,許多企�(yè)都依靠或者部分依靠模型蒸�?!眲⒆泳曁寡?�
由于原模型只能提�60分的答案,要漲到70分就得靠模型努力找一條新�。因此蒸餾無法形成模型的真正迭代。劉知遠(yuǎn)�(rèn)為,�(qiáng)化學(xué)�(xí)是通向AGI的重要版圖之一,符合人類認(rèn)知世界的方式,已成為大模型未來發(fā)展的�(yè)�(nèi)共識(shí),強(qiáng)化學(xué)�(xí)的技�(shù)成熟也需要時(shí)間�
劉子緯指�,R1使用了一些GPT-4o�(chǎn)生的�(shù)�(jù)去做“熱啟動(dòng)�,讓模型先形成對(duì)�(xiàn)有問題的基本�(rèn)�,這也被稱為數(shù)�(jù)蒸餾。相比之下,完全通過“冷啟動(dòng)”讓模型立刻�(jìn)入強(qiáng)化學(xué)�(xí)狀�(tài)是非常困難的?!耙粋�(gè)小學(xué)生學(xué)�(xí)知識(shí)也得先學(xué)課本,達(dá)到一定智力水平后,再�(jìn)入實(shí)踐中�(xué)�(xí)?!庇谜鎸?shí)�(shù)�(jù)而非模型�(shù)�(jù)�(xùn)練模型是開發(fā)者的共識(shí),但真實(shí)�(shù)�(jù)的篩�、清洗、降噪等工作并不容易�
“即使用模型輸出�(shù)�(jù)也很難保證訓(xùn)練結(jié)果,這取決于人類給模型創(chuàng)造了怎樣的問�,以及提供怎樣的答�?!眲⒆泳曊f。例如DeepSeek使用了大量代碼數(shù)�(jù)、數(shù)�(xué)題甚至奧�(shù)題用于訓(xùn)練R1?!叭绾螌⑦@些數(shù)�(jù)喂給模型,需要大量創(chuàng)�?�?/p>
從這�(gè)意義上說,R1的表�(xiàn)已足夠出�,而它的創(chuàng)造者的主業(yè)甚至不是AI。DeepSeek背后的投資公司為幻方量化,是一家依靠數(shù)�(xué)與計(jì)算機(jī)科學(xué)�(jìn)行量化投資的基金公司。該公司�2016年起將深度學(xué)�(xí)模型�(yīng)用于�(shí)盤交易,囤積了大量算�,正式成立大模型�(tuán)�(duì)DeepSeek的時(shí)間則�2023�。“也算是副業(yè)做得比主�(yè)出圈的典型了?!眲⒆泳曊f�
大模型企�(yè)仍需審慎研判模型的商�(yè)�(jià)值,也就是能不能賺錢。劉知遠(yuǎn)指出,國�(nèi)外企�(yè)都還在尋找大模型的最佳變�(xiàn)方式。目�,市�(chǎng)上已有多家企�(yè)具備做出GPT水平大模型的能力,接下來要考慮區(qū)分度是什�,落地的用戶App是什�,以及在�(jià)格戰(zhàn)的前提下如何收回上億元的研發(fā)成本。這些問題的答案都還相�(duì)模糊�
劉子緯認(rèn)�,大模型已足夠強(qiáng),但在垂類上跟用戶需求還沒有緊密貼合,未來AGI的核心交互形�(tài)也尚無定論。目�,國�(nèi)外大模型企業(yè)一部分繼續(xù)高舉高打AGI,保證模型能�,通過用戶來試探落地方�。比如有�(xué)生用大模型來備�、寫論文�。另一部分企業(yè)則專注于做垂類應(yīng)用,比如�(yī)療領(lǐng)�。劉子緯�(yù)�(jì)�2025年會(huì)涌現(xiàn)一大批大模型應(yīng)�,是真正的“強(qiáng)化學(xué)�(xí)之年”�
多位�(yè)�(nèi)人士表示,DeepSeek真正的價(jià)�,在于展示了工程�(shí)踐和理論�(chuàng)新之間的平衡�(diǎn),開�(chuàng)了一條符合現(xiàn)�(shí)算力約束的技�(shù)迭代道路?!癛1說明開源 AI 僅落后于閉源 AI 不到 6 �(gè)�?!痹趧⒅h(yuǎn)看來,GPT階段也就�2023年初的時(shí)候, OpenAI模型�(fā)布之�,國�(nèi)�(tuán)�(duì)需要一年的�(shí)間才能趕�。但是到了文生視頻模型Sora,以及后來的GPT-4o和o1,國�(nèi)的追趕時(shí)間縮短到半年以內(nèi)�
“DeepSeek的階段性成果釋放了一�(gè)信號(hào),那就是通過芯片禁運(yùn)等方式來遏制國內(nèi)AI�(fā)展難以行�。這就是開源的力量?!眲⒅h(yuǎn)��
記者:周游(n[email protected]�
�(diǎn)擊�(jìn)入專題: DeepSeek“火”到海外" alt="3-1!獨(dú)�3球,1.4億超巨天神下�,逆轉(zhuǎn)升班�,阿森納豪取4連勝" />埃弗頓vs紐卡�?fàn)�?lián):皮克福�、阿什�-�(yáng)首發(fā),特里皮�、托納利出戰(zhàn)
�1:2,0�1比分�(yù)�(cè)】專�(yè)大神推單 周日022 西甲 皇家社會(huì)VS馬競(jìng) 足協(xié)更新� 小編朋友圈第一�(shí)間更�
萊美"萊玩�(yùn)�(dòng)節(jié)",運(yùn)�(dòng)x娛樂升級(jí)新消�(fèi)體驗(yàn)
反饋原因
其他原因