跳到主要內容

DeepSeek紅什麼

DeepSeek紅什麼?!




DeepSeek論文出處:
https://arxiv.org/pdf/2501.12948

💡就像在教一個很聰明的小朋友怎麼更會思考!

🔥想像一下,我們有一個超級聰明的小朋友,他叫「DeepSeek-R1」。

他本來就很聰明,但我們想讓他更會推理、更會解決難題。

這篇論文就像是教 DeepSeek-R1 如何變得更厲害的說明書。

一開始,我們讓 DeepSeek-R1 自己摸索,就像讓他自己玩積木一樣。我們沒有先教他怎麼堆,只告訴他「要堆得又高又穩」。這個階段的 DeepSeek-R1 我們叫他 DeepSeek-R1-Zero。

他很厲害,自己學會了反思、檢查自己有沒有做錯,還會想很多不同的方法來解決問題。就像是自己突然開竅一樣,我們叫他「頓悟時刻」。

他就像是突然發現了更棒的堆積木方法一樣。雖然他很會自己思考,但是他講話有點難懂,有時候會中英文夾雜,像是在說火星文。

為了讓 DeepSeek-R1 說話更清楚,我們開始教他一些基礎知識,像是教他一些堆積木的範例,讓他知道積木可以怎麼堆,這叫做「冷啟動數據」。

接著,我們再讓他自己練習,就像是給他一些挑戰題,讓他自己想辦法解決。 他變得更會推理、更會解決問題,而且說話也變得比較清楚了。
這個階段的 DeepSeek-R1 我們叫他 DeepSeek-R1。他現在就像個小小推理專家,解數學、寫程式都難不倒他。

最後,我們還把 DeepSeek-R1 的聰明腦袋,教給比較小的模型,就像是把聰明的方法分享給其他小朋友一樣,這個叫做「知識蒸餾」。

這樣一來,比較小的模型也能變得跟 DeepSeek-R1 一樣厲害!而且我們發現,直接教小模型學習大模型的推理方法,比讓小模型自己從頭學起更有效。

DeepSeek-R1 就像一個不斷進步的超級學生,從一開始自己摸索,到後來有老師教導,最後還能把自己的聰明分享給其他同學。他學會了自己思考、自己解決問題,而且還能把複雜的事情變得簡單易懂。這就是這篇論文在講的,用強化學習讓電腦變得更聰明,更會推理。

最後我們來總結一下 DeepSeek-R1 的厲害之處:

1.不用老師教,自己學會推理
2.會反思、會檢查錯誤、會想很多方法
3.解數學、寫程式都很厲害
4.可以把聰明的方法分享給其他模型
5.比其他模型更會推理

希望這樣解釋,你會更容易了解喔!

#AI教育 #資訊閱讀 #資訊識讀
#我是點哥 #DeepSeek

加入好友

Felo Search

這個網誌中的熱門文章

NotebookLM筆記本來製作會議記錄

NotebookLM筆記本來製作會議記錄(報告、逐字稿…)-- 點哥 - 優點:免費、快速產出記錄,可作為筆記軟體。 - 缺點:無法標記不同與會者說的話。 網站網址: https://notebooklm.google.com/ 使用方式如下: 1. 利用手機內建錄音或是已經現有的錄音檔案 各種語音格式幾乎都可用。 2. 錄音的檔案,上傳到NotebookLM 3. 即可產出摘要,可進一步請AI產出會議記錄重點、整理、製作逐字稿等。 點選 筆記本指南 AI自動整理出錄音內容 對話應用: 請AI幫妳寫逐字稿,並加註時間軸 與AI做內容問答與整理 摘要重點 *注意:逐字稿的穩定度仍不如其他專業軟體,若有相當專業且嚴謹的需求,建議還是以付費的軟體為主。但若要製作課程筆記,就完全沒問題! 目前自動生成功能: 動作包括: 合併成單一記事:按一下滑鼠,就能將所有記事彙整成單一記事。 評論:要求 NotebookLM 對你的文章或論點提供建設性意見。 重點摘要:根據多則記事內容建立精簡易讀的摘要。 建立大綱:將所選記事內容轉換成大綱,並依主題分類。 建立學習指南:根據記事內容快速製作學習指南,包括重要問題和詞彙表。 提出相關想法:NotebookLM 可以根據所選記事的來源內容,提供相關建議。 Google公告: 2024 年 9 月 26 日 最新資訊 新來源類型: 自推出以來,我們使用 Gemini 的多模態功能,持續增加對多種來源資料的支援。現在,你可以直接在記事本中加入公開的 YouTube 網址和音訊檔案、PDF、Google 文件、簡報、網站等內容做為來源。 分享語音摘要更快速:我們推出了新功能,輕觸一下就能生成 語音摘要 。現在,語音摘要可以直接分享。只要輕觸「分享」,系統就會產生可輕鬆分享的公開連結。 2023 年 12 月 8 日 最新資訊 提高來源數量上限:筆記本現在最多可以有 20 個來源。 增加字數:來源現在最多可以包含 20 萬字。 撰寫個別記事:現在會個別新增記事,而非納入單一記事。 記事板:撰寫和儲存的記事現在會釘選在對話方塊上方的記事板空間。 將對話回覆內容另存為記事:你可以將 NotebookLM 的回覆內容釘選到筆記本,方便日後參考。 整合引文和記事:將對話回覆內容另存為記事後,系統會保留原始引文。 跳到來源中的引文:在對話回覆內容或已儲存的...

伍子胥與曼德拉的仇恨與和解

納爾遜·曼德拉(Nelson Mandela)和伍子胥是兩位在截然不同的時空背景下,面對巨大冤屈與國仇家恨,卻做出天差地別選擇的代表性人物。 他們的差異主要體現在以下幾個核心層面: 1. 核心動機與最終目標  伍子胥:復仇 (Revenge)    他的核心驅動力是為被楚平王殺害的父親伍奢與兄長伍尚報仇。從逃離楚國到投奔吳國,他所有的努力、謀略與奮鬥,最終目標都指向攻破楚國都城「郢」,以雪家恨。他的目標是向後看的,是為了清算過去的血債。  曼德拉:和解 (Reconciliation)    他的核心驅動力是結束南非的種族隔離制度,建立一個所有種族都能平等、共存的國家。在長達27年的牢獄之災後,他追求的不是向壓迫者報復,而是「轉型正義」與「民族和解」。他的目標是向前看的,是為了開創一個全新的未來。 2. 對待仇敵的方式 (Approach to Enemies)  伍子胥:極致的報復    他的手段是「絕不寬恕」。當他率領吳軍攻入楚國首都後,殺害他家人的楚平王已死。伍子胥命人掘開楚平王的墳墓,將其屍體拖出,「鞭屍三百」,以洩心頭之恨。這是將復仇執行到最極致的表現。  曼德拉:徹底的寬恕    他的手段是「擁抱敵人」。他邀請當初關押他的獄卒參加他的總統就職典禮,並成立「真相與和解委員會」,讓過去的加害者在承認罪行的前提下,獲得赦免的機會。他認為,如果不放下仇恨,內心將永遠被囚禁。 3. 行為的格局與影響 (Scope and Impact of Actions)  伍子胥:個人的與國家的    雖然他的復仇牽動了吳、楚兩國的霸權之爭,但其根本出發點是個人的血海深仇。他的成功是個人的勝利,也是吳國的軍事勝利,但這份仇恨也為他個人的悲劇性結局埋下了伏筆(因功高震主、性格剛烈,最終被吳王夫差賜死)。  曼德拉:國家的與世界的    他的鬥爭從一開始就是為了整個黑人族群乃至南非全國人民的未來。他的寬恕與和解策略,不僅避免了南非可能爆發的毀滅性內戰,也為全世界處理族群衝突、實現轉型正義樹立了典範,使他成為全球性的精神領袖。 4. 歷史評價與遺產 (Historical Legacy)  伍子胥...