梦晨 发自 凹非寺量子位 | 公众号 QbitAI
DeepSeek新发布远超预期,Reddit/狂暴刷屏中。
同时开放官方API,输入token(命中缓存)价格只有OpenAI o1的1/50,未命中缓存以及输出token价格约1/27。
论文中被反复热议的小细节就更多了:
R1-Zero模型在思考过程中涌现了“顿悟时刻”(aha moment),并自己学会为问题分配更多思考时间。
网友们开始推演接下来的剧情,如果顿悟的力量能被稳定利用……那就不知道会通向何处了。
最后,团队还把在实验过程中很多失败的尝试分享出来,防止后人踩坑。
在过程奖励模型、蒙特卡洛树搜索算法上,DeepSeek都没能获得进展。
不过他们也强调,只是他们失败了,并不意味着这些方法无法开发出有效的推理模型。
未来他们计划在以下方向继续投入研究:提升通用能力、解决语言混杂问题、优化提示词敏感问题,以及改进软件工程任务的性能。
论文地址:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
参考链接:[1]https://x.com/deepseek_ai/status/1881318130334814301[2]https://www.reddit.com/r/singularity/comments/1i5yvx5/deepseek_discovered_their_new_model_having_an_aha/
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关文章
猜你喜欢