DeepSeek颠覆AI路径?我的看法与行动

新年好!今天聊聊火爆全网的DeepSeek和AI相关的投资观点(由于这件事,我的后台私信多到要炸了)。 最近国产大模型DeepSeek R1以其出色的表现和低廉的成本惊艳了世界,同时也给市场带来了大幅波动,很多人思考AI未来的发展路径是否被已经被颠覆,算力在未来是否可能过剩,这也导致本周一(1月27日)美国市场的暴跌。 经过一些了解和整理,今天我将以一个普通投资者和非从业者学习笔记的视角分享一下我的见解,也欢迎大家在留言区提出自己的见解或指出内容可能的错误。 (1)出色的模型与算法 根据DeepSeek公布的跑分现实,DeepSeek-R1在培训后阶段大规模使用强化学习技术, 在数学、代码、自然语言推理和其他任务上,其性能可与OpenAI o1正式版本媲美,但价格仅为o1的3%。 我不是AI从业人士,所以也研究和学习了一下,这里我将DeepSeek之所以能够实现低成本的逻辑用大多数非专业人士都能理解的话来简单介绍一下: DeepSeek R1大模型实现低成本训练和推理的核心思路,可以类比为“用更聪明的策略完成复杂任务”,他们主要从以下两个方面优化: 第一,在训练模式上, DeepSeek R1避开了传统监督微调(SFT)过程 ,这个过程原本是AI开发的标准步骤,通过引入标注好的数据来优化模型的指令跟随能力和应对具体任务的表现,被认为对提高推理能力至关重要。但DeepSeek跳过SFT转而选择依赖强化学习(RL)来训练模型, 简化了流程并可能提升模型在复杂任务中的表现。 再通俗些说, 传统方法就像教小孩学数学时先买习题册(SFT阶段),给大量标注好的例题,要求完全模仿标准答案;再请家教陪练(RL阶段),做题后由老师指出错误,调整解题思路 ;而 直接强化学习就像直接让孩子上考场(没有预先的例题背诵),每做错一道题,裁判立即用激光笔标出错误步骤(即时奖励信号) ,然后孩子通过不断试错,自己总结出最优解题策略; 第二, 传统大模型像全员待命的公司,每个问题都需要所有员工处理,效率低且耗电, 而DeepSeek采用了混合专家系统(MoE) ,相当于把员工分成多个“专家小组”,遇到问题时,只激活相关专家(如数学题只需数学组处理),其他小组休眠。这种设计大幅减少了单次计算量,降低了运行成本。 综合上述内容,你会发现DeepSeek无论在训练过程还是思考过程,都更接近人...