首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 总投资20亿元,三菲化合物半导体光芯片制造基地项目落户江苏太仓|年产值|太仓市|江苏省
• “芯片荒”致苹果发货周期大幅拉长,Mac mini和Studio最长要等5个月|内存|苹果公司|studio|mac mini
• 内存一年涨四倍!国产手机厂商集体涨价:会持续多久?苹果会加入吗?|卢伟冰|oppo|苹果公司
• 宇树H1人形机器人奔跑速度达10m/s 再破纪录|短跑|博尔特|宇树h1
• 广东:开展量智协同创新研究 探索量子计算在组合优化、算法设计等方面应用潜力|广东省|人工智能
• 商务部电子商务司负责人解读《关于更好服务实体经济 推进电子商务高质量发展的指导意见》|跨境电商