首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 沐曦股份孙国梁:AI GPU赛道正加速收敛 国产算力突围需补齐生态协同短板|专访|gpu|数据中心
• 本田拟削减燃油车产能:149万辆→100万辆,关闭或停产两家工厂|日产|汽油车|中国工厂
• 极地科考取得新成果极地治理能力不断增强
• 谷歌CEO:2027年将是AI重塑生产方式的关键拐点|无人机|机器人|皮查伊|量子计算|科技巨头|知名企业|谷歌ceo
• 字节跳动剪映产品负责人张琪智离职创业;阿里巴巴2026财年第四财季营收约2434亿元|未来商业早参|京东|知名企业|阿里巴巴集团|第三季度财报
• 助力商家“拎包出海”,苏宁易购推出一站式出海平台|电商|运营|知名企业