首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• “全家福”来了!中国航天员完成第8次“太空会师”|神舟|乘组|载人飞船
• 任天堂将在日本上调Switch 2售价|switch
• 李斌回应蔚来“千站计划”迟缓问题:最多推迟一两个月|充电站|充电桩|科学家|新势力|经济学家
• 网红企业家风云榜:雷军成顶流,俞敏洪反超董明珠|周鸿祎|投资者|小说家
• 腾讯混元发布Hy-Memory|插件|hy|知名企业|memory
• AI早报 | ChatGPT将转型成超级应用;黄仁勋会见韩国两大游戏公司代表,讨论游戏AI合作方案|英伟达|机器人