首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 谷歌和三星电子公布智能眼镜设计,计划秋季上市|安卓|人工智能|Google
• 科技早报 | 小米17 Max发布,售价4799元起;昔日“独角兽”拉勾网进入破产程序|俞敏洪|蔡崇信|小米17max
• 10.99亿用户!网络视听“第一大应用”地位稳固,微短剧与AI共绘万亿赛道|通信|互联网|短视频|长视频
• 虚拟现实技术成熟应用场景不断拓展
• 受Mythos大模型冲击 华尔街监管机构紧急暂停部分银行网络安全检查|人工智能|mythos
• SpaceX拟在得州工厂投资550亿美元|好运山东|spacex