首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• Anthropic秘密递表|上市|人工智能公司|anthropic
• 英特尔正式提出“智能体PC”概念|普通用户|智能体pc
• 量子计算研究取得新进展计算能力大幅提升
• 二维码支付加速出海,全球支付本地化趋势走强|巴西|钱包|支付宝|银行卡
• 广东:支持高性能计算芯片、端侧人工智能芯片、智能传感器、光芯片等研发及产业化
• 信达证券发布凌云光研报:AI赋能,机器视觉主业多点开花,具身智能与光通信打开想象空间|海外业务