Back to Blog

不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

2026年5月9日

实现过程开源可复现