[1]

Leonard Wexler and Trevor Ellington, “Advancing Mathematical Reasoning Excellence via Self Play Reinforcement Learning Frameworks for Recursive Logic Improvement in Large Language Models”, IJAIR, vol. 1, no. 2, May 2026.