(1)

Leonard Wexler; Trevor Ellington. Advancing Mathematical Reasoning Excellence via Self Play Reinforcement Learning Frameworks for Recursive Logic Improvement in Large Language Models. IJAIR 2026, 1.