(1)

Frederick Prescott; Samuel Thornton. Optimizing Process Based Reward Models through Reinforcement Learning for Verifiable Multi Step Reasoning in Large Language Model Architectures. IJAIR 2026, 1.