[1]

Frederick Prescott and Samuel Thornton, “Optimizing Process Based Reward Models through Reinforcement Learning for Verifiable Multi Step Reasoning in Large Language Model Architectures”, IJAIR, vol. 1, no. 2, May 2026.