Frederick Prescott, and Samuel Thornton. “Optimizing Process Based Reward Models through Reinforcement Learning for Verifiable Multi Step Reasoning in Large Language Model Architectures”. International Journal of Artificial Intelligence Research, vol. 1, no. 2, May 2026, doi:10.66280/ijair.v1i2.156.