Frederick Prescott, and Samuel Thornton. 2026. “Optimizing Process Based Reward Models through Reinforcement Learning for Verifiable Multi Step Reasoning in Large Language Model Architectures”. International Journal of Artificial Intelligence Research 1 (2). https://doi.org/10.66280/ijair.v1i2.156.