Frederick Prescott, & Samuel Thornton. (2026). Optimizing Process Based Reward Models through Reinforcement Learning for Verifiable Multi Step Reasoning in Large Language Model Architectures. International Journal of Artificial Intelligence Research, 1(2). https://doi.org/10.66280/ijair.v1i2.156