loss = -torch.mean(torch.min(prob_ratio * adv_i, clipped_ratio * adv_i))