raw_policy_tp1 = deterministic_policy_function(
                params.fcs, self.obs_tp1_ph, params.num_actions, tf.nn.tanh,