step_dist = stochastic_policy_function(
                params.fcs, self.step_obs_ph, params.num_actions, tf.nn.tanh,
                w_init=initializer(1.0), last_w_init=initializer(0.01),