Fixed issues raised in original repo

hedrox · hedrox · commit f62da504da22 · 2019-05-14T00:20:11.000Z
diff --git a/monitor.py b/monitor.py
@@ -4,7 +4,7 @@
 from gym.core import Wrapper
 import time
 from glob import glob
-import csv
+import csv, uuid, os, pandas
 import os.path as osp
 import json
 import numpy as np
@@ -74,7 +74,7 @@ def step(self, action):
                 self.logger.writerow(epinfo)
                 self.f.flush()
             if "episode" not in info:
-                info["episoide"] = {}
+                info["episode"] = {}
             info['episode'].update(epinfo)
         self.total_steps += 1
         return (ob, rew, done, info)
@@ -160,4 +160,4 @@ def test_monitor():
     last_logline = pandas.read_csv(f, index_col=None)
     assert set(last_logline.keys()) == {'l', 't', 'r'}, "Incorrect keys in monitor logline"
     f.close()
-    os.remove(mon_file)
+    os.remove(mon_file)
diff --git a/mpi_util.py b/mpi_util.py
@@ -43,10 +43,10 @@ def guess_available_gpus(n_gpus=None):
     if n_gpus is not None:
         return list(range(n_gpus))
     if 'CUDA_VISIBLE_DEVICES' in os.environ:
-        cuda_visible_divices = os.environ['CUDA_VISIBLE_DEVICES']
-        cuda_visible_divices = cuda_visible_divices.split(',')
-        return [int(n) for n in cuda_visible_divices]
-    if 'RCALL_NUM_GPU' not in os.environ:
+        cuda_visible_devices = os.environ['CUDA_VISIBLE_DEVICES']
+        cuda_visible_devices = cuda_visible_devices.split(',')
+        return [int(n) for n in cuda_visible_devices]
+    if 'RCALL_NUM_GPU' in os.environ:
         n_gpus = int(os.environ['RCALL_NUM_GPU'])
         return list(range(n_gpus))
     nvidia_dir = '/proc/driver/nvidia/gpus/'
diff --git a/ppo_agent.py b/ppo_agent.py
@@ -353,7 +353,8 @@ def update(self):
                 (self.stochpol.ph_new, self.I.buf_news),
             ])
 
-        verbose = True
+        #verbose = True
+        verbose = False
         if verbose and self.is_log_leader:
             samples = np.prod(self.I.buf_advs.shape)
             logger.info("buffer shape %s, samples_per_mpi=%i, mini_per_mpi=%i, samples=%i, mini=%i " % (
@@ -446,9 +447,9 @@ def step(self):
             sli = slice(l * self.I.lump_stride, (l + 1) * self.I.lump_stride)
             memsli = slice(None) if self.I.mem_state is NO_STATES else sli
             dict_obs = self.stochpol.ensure_observation_is_dict(obs)
-            with logger.ProfileKV("policy_inference"):
+            # with logger.ProfileKV("policy_inference"):
                 #Calls the policy and value function on current observation.
-                acs, vpreds_int, vpreds_ext, nlps, self.I.mem_state[memsli], ent = self.stochpol.call(dict_obs, news, self.I.mem_state[memsli],
+            acs, vpreds_int, vpreds_ext, nlps, self.I.mem_state[memsli], ent = self.stochpol.call(dict_obs, news, self.I.mem_state[memsli],
                                                                                                                update_obs_stats=self.update_ob_stats_every_step)
             self.env_step(l, acs)
 
@@ -476,8 +477,8 @@ def step(self):
                 for k in self.stochpol.ph_ob_keys:
                     self.I.buf_ob_last[k][sli] = dict_nextobs[k]
                 self.I.buf_new_last[sli] = nextnews
-                with logger.ProfileKV("policy_inference"):
-                    _, self.I.buf_vpred_int_last[sli], self.I.buf_vpred_ext_last[sli], _, _, _ = self.stochpol.call(dict_nextobs, nextnews, self.I.mem_state[memsli], update_obs_stats=False)
+                # with logger.ProfileKV("policy_inference"):
+                _, self.I.buf_vpred_int_last[sli], self.I.buf_vpred_ext_last[sli], _, _, _ = self.stochpol.call(dict_nextobs, nextnews, self.I.mem_state[memsli], update_obs_stats=False)
                 self.I.buf_rews_ext[sli, t] = rews
 
             #Calcuate the intrinsic rewards for the rollout.
diff --git a/replayer.py b/replayer.py
@@ -5,7 +5,7 @@
 import pickle
 import sys
 
-import exptag
+#import exptag
 import ipdb
 import numpy as np
 from atari_wrappers import make_atari, wrap_deepmind
@@ -204,7 +204,9 @@ def draw_frame_i(i):
 
 
     args = parser.parse_args().__dict__
-    folder = exptag.get_last_experiment_folder_by_tag(args['tag'])
+    #folder = exptag.get_last_experiment_folder_by_tag(args['tag'])
+    # Give last experiment folder in the tag
+    folder = args['tag']
 
     def date_from_folder(folder):
         assert folder.startswith('openai-')
@@ -235,12 +237,12 @@ def date_from_folder(folder):
     env.reset()
     un_env = env.unwrapped
     rend_shape = un_env.render(mode='rgb_array').shape
-    episodes = EpisodeIterator(filenames).iterate()
+    episodes = EpisodeIterator(filenames)
     if args['kind'] == 'movie':
         import imageio
         import time
-        for i, episode in enumerate(episodes):
-            filename = os.path.expanduser('~/tmp/movie_{}.mp4'.format(time.time()))
+        for i, episode in enumerate(episodes.iterate()):
+            filename = os.path.expanduser('~/rnd_movies/movie_{}.mp4'.format(time.time()))
             imageio.mimwrite(filename, episode["obs"], fps=30)
             print(filename)