HumanCompatibleAI · AdamGleave · Oct 5, 2023 · Sep 8, 2023 · Sep 8, 2023 · Sep 8, 2023
diff --git a/.circleci/config.yml b/.circleci/config.yml
@@ -138,7 +138,7 @@ commands:
       # Download and cache dependencies
       - restore_cache:
           keys:
-            - v10win-dependencies-{{ checksum "setup.py" }}-{{ checksum "ci/build_and_activate_venv.ps1" }}
+            - v11win-dependencies-{{ checksum "setup.py" }}-{{ checksum "ci/build_and_activate_venv.ps1" }}
 
       - run:
           name: install python and binary dependencies
@@ -168,21 +168,29 @@ commands:
       - save_cache:
           paths:
             - .\venv
-          key: v10win-dependencies-{{ checksum "setup.py" }}-{{ checksum "ci/build_and_activate_venv.ps1" }}
+          key: v11win-dependencies-{{ checksum "setup.py" }}-{{ checksum "ci/build_and_activate_venv.ps1" }}
 
       - run:
           name: install imitation
           command: |
             .\venv\Scripts\activate
             pip install --upgrade --force-reinstall --no-deps .
           shell: powershell.exe
+
       - run:
           name: print installed packages
           command: |
             .\venv\Scripts\activate
             pip freeze --all
           shell: powershell.exe
 
+      - run:
+          name: enable long path
+          command: |
+            New-ItemProperty -Path "HKLM:\SYSTEM\CurrentControlSet\Control\FileSystem" `
+            -Name "LongPathsEnabled" -Value 1 -PropertyType DWORD -Force
+          shell: powershell.exe
+
   restore-pytest-cache:
     description: "Restore .pytest_cache from CircleCI cache."
     steps:

diff --git a/docs/tutorials/3_train_gail.ipynb b/docs/tutorials/3_train_gail.ipynb
@@ -126,7 +126,7 @@
     ")\n",
     "\n",
     "# train the learner and evaluate again\n",
-    "gail_trainer.train(800_000)\n",
+    "gail_trainer.train(200_000)\n",
     "env.seed(SEED)\n",
     "learner_rewards_after_training, _ = evaluate_policy(\n",
     "    learner, env, 100, return_episode_rewards=True\n",

diff --git a/docs/tutorials/4_train_airl.ipynb b/docs/tutorials/4_train_airl.ipynb
@@ -23,8 +23,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "import seals  # noqa: F401  # needed to load \"seals/\" environments\n",
     "import numpy as np\n",
-    "import gymnasium as gym\n",
     "from imitation.policies.serialize import load_policy\n",
     "from imitation.util.util import make_vec_env\n",
     "from imitation.data.wrappers import RolloutInfoWrapper\n",
@@ -34,11 +34,11 @@
     "FAST = True\n",
     "\n",
     "if FAST:\n",
-    "    N_RL_TRAIN_STEPS = 800_000\n",
+    "    N_RL_TRAIN_STEPS = 300_000\n",
     "else:\n",
     "    N_RL_TRAIN_STEPS = 2_000_000\n",
     "\n",
-    "env = make_vec_env(\n",
+    "venv = make_vec_env(\n",
     "    \"seals/CartPole-v0\",\n",
     "    rng=np.random.default_rng(SEED),\n",
     "    n_envs=8,\n",
@@ -50,7 +50,7 @@
     "    \"ppo-huggingface\",\n",
     "    organization=\"HumanCompatibleAI\",\n",
     "    env_name=\"seals-CartPole-v0\",\n",
-    "    venv=env,\n",
+    "    venv=venv,\n",
     ")"
    ]
   },
@@ -71,7 +71,7 @@
     "\n",
     "rollouts = rollout.rollout(\n",
     "    expert,\n",
-    "    env,\n",
+    "    venv,\n",
     "    rollout.make_sample_until(min_timesteps=None, min_episodes=60),\n",
     "    rng=np.random.default_rng(SEED),\n",
     ")"
@@ -101,7 +101,7 @@
     "\n",
     "\n",
     "learner = PPO(\n",
-    "    env=env,\n",
+    "    env=venv,\n",
     "    policy=MlpPolicy,\n",
     "    batch_size=64,\n",
     "    ent_coef=0.0,\n",
@@ -113,28 +113,28 @@
     "    seed=SEED,\n",
     ")\n",
     "reward_net = BasicShapedRewardNet(\n",
-    "    observation_space=env.observation_space,\n",
-    "    action_space=env.action_space,\n",
+    "    observation_space=venv.observation_space,\n",
+    "    action_space=venv.action_space,\n",
     "    normalize_input_layer=RunningNorm,\n",
     ")\n",
     "airl_trainer = AIRL(\n",
     "    demonstrations=rollouts,\n",
     "    demo_batch_size=2048,\n",
     "    gen_replay_buffer_capacity=512,\n",
     "    n_disc_updates_per_round=16,\n",
-    "    venv=env,\n",
+    "    venv=venv,\n",
     "    gen_algo=learner,\n",
     "    reward_net=reward_net,\n",
     ")\n",
     "\n",
-    "env.reset(seed=SEED)\n",
+    "venv.seed(SEED)\n",
     "learner_rewards_before_training, _ = evaluate_policy(\n",
-    "    learner, env, 100, return_episode_rewards=True\n",
+    "    learner, venv, 100, return_episode_rewards=True\n",
     ")\n",
     "airl_trainer.train(N_RL_TRAIN_STEPS)\n",
-    "env.seed(SEED)\n",
+    "venv.seed(SEED)\n",
     "learner_rewards_after_training, _ = evaluate_policy(\n",
-    "    learner, env, 100, return_episode_rewards=True\n",
+    "    learner, venv, 100, return_episode_rewards=True\n",
     ")"
    ]
   },

diff --git a/docs/tutorials/5a_train_preference_comparisons_with_cnn.ipynb b/docs/tutorials/5a_train_preference_comparisons_with_cnn.ipynb
@@ -29,7 +29,7 @@
    "source": [
     "import torch as th\n",
     "import gymnasium as gym\n",
-    "from gym.wrappers import TimeLimit\n",
+    "from gymnasium.wrappers import TimeLimit\n",
     "import numpy as np\n",
     "\n",
     "from seals.util import AutoResetWrapper\n",
@@ -64,7 +64,9 @@
     "\n",
     "# For real training, you will want a vectorized environment with 8 environments in parallel.\n",
     "# This can be done by passing in n_envs=8 as an argument to make_vec_env.\n",
-    "venv = make_vec_env(constant_length_asteroids, env_kwargs={\"num_steps\": 100})\n",
+    "# The seed needs to be set to 1 for reproducibility and also to avoid win32\n",
+    "# np.random.randint high bound error.\n",
+    "venv = make_vec_env(constant_length_asteroids, env_kwargs={\"num_steps\": 100}, seed=1)\n",
     "venv = VecFrameStack(venv, n_stack=4)\n",
     "\n",
     "reward_net = CnnRewardNet(\n",

diff --git a/docs/tutorials/8a_train_sqil_sac.ipynb b/docs/tutorials/8a_train_sqil_sac.ipynb
@@ -80,7 +80,7 @@
     "SEED = 42\n",
     "\n",
     "venv = make_vec_env(\n",
-    "    \"seals/HalfCheetah-v0\",\n",
+    "    \"seals/HalfCheetah-v1\",\n",
     "    rng=np.random.default_rng(seed=SEED),\n",
     ")\n",
     "\n",

diff --git a/setup.cfg b/setup.cfg
@@ -36,6 +36,10 @@ filterwarnings =
 markers =
     expensive: mark a test as expensive (deselect with '-m "not expensive"')
 
+# Terminate the test just before CircleCI's 10-minute timeout so we see the test failure
+# instead of a timeout.
+timeout = 590
+
 [coverage:run]
 source = imitation
 include=

diff --git a/setup.py b/setup.py
@@ -48,6 +48,7 @@
         "pytest~=7.1.2",
         "pytest-cov~=3.0.0",
         "pytest-notebook==0.8.0",
+        "pytest-timeout~=2.1.0",
         "pytest-xdist~=2.5.0",
         "scipy~=1.9.0",
         "wandb==0.12.21",

diff --git a/tests/algorithms/test_sqil.py b/tests/algorithms/test_sqil.py
@@ -246,18 +246,22 @@ def test_sqil_performance_continuous(
     pendulum_single_venv: vec_env.VecEnv,
     rl_algo_class: Type[off_policy_algorithm.OffPolicyAlgorithm],
 ):
+    rl_kwargs = dict(
+        learning_starts=500,
+        learning_rate=0.001,
+        gamma=0.95,
+        seed=42,
+    )
+    if rl_algo_class == ddpg.DDPG:
+        rl_kwargs["gamma"] = 0.99
+        rl_kwargs["learning_starts"] = 100
     _test_sqil_performance(
         rng,
         pytestconfig,
         pendulum_single_venv,
         "Pendulum-v1",
         rl_algo_class=rl_algo_class,
-        rl_kwargs=dict(
-            learning_starts=500,
-            learning_rate=0.001,
-            gamma=0.95,
-            seed=42,
-        ),
+        rl_kwargs=rl_kwargs,
     )
 
 

diff --git a/tests/scripts/test_scripts.py b/tests/scripts/test_scripts.py
@@ -853,6 +853,7 @@ def test_train_rl_cnn_policy(tmpdir: str, rng):
 }
 
 
+@pytest.mark.skipif(sys.platform.startswith("win"), reason="Ray is buggy on windows.")
 @pytest.mark.parametrize("config_updates", PARALLEL_CONFIG_UPDATES)
 def test_parallel(config_updates, tmpdir):
     """Hyperparam tuning smoke test."""

diff --git a/tests/test_examples.py b/tests/test_examples.py
@@ -52,7 +52,9 @@ def test_run_tutorial_notebooks(nb_path) -> None:  # pragma: no cover
         nb_path: Path to the notebook to test.
     """
     nb = ptnb.notebook.load_notebook(nb_path)
-    result = ptnb.execution.execute_notebook(nb, cwd=TUTORIALS_DIR, timeout=120)
+    # TODO(GH#793): Shorten timeout and ensure the notebook can still show desired
+    # improvement.
+    result = ptnb.execution.execute_notebook(nb, cwd=TUTORIALS_DIR, timeout=540)
     assert result.exec_error is None