🚀 Snapshot Reinforcement Learning: Leveraging Prior Trajectories for Efficiency

Yanxiao Zhao, Yange Qian, Tianyi Wang, Jingyang Shan, Xiaolin Qin

Schematic Illustration of Snapshot Reinforcement Learning

📊 Experiment Results

🤗 Model List

Environment	Model Name	Evaluation Score(average of 100 episodes)	Commit
Hopper-v4	📌sdpkjc/Hopper-v4-td3_continuous_action-seed3	3577.72 ± 18.84	77fccc4
	cleanrl/Hopper-v4-td3_continuous_action-seed1	3244.59 ± 8.55	1e14f8f
	sdpkjc/Hopper-v4-td3_continuous_action-seed2	3162.70 ± 400.28	e3219bd
	sdpkjc/Hopper-v4-td3_continuous_action-seed5	3161.47 ± 427.71	754ff16
	sdpkjc/Hopper-v4-td3_continuous_action-seed4	3094.02 ± 807.61	398b843
Walker2d-v4	📌cleanrl/Walker2d-v4-td3_continuous_action-seed1	3964.51 ± 9.70	51752b6
	sdpkjc/Walker2d-v4-td3_continuous_action-seed5	3678.97 ± 340.29	089a235
	sdpkjc/Walker2d-v4-td3_continuous_action-seed3	3314.10 ± 12.34	614767a
	sdpkjc/Walker2d-v4-td3_continuous_action-seed4	3624.09 ± 539.63	dbf05cb
	sdpkjc/Walker2d-v4-td3_continuous_action-seed2	3527.67 ± 746.96	fdf3439
HalfCheetah-v4	📌cleanrl/HalfCheetah-v4-td3_continuous_action-seed1	10762.42 ± 84.09	8547754
	sdpkjc/HalfCheetah-v4-td3_continuous_action-seed4	10653.27 ± 75.24	0f60f2f
	sdpkjc/HalfCheetah-v4-td3_continuous_action-seed3	11443.36 ± 933.39	0c33876
	sdpkjc/HalfCheetah-v4-td3_continuous_action-seed2	10185.49 ± 107.47	ec9624a
	sdpkjc/HalfCheetah-v4-td3_continuous_action-seed5	10204.25 ± 139.05	39939c8
Ant-v4	📌sdpkjc/Ant-v4-td3_continuous_action-seed4	5473.45 ± 118.94	9a956a6
	sdpkjc/Ant-v4-td3_continuous_action-seed3	5211.38 ± 428.70	14610c5
	cleanrl/Ant-v4-td3_continuous_action-seed1	5240.79 ± 730.24	3bd17bc
	sdpkjc/Ant-v4-td3_continuous_action-seed5	2802.61 ± 163.65	074ff1a
	sdpkjc/Ant-v4-td3_continuous_action-seed2	2606.88 ± 36.88	ad845c9
Swimmer-v4	📌sdpkjc/Swimmer-v4-td3_continuous_action-seed4	113.19 ± 18.53	1161fa1
	sdpkjc/Swimmer-v4-td3_continuous_action-seed2	88.97 ± 19.63	d6ad4b1
	sdpkjc/Swimmer-v4-td3_continuous_action-seed5	82.71 ± 14.26	69dfa47
	cleanrl/Swimmer-v4-td3_continuous_action-seed1	60.09 ± 9.06	6eab7d2
	sdpkjc/Swimmer-v4-td3_continuous_action-seed3	62.38 ± 12.78	380bcd0
Humanoid-v4	📌sdpkjc/Humanoid-v4-td3_continuous_action-seed3	5279.53 ± 35.43	e9dd75c
	sdpkjc/Humanoid-v4-td3_continuous_action-seed5	5189.38 ± 27.99	c015a50
	sdpkjc/Humanoid-v4-td3_continuous_action-seed2	5038.18 ± 130.45	5f196ad
	cleanrl/Humanoid-v4-td3_continuous_action-seed1	5303.39 ± 514.14	0450bee
	sdpkjc/Humanoid-v4-td3_continuous_action-seed4	4880.24 ± 1187.43	873f6ab

Environment	Model Name	Evaluation Score(average of 100 episodes)	Commit
Hopper-v4	📌sdpkjc/Hopper-v4-sac_continuous_action-seed4	2862.20 ± 972.12	1ee692e
	sdpkjc/Hopper-v4-sac_continuous_action-seed3	2493.92 ± 609.06	4015a94
	sdpkjc/Hopper-v4-sac_continuous_action-seed1	2274.04 ± 605.18	63ba003
	sdpkjc/Hopper-v4-sac_continuous_action-seed5	1598.77 ± 492.69	bf93082
	sdpkjc/Hopper-v4-sac_continuous_action-seed2	1555.12 ± 279.93	d6b664e
Walker2d-v4	📌sdpkjc/Walker2d-v4-sac_continuous_action-seed4	5350.98 ± 89.84	c8561ff
	sdpkjc/Walker2d-v4-sac_continuous_action-seed3	5237.31 ± 942.48	2bb35b1
	sdpkjc/Walker2d-v4-sac_continuous_action-seed1	5192.85 ± 85.73	29d35a9
	sdpkjc/Walker2d-v4-sac_continuous_action-seed5	4731.36 ± 28.52	7a7f631
	sdpkjc/Walker2d-v4-sac_continuous_action-seed2	3678.91 ± 523.03	49501ed
HalfCheetah-v4	📌sdpkjc/HalfCheetah-v4-sac_continuous_action-seed4	11623.83 ± 156.02	bf0622e
	sdpkjc/HalfCheetah-v4-sac_continuous_action-seed2	11615.36 ± 1484.63	f5122c3
	sdpkjc/HalfCheetah-v4-sac_continuous_action-seed3	11543.00 ± 122.49	a8c2810
	sdpkjc/HalfCheetah-v4-sac_continuous_action-seed1	11211.47 ± 972.19	19da4f5
	sdpkjc/HalfCheetah-v4-sac_continuous_action-seed5	8187.18 ± 676.54	6816d88
Ant-v4	📌sdpkjc/Ant-v4-sac_continuous_action-seed3	5735.30 ± 989.07	b1126bf
	sdpkjc/Ant-v4-sac_continuous_action-seed4	5517.12 ± 1143.23	83b4537
	sdpkjc/Ant-v4-sac_continuous_action-seed2	5511.89 ± 1041.57	514f6d2
	sdpkjc/Ant-v4-sac_continuous_action-seed1	5314.44 ± 1159.54	b32f853
	sdpkjc/Ant-v4-sac_continuous_action-seed5	3544.68 ± 2044.81	be8c365
Swimmer-v4	📌sdpkjc/Swimmer-v4-sac_continuous_action-seed3	148.97 ± 5.85	6c0875a
	sdpkjc/Swimmer-v4-sac_continuous_action-seed2	76.70 ± 25.53	cf113b4
	sdpkjc/Swimmer-v4-sac_continuous_action-seed1	74.85 ± 27.64	d9fd594
	sdpkjc/Swimmer-v4-sac_continuous_action-seed4	50.26 ± 2.03	40ca421
	sdpkjc/Swimmer-v4-sac_continuous_action-seed5	46.46 ± 1.08	94560c4
Humanoid-v4	📌sdpkjc/Humanoid-v4-sac_continuous_action-seed4	5604.16 ± 404.34	316b06c
	sdpkjc/Humanoid-v4-sac_continuous_action-seed5	5570.79 ± 750.60	6e3b960
	sdpkjc/Humanoid-v4-sac_continuous_action-seed3	5328.96 ± 1015.76	204ee92
	sdpkjc/Humanoid-v4-sac_continuous_action-seed2	5306.36 ± 466.78	72f53bc
	sdpkjc/Humanoid-v4-sac_continuous_action-seed1	5220.03 ± 212.43	6f2042f

Environment	Model Name	Evaluation Score(average of 100 episodes)	Commit
Hopper-v4	📌sdpkjc/Hopper-v4-ppo_fix_continuous_action-seed3	2515.99 ± 807.22	3d317e2
	sdpkjc/Hopper-v4-ppo_fix_continuous_action-seed5	2444.71 ± 794.51	3f3fd61
	sdpkjc/Hopper-v4-ppo_fix_continuous_action-seed2	1990.14 ± 683.73	54a25d8
	sdpkjc/Hopper-v4-ppo_fix_continuous_action-seed4	1917.18 ± 681.46	2322d58
	sdpkjc/Hopper-v4-ppo_fix_continuous_action-seed1	1649.65 ± 559.09	d27a3d5
Walker2d-v4	📌sdpkjc/Walker2d-v4-ppo_fix_continuous_action-seed4	4735.58 ± 1183.56	9df90bd
	sdpkjc/Walker2d-v4-ppo_fix_continuous_action-seed2	4057.75 ± 1062.76	b25b341
	sdpkjc/Walker2d-v4-ppo_fix_continuous_action-seed3	3781.41 ± 1202.34	907651a
	sdpkjc/Walker2d-v4-ppo_fix_continuous_action-seed1	3357.25 ± 1235.64	28a01f1
	sdpkjc/Walker2d-v4-ppo_fix_continuous_action-seed5	2401.69 ± 876.52	67e3c10
HalfCheetah-v4	📌sdpkjc/HalfCheetah-v4-ppo_fix_continuous_action-seed1	4043.23 ± 526.25	bc83fb6
	sdpkjc/HalfCheetah-v4-ppo_fix_continuous_action-seed4	2522.56 ± 537.35	515348e
	sdpkjc/HalfCheetah-v4-ppo_fix_continuous_action-seed2	1866.44 ± 23.70	871ea55
	sdpkjc/HalfCheetah-v4-ppo_fix_continuous_action-seed5	1821.81 ± 27.10	b007d7f
	sdpkjc/HalfCheetah-v4-ppo_fix_continuous_action-seed3	1741.62 ± 30.79	f696a66
Ant-v4	📌sdpkjc/Ant-v4-ppo_fix_continuous_action-seed2	3611.87 ± 747.12	b88f77d
	sdpkjc/Ant-v4-ppo_fix_continuous_action-seed3	2739.20 ± 562.54	419360f
	sdpkjc/Ant-v4-ppo_fix_continuous_action-seed4	2942.98 ± 823.33	07048f2
	sdpkjc/Ant-v4-ppo_fix_continuous_action-seed5	2383.17 ± 1044.23	3eec78a
	sdpkjc/Ant-v4-ppo_fix_continuous_action-seed1	1866.34 ± 766.40	be0d911
Swimmer-v4	📌sdpkjc/Swimmer-v4-ppo_fix_continuous_action-seed1	131.51 ± 2.04	989c6ba
	sdpkjc/Swimmer-v4-ppo_fix_continuous_action-seed4	119.79 ± 2.48	5057fec
	sdpkjc/Swimmer-v4-ppo_fix_continuous_action-seed3	75.22 ± 4.29	cc81c0e
	sdpkjc/Swimmer-v4-ppo_fix_continuous_action-seed2	63.36 ± 1.08	63be675
	sdpkjc/Swimmer-v4-ppo_fix_continuous_action-seed5	60.77 ± 3.35	4435bb6
Humanoid-v4	📌sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed4	704.90 ± 153.81	83d57b0
	sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed3	687.42 ± 159.92	318aafa
	sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed2	645.69 ± 143.65	b5dcc47
	sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed5	591.69 ± 107.84	d08d91f
	sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed1	640.32 ± 171.90	e1edbff

🔖 Citing this Work

BibTeX:

@article{zhao2024snapshot,
    title={Snapshot Reinforcement Learning: Leveraging Prior Trajectories for Efficiency},
    author={Zhao, Yanxiao and Qian, Yangge and Wang, Tianyi and Shan, Jingyang and Qin, Xiaolin},
    journal={arXiv preprint arXiv:2403.00673},
    year={2024}
}