Scaling Karpathy's Autoresearch: What Happens When the Agent Gets a GPU Cluster

Alpha This system is experimental. Scores and classifications are early-stage research and may be unreliable. Methodology →

Model: @cf/meta/llama-4-scout-17b-16e-instruct lite ND @cf/meta/llama-4-scout-17b-16e-instruct lite 0.00 @cf/meta/llama-3.3-70b-instruct-fp8-fast lite ND @cf/meta/llama-3.3-70b-instruct-fp8-fast lite 0.00 Compare

ND	Scaling Karpathy's Autoresearch: What Happens When the Agent Gets a GPU Cluster (blog.skypilot.co)
	237 points by hopechong 9 days ago \| 94 comments on HN ~lite vlite-2.0

Summary ~lite

Technical blog post discusses scaling AI experiments with GPU clusters.

Lite evaluation by llama-4-scout-wai-psq · editorial channel only · no per-section breakdown available

Longitudinal 692 HN snapshots · 130 evals

Audit Trail 150 entries

2026-03-22 02:22	eval_success	PSQ evaluated: g-PSQ=0.280 (3 dims)	- -
2026-03-22 02:22	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-22 02:05	eval_success	Lite evaluated: Neutral (0.00)	- -
2026-03-22 02:05	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-22 02:04	rater_validation_warn	Lite validation warnings for model llama-4-scout-wai: 1W 0R	- -
2026-03-22 01:02	eval_success	PSQ evaluated: g-PSQ=0.280 (3 dims)	- -
2026-03-22 01:02	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-22 00:58	eval_success	Lite evaluated: Neutral (0.00)	- -
2026-03-22 00:58	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-22 00:58	rater_validation_warn	Lite validation warnings for model llama-4-scout-wai: 1W 0R	- -
2026-03-21 23:36	eval_success	PSQ evaluated: g-PSQ=0.280 (3 dims)	- -
2026-03-21 23:36	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 23:21	eval_success	Lite evaluated: Neutral (0.00)	- -
2026-03-21 23:21	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 23:21	rater_validation_warn	Lite validation warnings for model llama-4-scout-wai: 1W 0R	- -
2026-03-21 22:23	eval_success	PSQ evaluated: g-PSQ=0.280 (3 dims)	- -
2026-03-21 22:23	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 22:02	eval_success	Lite evaluated: Neutral (0.00)	- -
2026-03-21 22:02	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 22:02	rater_validation_warn	Lite validation warnings for model llama-4-scout-wai: 1W 0R	- -
2026-03-21 20:37	eval_success	PSQ evaluated: g-PSQ=0.280 (3 dims)	- -
2026-03-21 20:37	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 20:20	eval_success	Lite evaluated: Neutral (0.00)	- -
2026-03-21 20:20	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 20:20	rater_validation_warn	Lite validation warnings for model llama-4-scout-wai: 1W 0R	- -
2026-03-21 17:52	credit_exhausted	Credit balance too low, pausing provider for 30 min	- -
2026-03-21 15:52	eval_success	PSQ evaluated: g-PSQ=0.280 (3 dims)	- -
2026-03-21 15:52	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 15:42	eval_success	Lite evaluated: Neutral (0.00)	- -
2026-03-21 15:42	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 15:42	rater_validation_warn	Lite validation warnings for model llama-4-scout-wai: 1W 0R	- -
2026-03-21 15:11	eval_success	PSQ evaluated: g-PSQ=0.280 (3 dims)	- -
2026-03-21 15:11	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 15:05	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 14:28	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 14:25	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 13:45	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 13:44	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 12:45	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 12:39	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 12:05	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 12:00	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 11:23	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 11:21	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 10:41	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 10:39	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 09:43	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 09:40	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 07:57	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 07:47	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 07:15	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 07:09	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 06:35	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 06:33	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 05:56	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 05:54	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 04:34	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 04:14	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 03:45	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 03:24	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 03:09	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 02:45	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 02:32	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 02:06	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 01:53	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 01:23	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-21 00:52	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-21 00:35	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 23:58	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 23:13	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 23:12	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 22:01	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 22:01	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 21:26	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 21:24	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 20:51	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 20:48	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 20:16	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 20:12	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 19:40	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 19:33	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 18:28	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 18:21	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 17:53	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 17:32	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 17:01	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 16:14	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 15:44	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 15:32	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 15:03	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 14:51	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 14:27	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 14:15	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 13:51	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 13:37	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 13:17	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 13:01	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 12:39	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 12:19	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 11:59	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 11:40	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 11:23	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 10:58	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 10:43	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 10:22	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 10:07	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 09:42	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 09:29	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 09:05	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 08:51	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 08:23	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 08:12	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 07:45	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 07:33	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 07:05	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 06:52	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 06:24	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 06:14	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 05:47	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 05:39	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 05:12	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 05:04	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 04:37	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 04:29	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 04:02	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 03:54	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 03:27	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 03:19	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 02:50	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 02:39	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 02:12	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 02:05	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 01:45	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 01:42	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 01:02	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-20 01:01	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-20 00:09	eval	Evaluated by llama-3.3-70b-wai-psq: +0.12 (Mild positive)
2026-03-20 00:04	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral)
	reasoning Technical blog post on AI research
2026-03-19 23:56	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-19 23:54	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-19 23:15	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-19 23:14	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-19 22:25	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-19 22:24	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-19 21:18	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-19 21:18	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-19 19:58	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive) 0.00
2026-03-19 19:58	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Technical blog post on scaling AI experiments, no human rights discussion
2026-03-19 18:48	eval	Evaluated by llama-4-scout-wai-psq: +0.28 (Mild positive)
2026-03-19 18:48	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral)
	reasoning Technical blog post on scaling AI experiments, no human rights discussion

build ee2b489+gzrb · deployed 2026-03-10 22:52 UTC · evaluated 2026-03-16 02:03:38 UTC