Research
Open Source
Product
About
Writing
GitHub
Store
Contact

Tags

← Home / Writing

#agent-evaluation

ARIA Benchmark: How Much Machine Learning Do AI Models Actually Know? March 01, 2026
ArXiv Research Code Dataset: 129K Research Repositories March 01, 2026
ArXivDLInstruct: 778K Research Code Functions for Instruction Tuning March 01, 2026
DeltaMLBench: Can AI Agents Improve on Published ML Research? March 01, 2026
ML Research Benchmark: Can AI Agents Do Real ML Research? January 01, 2025

#agents

Epsilon: Infrastructure for Structured Agent Workloads March 30, 2026

#agi

Teaching Models to Bluff: Measuring Deception, Belief, and Coordination in LLM Secret Hitler March 01, 2026

#ai-research

Teaching Models to Bluff: Measuring Deception, Belief, and Coordination in LLM Secret Hitler March 01, 2026

#ai-safety

The Capabilities Concern Is Wrong: Why AI Safety Work Should Be Open April 13, 2026
Automating AI Safety Research Requires an Open Ecosystem, Not Bigger Grants April 03, 2026

#announcements

Introducing Algorithmic Research Group October 06, 2024

#architecture search

Learning to Rank Architectures: A Small Model That Guides Neural Architecture Search March 04, 2026

#benchmarks

ARIA Benchmark: How Much Machine Learning Do AI Models Actually Know? March 01, 2026
ArXiv Research Code Dataset: 129K Research Repositories March 01, 2026
ArXivDLInstruct: 778K Research Code Functions for Instruction Tuning March 01, 2026
DeltaMLBench: Can AI Agents Improve on Published ML Research? March 01, 2026
ML Research Benchmark: Can AI Agents Do Real ML Research? January 01, 2025

#datasets

S2ORC CS Enriched: 1.1 Million Computer Science Papers with Structured Metadata March 30, 2026

#funding

Automating AI Safety Research Requires an Open Ecosystem, Not Bigger Grants April 03, 2026

#gpu

Study Failure: AI-driven GPU Kernel Optimization March 05, 2026

#infrastructure

Epsilon: Infrastructure for Structured Agent Workloads March 30, 2026

#machine learning

S2ORC CS Enriched: 1.1 Million Computer Science Papers with Structured Metadata March 30, 2026
Study Failure: AI-driven GPU Kernel Optimization March 05, 2026
Learning to Rank Architectures: A Small Model That Guides Neural Architecture Search March 04, 2026

#nas

Learning to Rank Architectures: A Small Model That Guides Neural Architecture Search March 04, 2026

#optimization

Study Failure: AI-driven GPU Kernel Optimization March 05, 2026

#orchestration

Epsilon: Infrastructure for Structured Agent Workloads March 30, 2026

#python

ARIA Benchmark: How Much Machine Learning Do AI Models Actually Know? March 01, 2026
ArXiv Research Code Dataset: 129K Research Repositories March 01, 2026
ArXivDLInstruct: 778K Research Code Functions for Instruction Tuning March 01, 2026
DeltaMLBench: Can AI Agents Improve on Published ML Research? March 01, 2026
ML Research Benchmark: Can AI Agents Do Real ML Research? January 01, 2025

#recursive-improvement

Teaching Models to Bluff: Measuring Deception, Belief, and Coordination in LLM Secret Hitler March 01, 2026

#research

The Capabilities Concern Is Wrong: Why AI Safety Work Should Be Open April 13, 2026
Automating AI Safety Research Requires an Open Ecosystem, Not Bigger Grants April 03, 2026

#scientific-papers

S2ORC CS Enriched: 1.1 Million Computer Science Papers with Structured Metadata March 30, 2026

Open infrastructure for AI security research.

Research

All Research
Open Source
By Topic
Datasets

Writing

Latest
Archives

Lab

About
Contact
GitHub
HuggingFace

© 2026 Algorithmic Research Group