Preprint arXiv 2026

Towards Apples to Apples for AI Evaluations: From Real-World Use Cases to Evaluation Scenarios

YY Choong · K Greene · A Qian · M Marasli · Z Yang · S Chen · L Dabbish · ...

arXiv preprint arXiv:2605.07986

← All Publications