GAIA 是评估通用人工智能助手解决现实世界问题的基准测试。

GAIA 把题目按照难度分成了 Level1,2,3 三个等级。