司南·Daily Benchmark 专区今日上新!
SlidesGen-Bench
一个围绕通用性、可量化性与可靠性三大核心原则构建的幻灯片生成评测基准。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2009487
UR-Bench
超高分辨率推理基准,用于评估 MLLMs 在极端高视觉信息密度场景下的推理能力。 https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2008748
GI-Bench
旨在全面评估当前最先进的 MLLMs 在全景式胃肠道内镜临床流程中的表现,并分析其相对于人类内镜医师的临床实用价值。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2008183
2025 司南年度最受欢迎评测集评选活动正式火热进行中~
欢迎大家提交 / 推荐 / 投票,让真正有价值的评测工作被更多人看见。
活动页面:
https://hub.opencompass.org.cn/2025-annual-benchmark