🔬 科学

Texas A&M 研究人员开发出最难 AI 基准测试，揭示模型惊人局限性

AI 摘要ScienceDaily116天前United States

Texas A&M University 的科学家们在 50 多位合作者的共同参与下，创建了迄今为止最具挑战性的 AI 测试，旨在评估先进语言模型在复杂推理任务上的表现。
初步结果显示，即使是顶级 AI 系统也面临显著困难，这表明尽管这些模型在简单基准测试中表现出色，但在实际能力上仍存在差距。
该基准测试已在同行评审论文中详细阐述，旨在推进 AI 安全性和鲁棒性研究的边界。
未来的迭代版本将纳入多模态挑战，以进一步压力测试新兴模型。

来源与引用

3 个来源

ScienceDaily[1]

TechXplore[2]

arXiv[3]

更多故事

科学AI 摘要4小时前

SpaceX 从加利福尼亚州发射 81 颗卫星进入轨道，火箭在海上回收船着陆

• SpaceX 于东部时间 7 月 7 日（周二）凌晨 3:12 从加利福尼亚州成功发射了一枚 Falcon 9 火箭。 • 此次 Transporter-17 拼车任务将 81 个独立载荷送入轨道。

阅读原文 · space.com

Space.com

科学AI 摘要4小时前

NASA 局长称中国可能很快在太空探索领域超越美国：但这将塑造太空的未来

• NASA 局长警告称，中国在太空探索领域具有超越美国的潜力。 • 这一进展凸显了日益激烈的地缘政治战场，两大超级大国在太空技术和探索领域竞争主导权。

阅读原文 · timesofindia.indiatimes.com

科学AI 摘要4小时前

科学家计算出地球上最后一株植物将何时死亡；答案是大约20亿年后

• 研究人员 Jacob Haqq-Misra 和 Eric Wolf 计算出，地球的植被生物圈可能会再持续 18 亿至 18.7 亿年。 • 这一新估算值明显长于之前的科学预测，之前的预测认为植物生命将在 9 亿至 15 亿年内消失。

阅读原文 · timesofindia.indiatimes.com

科学AI 摘要4小时前

Artemis II 宇航员 Jeremy Hansen 在历史性月球任务后数周宣布从航天局退休

• 加拿大宇航员 Jeremy Hansen 周一宣布，他即将从 Canadian Space Agency 的全职岗位退休。 • 这一决定是在他参与了旨在让人类重返月球附近的具有历史意义的 Artemis II 任务之后做出的。

阅读原文 · cnn.com

科学AI 摘要16小时前

日本隼2号探测器拍摄到6200万英里外“双头”小行星的惊人照片

• 日本Hayabusa2小行星探测器于7月5日拍摄了双叶小行星Torifune的高分辨率图像。 • 该航天器在约6200万英里的距离上接近这块双头太空岩石，以记录其独特的结构。

阅读原文 · space.com

Space.com

科学AI 摘要16小时前

James Webb 望远镜绘制史上最大宇宙地图，揭秘隐藏角落

• 天文学家利用 James Webb Space Telescope 绘制了迄今为止最详细的宇宙网地图。 • 该项目专注于通过将连接星系的庞大丝状网络可视化，来揭开宇宙中“隐藏角落”的神秘面纱。

阅读原文 · livescience.com

Live Science

科学AI 摘要16小时前

批评者称 GB News 共同所有者在化石燃料投资大增后“利用气候混乱牟利”

• 活动人士指责 GB News 的共同所有者 Sir Paul Marshall 在大幅增加化石燃料投资后，“利用气候混乱牟利”。 • 分析显示，Marshall 的投资组合包括多家油气田服务公司以及勘探与生产公司。

阅读原文 · theguardian.com

科学AI 摘要1天前

本周科学新闻：James Webb 望远镜发现前所未见的物质，中国“三北工程”绿墙生长速度超过天然树木，美第奇家族谋杀之谜获破解

• 2026年7月4日的科学综述重点介绍了三项重大发现：James Webb Space Telescope 鉴定出一种此前未知的物质，中国“三北工程”绿墙的快速生长，以及一个美第奇家族谋杀之谜的解开。 • 报告强调了该望远镜在扩展天文知识方面的作用，以及中国加速造林工作对环境产生的影响。

阅读原文 · livescience.com

本周科学新闻：James Webb 望远镜发现前所未见的物质，中国“三北工程”绿墙生长速度超过天然树木，美第奇家族谋杀之谜获破解

Live Science

科学AI 摘要1天前

NASA 正在招募志愿者在太空模拟器中生活一年

• NASA 正在为月球与火星探测模拟 (MMEA) 招募志愿者，这是一个位于 Houston 的为期一年的太空模拟项目。 • 参与者必须符合严格的身体和教育要求，并通过包括严苛心理筛选在内的为期多日的选拔过程。

阅读原文 · yahoo.com

科学AI 摘要1天前

NASA 局长表示美国目前正与中国处于“太空竞赛”中 - CBS News

• NASA 局长 Jared Isaacman 表示，美国目前正与中国进行一场“太空竞赛”。 • 竞争的核心目标是将宇航员送上月球并建立一个近乎永久的月球基地。

阅读原文 · cbsnews.com

科学AI 摘要1天前

NASA以宇宙中的红白蓝快照庆祝美国250周年诞辰 —— 本周太空照片

• NASA的Chandra X-ray Observatory发布了一系列以红、白、蓝现象为特色的宇宙图像，以庆祝美国250周年诞辰。 • 这组“本周太空照片”集锦展示了来自各种天体的高能X射线数据，以映衬美国国旗的颜色。

阅读原文 · livescience.com

Live Science

科学AI 摘要1天前

NASA 的系外行星探测任务意外发现了一个本不计划寻找的世界

• NASA 于 2018 年发射的 TESS 卫星旨在通过凌日法（监测恒星亮度的下降）探测系外行星，但该卫星意外地利用一种完全不同的探测技术发现了一个遥远的世界。 • 尽管该任务是专门为寻找经过恒星前方的行星而设计的，但科学家们意识到，这台望远镜在运行过程中同时通过一种意想不到的方法收集了关于行星的证据。

阅读原文 · scientificamerican.com

Scientific American

🔬 科学

Texas A&M 研究人员开发出最难 AI 基准测试，揭示模型惊人局限性

AI 摘要ScienceDaily116天前United States

Texas A&M University 的科学家们在 50 多位合作者的共同参与下，创建了迄今为止最具挑战性的 AI 测试，旨在评估先进语言模型在复杂推理任务上的表现。
初步结果显示，即使是顶级 AI 系统也面临显著困难，这表明尽管这些模型在简单基准测试中表现出色，但在实际能力上仍存在差距。
该基准测试已在同行评审论文中详细阐述，旨在推进 AI 安全性和鲁棒性研究的边界。
未来的迭代版本将纳入多模态挑战，以进一步压力测试新兴模型。