最近两年,ChatGPT的火热催生了一大批AI大模型,让大家对于生成式AI的能力,可谓是又惊讶又担心,引发大家的担忧,担心自己的工作、技能会被AI取代!而高考这样的知识性的测验,就很适合AI大模型去做测试,如果用AI来代替学生去高考,会怎么样?
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排名二三位。
红星资本局7月17日消息,今日,AI大模型在数学上的翻车话题引发不小关注。一道“9.11和9.9哪个大”的简单数学题,竟困住了海内外一众AI大模型平台。数学偏科8个大模型全答错9.11和9.9哪个更大?
提供1000+款AI效率工具丨AIEVA.CN丨欢迎访问AI奇点网-AI资讯特刊丨6月20日6月19日,上海人工智能实验室和司南评测体系发布了国内首个针对AI大模型参与2024高考「语数英」三科目的全卷解题能力测试的结果。
·大部分大模型“考生”语文、英语科目表现良好,但在数学方面还有待加强。阅卷老师点评,在语文科目上,对于语言中的一些“潜台词”,大模型尚无法完全理解。在数学科目上,大模型的主观题回答相对凌乱,且过程具有迷惑性。6月19日,首个大模型高考全卷评测结果公布。
6月19日,上海人工智能实验室公布了多名“AI考生”参加今年中国高考的成绩。评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
上海人工智能实验室今天公布了多名“AI考生”参加今年中国高考的成绩,阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星(InternLM2-20B-WQX)成为三甲,得分率均超过70%。大部分“AI考生”在语文、英语科目上表现良好,但数学成绩不如人意。
上海人工智能实验室今天公布了多名“AI考生”参加今年中国高考的成绩,阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星(InternLM2-20B-WQX)成为三甲,得分率均超过70%。大部分“AI考生”在语文、英语科目上表现良好,但数学成绩不如人意。