测试内容:
- 九个大模型参加了2024年的高考,其中包括GPT-4o、豆包(字节跳动)、文心 4.0(百度)等。
- 考卷使用了河南省的高考试卷,这是中国难度较高的考卷之一。
- 测试结果显示,大模型在文科科目的表现优于理科,特别是英语科目表现最为突出。
考试方法:
- 所有科目进行了两轮测试,并取平均分。
- 数学公式使用Markdown/LaTeX格式输入。
- 对于图像问题,如果模型能识别图片,则输入图片和文字;如果无法识别,则只输入文字。
- 评分标准与人类考生相同。
考试结果:
- GPT-4o在文科总分中得分最高(562分),超过了河南省一本线41分。
- 豆包和文心4.0也在文科成绩上超过了一本线。
- 大模型在英语科目的平均分高达132分,接近满分。
各科目表现:
- 英语:大模型表现优异,多数接近满分。
- 语文:大模型作文写作能力超过平均水平,但在深刻性和创造性方面存在不足。
- 数学:大模型表现不佳,即使最好的模型也未达到及格线。
- 理综:大模型在生物科目表现相对较好,但在物理和化学上表现不佳。
结论:
- 大模型在文科特别是英语和语文上展现出了较高的能力,但在数学和理科上存在明显不足。
- 测试结果揭示了大模型在逻辑推理和深刻理解方面与人类的差异。
© 版权声明
文章版权归作者所有,未经允许请勿转载。