OpenAI近期发布了一项名为GDPval的新基准测试,旨在衡量其人工智能模型在多个职业领域中的表现,并与人类专业人士进行比较。结果显示,其GPT-5模型在多个职业任务上的表现已接近甚至达到行业专家的水平。 这项测试覆盖了美国GDP贡献最大的9个行业,包括医疗、金融、制造业和政府服务等,涉及44种不同职业,如软件工程师、护士和记者等。OpenAI通过对比人工智能生成的报告与人类专业人士的报告,评估了GPT-5和Anthropic公司的Claude Opus 4.1模型的表现。 测试结果显示,GPT-5在40.6%的测试场景中被评定为“优于或与行业专家持平”,而Claude Opus 4.1则在49%的任务中达到这一标准。尽管如此,OpenAI强调,目前GDPval测试仅覆盖了人类工作中的一小部分任务,且未来将开发更全面的测试版本。 OpenAI首席经济学家亚伦·查特吉博士表示,这些进展意味着从事相关职业的人可以利用人工智能模型来处理更多低价值任务,从而将时间投入到更有意义的活动中。OpenAI评估部门负责人特贾尔·帕特瓦丹也指出,GPT-5在GDPval测试中的胜率显著提升,预示着人工智能在实用价值上的不断增长。 尽管如此,OpenAI承认目前的人工智能模型还无法全面取代人类工作,并强调需要更全面的测试来评估其能力。随着OpenAI在多个领域证明其人工智能模型的实用价值,GDPval这类基准测试在人工智能发展讨论中的重要性日益凸显。
上一篇