OpenAI正式发布GPT-5

音符科技网

  OpenAI 已推出全新旗舰人工智能模型 GPT-5,该模型将为公司下一代 ChatGPT 提供技术支持。

  于周四发布的 GPT-5 是 OpenAI 的首个 “统一” 人工智能模型,它融合了 o 系列模型的推理能力与 GPT 系列的快速响应优势。这款下一代模型标志着 ChatGPT 及其开发者 OpenAI 迈入新纪元,也彰显了 OpenAI 更宏大的野心 —— 开发更接近智能 *** 而非聊天的人工智能系统。

  如果说 GPT-4 让人工智能聊天机器人能够对各类问题给出智能回应,那么 GPT-5 则让 ChatGPT 能够代表用户完成多种任务,例如生成软件应用、管理用户日程或创建研究简报。

  借助 GPT-5,OpenAI 还致力于让 ChatGPT 更易于使用。GPT-5 配备了实时路由机制,无需用户手动选择设置,就能自主决定如何提供更佳答案 —— 无论是快速回应用户问题,还是花更多时间 “思考” 答案。

  在记者简报会上,OpenAI 首席执行官山姆・奥特曼称 GPT-5 是 “世界上最出色的模型”,并表示它代表着公司在开发 “能在大多数高经济价值工作中超越人类” 的人工智能(即人工通用智能,AGI)道路上迈出了 “重要一步”。

  “在历史上任何时期,像 GPT-5 这样的技术都几乎是无法想象的,” 奥特曼说。

  从周四开始,GPT-5 将作为默认模型向所有 ChatGPT 免费用户开放。OpenAI 负责 ChatGPT 的副总裁尼克・特利表示,这是公司首次让免费用户接触到人工智能推理模型(此前,这类更先进的模型仅对付费用户开放)。

  “这只是我为践行使命而感到兴奋的方式之一,确保这些技术真正惠及大众,” 特利在谈及这一决定时说,他提到了 OpenAI 长期以来的使命 —— 让尽可能多的人接触到先进的人工智能。

  外界对 GPT-5 的期待极高,它是自 2022 年 ChatGPT 让 OpenAI 声名鹊起以来,该公司最受期待的产品发布之一。据该公司称,从那以后,ChatGPT 已成长为全球更受欢迎的消费级产品之一,每周用户超过 7 亿 —— 接近全球人口的 10%。

  许多人将 GPT-5 视为人工智能整体发展的风向标,硅谷对该模型的反响可能会对大型科技公司、华尔街以及监管科技的政策制定者产生深远影响。这些利益相关方正密切关注 GPT-5 是否能像其前代产品 GPT-4 那样,在人工智能能力上实现重大飞跃,打破人们对软件功能的固有预期。

  GPT-5 略胜竞争对手一筹

  OpenAI 称,GPT-5 在多个领域达到了更先进水平,在关键基准测试中略优于 Anthropic、谷歌 DeepMind 和埃隆・马斯克的 xAI 等公司的顶尖人工智能模型。不过,在其他一些领域,GPT-5 的表现略逊于前沿人工智能模型。

  该公司表示,GPT-5 在编程领域展现出前沿水平;奥特曼称,该模型尤其擅长按需生成完整的软件应用,也就是人们所说的 “氛围编程”。

  在 SWE-bench Verified(一项基于 GitHub 真实编程任务的测试)中,GPT-5 首次尝试的得分达到 74.9%。这意味着 GPT-5 略优于 Anthropic 最新的 Claude Opus 4.1 模型(得分 74.5%)和谷歌 DeepMind 的 Gemini 2.5 Pro 模型(得分 59.6%)。

  在 “人类终极考试”(一项衡量人工智能模型在数学、人文和自然科学领域表现的高难度测试)中,具备扩展推理能力的 GPT-5 版本(GPT-5 Pro)在使用工具的情况下得分 42%。这略低于 xAI 的 Grok 4 Heavy 模型,后者在该测试中得分 44.4%。

在 GPQA Diamond(一项针对博士级科学问题的测试)中,GPT-5 Pro 首次尝试得分 89.4%,超过 Claude Opus 4.1(得分 80.9%)和 Grok 4 Heavy(得分 88.9%)。在 GPQA Diamond(一项针对博士级科学问题的测试)中,GPT-5 Pro 首次尝试得分 89.4%,超过 Claude Opus 4.1(得分 80.9%)和 Grok 4 Heavy(得分 88.9%)。

  OpenAI 表示,GPT-5 在回答健康相关问题方面表现更出色。在衡量人工智能模型健康领域回应准确性的测试 “HealthBench Hard Hallucinations” 中,OpenAI 称 GPT-5(启用思考功能时)的幻觉率仅为 1.6%。这远低于该公司此前的 GPT-4o 和 o3 模型,后两者的得分分别为 12.9% 和 15.8%。

  尽管人工智能聊天机器人并非医疗专业人员,但数百万用户正借助它们获取健康建议。针对这一现象,该公司表示,GPT-5 会更主动地提示潜在的健康问题,并帮助用户解读医疗检查结果。

  此外,OpenAI 称,在创意设计、写作等更难衡量的主观领域,GPT-5 也优于其他人工智能模型。特利表示,在创意任务中,GPT-5 的回应更自然,且展现出 “更好的品味”。

  “这款模型的‘氛围’真的很棒,” 特利说。

  GPT-5 也比 OpenAI 之前的模型更准确,该公司称,与 o 系列模型相比,GPT-5 的幻觉现象(即人工智能模型编造信息的倾向)大幅减少。此前,在 OpenAI 最新的人工智能推理模型(如 o3)中,幻觉问题似乎愈发严重,而该公司此前表示尚未完全弄清楚原因。

  在对 ChatGPT 提示词的回应中,OpenAI 发现 GPT-5(启用思考功能时)产生幻觉并给出错误信息的概率为 4.8%。这较 o3 和 GPT-4o 有显著降低,后两者在测试中的幻觉率分别为 22% 和 20.6%。

  在衡量人工智能模型完成模拟在线任务的 *** 能力基准测试 Tau-bench 中,GPT-5 的表现好坏参半。在测试人工智能浏览航空公司网站能力的部分,GPT-5 得分 63.5%,略低于 o3 模型的 64.8%。在测试人工智能浏览零售网站能力的另一部分,GPT-5 得分 81.1%,低于 Claude Opus 4.1 模型的 82.4%。

  OpenAI 还表示,GPT-5 比其之前的模型更安全。尽管人工智能推理模型偶尔会表现出针对人类的谋划倾向,或为了达成自身目标而说谎,但 OpenAI 发现 GPT-5 的欺骗率低于其他模型。

  OpenAI 安全研究负责人亚历克斯・比图尔表示,降低欺骗性不仅提高了 GPT-5 的安全性,还改善了用户体验,打造出一个 “在用户可信赖的层面上更透明、更诚实” 的模型。

  比图尔还指出,GPT-5 能更好地区分试图滥用 ChatGPT 的恶意用户和提出无害请求的用户。这使得 GPT-5 能够拒绝更多不安全的问题,同时减少对寻求无害信息用户的拒绝次数。

  为消费者和开发者打造的升级功能

  随着 GPT-5 的发布,ChatGPT 迎来了多项用户体验升级。用户现在可以在 ChatGPT 的设置中选择四种新的人格:愤世嫉俗型、机器人型、倾听者型和书呆子型。该公司表示,这些人格将自动调整 ChatGPT 的回应方式,无需用户专门要求模型以特定方式回应。

  每月支付 20 美元的 ChatGPT Plus 订阅用户比免费用户拥有更高的 GPT-5 使用限额。而每月支付 200 美元的 Pro 订阅用户可无限制使用 GPT-5,并能访问增强版的 GPT-5 Pro—— 该版本使用额外的计算资源生成更优质的答案。采用 OpenAI Team、Edu 和企业版计划的机构将在下周获得 GPT-5 作为默认模型。

  对于开发者,GPT-5 将以三种规格通过 OpenAI 的 API 开放 ——gpt-5、gpt-5-mini 和 gpt-5-nano,它们在任务 “推理” 上花费的时间长短不同。开发者现在还可以通过 OpenAI API 控制回应的详细程度,决定人工智能模型的回应篇幅长短。

  GPT-5 基础模型对开发者的收费为:每百万输入令牌 1.25 美元(约合 75 万个单词,比整套《指环王》系列的字数还多),每百万输出令牌 10 美元。

  GPT-5 的发布之前,OpenAI 度过了忙碌的一周。该公司发布了开源权重推理模型 gpt-oss,开发者和企业可免费下载,且运行成本极低。这款开源模型的能力几乎与 OpenAI 之前的顶级模型 o3 和 o4-mini 相当,但 GPT-5 在编程等部分领域树立了新的前沿性能标准。

  不过,在多个领域,GPT-5 似乎与其他前沿人工智能模型大致相当。当然,基准测试只能反映人工智能模型的部分表现,开发者将如何在现实世界中使用 GPT-5,以及该模型是否真的超越竞争对手,仍有待观察。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 低度酒行业上市公司董秘观察:5家公司董秘薪酬下降 古越龙山董秘吴晓钧降薪5.87万元至60.93万元
  • 脑机接口利好来袭!概念股20%涨停!
  • 低度酒行业上市公司董秘观察:5家公司董秘薪酬下降 金枫酒业张黎云降薪18.63万元至47.61万元
  • 特朗普见面第一句问“金正恩最近好吗”,韩方代表不知所措
  • 中小学生体质下滑趋势迎来拐点?多项体测数据变强了
  • 超捷股份:已取得包括智元机器人等部分客户小批量样品及正式小批量订单
  • 堤坝决口、水库溃坝?警惕这些闻“汛”而来的谣言|安全贴心话
  • 午评:港股恒指跌0.66% 科指跌0.99% 科网股全线下跌 风电股强势
  • 低度酒行业上市公司董秘观察:5家公司董秘薪酬在增加 惠泉啤酒程晓梅增加21.96万元至55.54万元
  • 浦发银行的内控“黑洞”何时休?
  • 7月挖掘机销量同比大增25.2%,内外需共振下景气度有望延续
  • 中国宏桥午前涨近3% 上半年纯利同比预增35%左右
  • 低度酒行业上市公司董秘观察:燕京啤酒董秘徐月香薪酬增长金额最高 增加24.43万元至105.16万元
  • 锂业股午前再度活跃 天齐锂业涨逾4%赣锋锂业涨逾2%
  • 低度酒行业上市公司董秘观察:*ST兰黄呼星薪酬为29.33万元 仅次于莫高股份
  • 一男子发布12字评论被行拘,两年3次判决
  • 景兴纸业财务总监盛晓英大专学历年薪88万,公司归母净利暴跌22%而CFO薪酬仅微降0.9%
  • 董明珠:一个好企业不赚钱不行,但永远赚钱不是好企业的目的和目标
  • 马斯克:特斯拉不应同时推进两种截然不同的芯片设计
  • A股午评:沪指半日涨0.07%,深证成指涨0.14%,盾构机、超级水电、航天系概念走强
  • 低度酒行业上市公司董秘观察:薪酬最低的是莫高股份何文天 仅为14万元
  • 巨子生物午前涨超5% 可复美入驻韩国首尔新罗免税店
  • 2025具身智能机器人十大发展趋势发布
  • 五菱汽车午前涨近4% 预计上半年纯利同比增加约298%
  • 董明珠:成为真正帮助别人的企业,强者能成为别人的依靠
  • 低度酒行业上市公司董秘观察:张裕A董秘姜建勋薪酬99.72万元 降薪25.24万元
  • 以色列政府已批准占领加沙城计划,安全内阁通过结束战争的五项原则”!哈马斯曾强烈谴责......
  • 科技顶流受邀北戴河休假,释放不同寻常信号
  • 【专访】张晓涛:全球经贸秩序正在重塑,中国制造要从“量”向“质”转型
  • 低度酒行业上市公司董秘观察:100万以上董秘有2名 燕京啤酒徐月香薪酬105.16万元
  • 日股劲扬 日本称美国将终止关税叠加
  • 阜博集团盘中大涨超17% 本周股价已累计涨超五成
  • 长城基金刘疆:良性趋势下或持续有板块走强
  • 中欧班列“东通道”今年累计通行班列超3000列
  • 日本财务大臣:美国降关税将使日本GDP受到的冲击减少0.2个百分点
  • 董明珠:刀刃向内,目前十年免费包修还没有企业敢跟上
  • 博汇纸业财务总监魏同秋大专学历年薪150万,公司归母净利润降3%股价跌16%,CFO却逆势涨薪32万若争议
  • 小金属行业董秘薪资PK:中矿资源董秘张津伟年薪超百万 公司毛利率大幅下降、ROE降至不足7%
  • 小金属行业董秘薪资PK:西部材料董秘顾亮年薪超百万 公司毛利率/净利率持续下滑、ROE<7%
  • 小金属行业董秘薪资PK:广晟有色董秘柯昌波年薪腰斩、降幅最大
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码