天风证券:GPT5在降低幻觉/欺诈,增加指令遵循上取得突破,在写作/编码/健康领域表现显著

音符科技网

  炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!

  来源:天风计算机

  GPT-5是由多个模型和实时路由机制组成的同一系统

  GPT-5 是一个整合多模型的统一系统,包含快速响应的基础模型(gpt-5-main、gpt-5-main-mini)、深度推理模型(gpt-5-thinking、gpt-5-thinking-mini),以及实时路由机制。路由模块根据对话类型、复杂度、工具需求等动态选择模型,并通过用户交互数据持续优化。模型主要依靠Azure AI训练完成

  GPT-5性能提升的同时在减少幻觉/提升指令遵循上取得突破

  (1)GPT-5在性能上普遍优于GPT4和o3/o4系列,目前榜单上各项能力都排名之一

  FrontierMath测试上,GPT-5(Python)的准确率为26.3%(对比o4-mini的19.3%)

  在Humanity‘s Last Exam上GPT5(no tools)的准确率24.8%(对比o3 no tools的14.7%)

  在coding测试的SWE-bench Verified上,GPT-5思考模型准确率75% VS 的69%

  多模态上,在MMMU和VideoMMMU等测试上有所提升

  (2)在幻觉和诚实上,GPT-5取得较大突破#幻觉率是应用尤其是B端应用的巨大痛点

  在ChatGPT启用 *** 搜索完成某任务后,GPT-5的响应包含事实错误的可能性比GPT-4 o低约45%,在思考模式,GPT-5的响应包含事实错误的可能性比OpenAI o3低约80%;整体幻觉率从5%等级降低到不足1%;GPT-5这一代思考模型比慢思考模型幻觉率大幅下降(之前都是慢思考模型幻觉率更高);此外在诚实度上提升较多欺诈减少,欺诈率从o3的4.8%降低到2.1%

  (3)推理性价比提升,思考效率提升

  GPT-5(thinking)思考效率表现优于OpenAI o3,在包括视觉推理, *** 编码等任务重输出tokens减少了50-80%。同时单位推理成本较O3略降,主模型 $1.25 / M 输入,$10 / M 输出(o3 $2/M输入、$8/M输出);mini / nano 依次 0.25 / 0.05 美元起,核心是为了解决多Agent/长COT范式下,性能和Token消耗量提升不匹配的问题

  打造代码/创意写作和健康领域的优势场景

  (1)Coding上,复杂前端生成和大型数据仓库调用上变强

  (2)创意写作上可将粗略想法转化为有文学深度的内容,擅长处理结构模糊的文体

  (3)健康领域能主动识别潜在健康风险、追问关键信息,适配用户的知识水平、地域和场景

  (4)复杂指令和Agent场景,精准遵循多步骤指令,协调多种工具(如网页搜索、代码执行),适应上下文变化

  GPT-5在性能/成本上全面提高,同时幻觉率看到快速下降,看好AI应用的产业机会

  

  天风计算机 缪欣君/刘鉴/刘琳琳

新浪声明:此消息系转载自新浪合作媒体,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 疑似中国男子在泰国禁烟区抽烟,遭劝阻时发生肢体冲突?中使馆:此案不涉及中国籍人士
  • BBA上半年利润均大幅下滑:关税“暴击”叠加传统豪车市场竞争加剧
  • 陌生男子强行抱吻女性被鉴定为“急性精神病障碍”,谁来担责?
  • 年内九成新基金赚钱了,“最牛”涨超60%,贾成东跳槽后首秀垮台
  • 今日涨跌停股分析:100只涨停股、5只跌停股,有色·锑概念活跃,华钰矿业、华锡有色涨停
  • 串联闵行开发区、徐汇滨江等区域,上海地铁23号线建设有新进展
  • 上海闵行区工商业联合会原党组书记孙耀辉接受纪律审查和监察调查
  • 8月13日,沪指突破3674点高点,炒股用什么APP?投资者口碑榜首的新浪财经APP确实不一样
  • 韩国拟建全国性“能源高速公路”,以满足人工智能用电需求
  • 外交部:中老缅泰外长非正式会晤将就地区形势和联合打击跨境犯罪等议题深入交换意见
  • 收评|主力合约涨多跌少 菜油涨超3%
  • 韩国总统李在明将访问日本,同日本首相举行会谈
  • 泰国央行将基准利率下调25个基点 至1.50%
  • 千亿卡牌赛道重磅玩家“闪魂”完成数亿元首轮融资 由姚记科技董事长姚朔斌及卡游原市场总监盛川联合创立
  • 多家国有大行投资子公司管理层调整
  • 理想汽车CCEO李想:9月理想i8目标交付超8000辆,挑战10000辆
  • 社科院教授:房地产模式最大弊端是风险过度集中于买房人头上
  • 波伏瓦:“老年”并不那么容易界定,它的多种面目难以化约
  • 上海社科新人访谈录|汪仲启:哲学社科研究是对时代的回应
  • 上海市民抗战实物收藏展开幕:近半展品首次亮相,两件镇展之宝引人注目
  • 中方举行中老缅泰外长非正式会晤有何考虑?外交部答问
  • 上海社科新人访谈录|赵隆:以交叉融合型学术探索赋能软实力建设
  • 信息前后不一促成美俄首脑会晤的美中东特使受质疑
  • 安庆师大党委常委、副校长肖新提名任皖西学院院长
  • 王毅将主持澜湄合作第十次外长会并举行中老缅泰外长非正式会晤
  • 吃货的力量!匈牙利牛肉汤助杜普兰蒂斯再破撑杆跳世界纪录
  • 收评:沪指突破3674点高点 两市成交金额突破2万亿元
  • 美银证券:升万洲国际目标价至8.5港元 料下半年前景良好
  • 大和:降康师傅控股目标价至11港元 重申跑输大市评级
  • 华闻集团(000793)股民索赔案持续推进,瑞贝卡(600439)索赔案启动
  • 广汇物流(600603)、富通信息(000836)投资者索赔案持续推进
  • 李国庆辟谣“高价出售婚礼门票”:婚宴拒绝任何商业操作
  • 尹锡悦夫妇案牵扯出的韩国“统一教”和“建进法师”是啥来头?
  • 大摩:升裕元集团目标价至13.5港元 维持“与大市同步”评级
  • 台方以“中日战争结束与终战接收”取代“抗战胜利”表述,国台办:谄媚侵略者
  • 长沙男子发布商人行贿官员文章被诉侵权,辩称内容来自判决书
  • 特朗普家族加密货币财富暴增:与PancakeSwap合作发行USD1,家族持币市值约45亿美元
  • 里昂:削新秀丽目标价至22港元 维持“高度确信跑赢大市”评级
  • 宁德时代成交额达100亿元
  • “台独”分子称岛内“亲中平均年龄下降”,国台办:民进党制造的“信息茧房”正在崩塌
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码