首页时尚玩车保健情感

更多

腕表饮食视频美女百科

0

老男人 > 科技 > 正文

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

2023-09-26 12:43:42 发布人：hao333 阅读( 1848)

OpenAI连发两则重磅消息，首先ChatGPT可以看、听、说了。新版ChatGPT开启一种更直观的交互方式，可以向AI展示正在谈论的内容。比如拍一张照片，询问...

OpenAI连发两则重磅消息，首先ChatGPT可以看、听、说了。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

新版ChatGPT开启一种更直观的交互方式，可以向AI展示正在谈论的内容。

比如拍一张照片，询问如何调整自行车座椅高度。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

官方还给出另一个实用场景思路：打开冰箱拍一张照片，询问AI晚餐可以吃什么，并生成完整菜谱。

更新将在接下来的两周内向ChatGPT Plus订阅用户和企业版用户推出，iOS和安卓都支持。

与此同时，多模态版GPT-4V模型更多细节也一并放出。

其中最令人惊讶的是，多模态版早在2022年3月就训练完了……

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

看到这里，有网友灵魂发问：有多少创业公司在刚刚5分钟之内死掉了？

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

看听说皆备，全新交互方式

更新后的ChatGPT移动APP里，可以直接拍照上传，并针对照片中的内容提出问题。

比如“如何调整自行车座椅高度”，ChatGPT会给出详细步骤。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

如果你完全不熟悉自行车结构也没关系，还可以圈出照片的一部分问ChatGPT“说的是这个吗？”。

就像在现实世界中用手给别人指一个东西一样。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

不知道用什么工具，甚至可以把工具箱打开拍给ChatGPT，它不光能指出需要的工具在左边，连标签上的文字也能看懂。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

提前得到使用资格的用户也分享了一些测试结果。

可以分析自动化工作流程图。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

但是没有认出一张剧照具体出自哪部电影。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

语音部分的演示还是上周DALL·E 3演示的联动彩蛋。

让ChatGPT把5岁小朋友幻想中的“超级向日葵刺猬”讲成一个完整的睡前故事。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

DALL·E3演示

ChatGPT这次讲的故事文字摘录如下：

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

过程中更具体的多轮语音交互细节，以及语音试听可参考视频。

01:41

多模态GPT-4V能力大揭秘

结合所有公布的视频演示与GPT-4V System Card中的内容，手快的网友已经总结出GPT-4V的视觉能力大揭秘。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

物体检测：GPT-4V可以检测和识别图像中的常见物体，如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。

文本识别：该模型具有光学字符识别功能，可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。

人脸识别：GPT-4V可以定位并识别图像中的人脸。它具有一定的能力，可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。

验证码解决：在解决基于文本和图像的验证码时，GPT-4V显示出了视觉推理能力。这表明该模型具有高级解谜能力。

地理定位：GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力，这证明模型吸收了关于现实世界的知识，但也代表有泄露隐私的风险。

复杂图像：该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。

同时也总结了GPT-4V目前的局限性。

空间关系：模型可能很难理解图像中对象的精确空间布局和位置。它可能无法正确传达对象之间的相对位置。

对象重叠：当图像中的对象严重重叠时，GPT-4V 有时无法区分一个对象的结束位置和下一个对象的开始位置。它可以将不同的对象混合在一起。

背景/前景：模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。

遮挡：当图像中某些对象被其他对象部分遮挡或遮挡时，GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。

细节：模型经常会错过或误解非常小的物体、文本或图像中的复杂细节，从而导致错误的关系描述。

上下文推理：GPT-4V缺乏强大的视觉推理能力来深入分析图像的上下文并描述对象之间的隐式关系。

置信度：模型可能会错误地描述对象关系，与图像内容不符。

同时System Card中也重点声明了“目前在科学研究和医疗用途中性能不可靠”。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

另外后续还要继续研究，是否应该让模型识别公众人物，是否应该允许模型从人物图像中推断性别、种族或情感等问题。

有网友已经想好，等更新了要问的第一件事是Sam Altman照片的背包里装的是什么。

ChatGPT App重大进化！能看能听还会说，多模态模型细节同时公布

那么，你想好第一件事问什么了么？

上一篇：又大又丑的MPV“保姆车”，成了车企的新战场

相关阅读

RelatedReading

每一天都是灵感限定三星BESPOKE HOME联合好好住发起灵感家部落
消息称旧款iPhone升级iOS 17后续航降低，iPhone 13/XR最明显
ChatGPT席卷AI界，第二代骁龙7+如何助力实现人工智能的持续突破？
Denon PerL系列真无线蓝牙降噪耳机，定制HiFi音效，体验超感听觉
腾讯云入选Gartner®魔力象限，计算机视觉应用能力连续2年中国第一
两会劲吹循环经济风二手交易助推低碳转型

猜你喜欢

Guessyoulike

爱科赛博6月14日上交所首发上会拟募资3.8亿元

爱科赛博6月14日上交所首发上会拟募资3.8亿元

hao333 4588次阅读2023-06-07 19:11

华为新机今天正式发布！欧美最担心的事情还是发生了

华为新机今天正式发布！欧美最担心的事情还是发生了

hao333 3886次阅读2023-09-13 09:32

再添佳绩！途径信息新获CFS第十二届财经峰会三项大奖

再添佳绩！途径信息新获CFS第十二届财经峰会三项大奖

hao333 8817次阅读2023-07-31 14:12

1.78米后卫闪耀世界杯他能否给广东带来CBA第12冠？

1.78米后卫闪耀世界杯他能否给广东带来CBA第12冠？

hao333 7274次阅读2023-09-07 22:00

专题页

HOT榜单

暴雪国服何时回归?世纪华通回应代理暴雪传闻
创新超越，新一代画质旗舰三星OLED电视新品正式开售
海康威视净利润2022年降23.6% 今年一季度降20.7%
二十几万的“表王”，尽情演绎传世之作！
中信保诚人寿董事长黎康忠辞任首季及去年净利均下滑

打造安全有品质的出行体验享道出行开启交通安全培训活动
《永恒之塔》怀旧服迎来2周年新职业亮相2023ChinaJoy现场
网易侵犯苏炳添肖像权被判赔偿3000元
贝店一天三次被列为被执行人执行标的共327万
真正的好毛尖泡起来是怎样的（品质极佳的毛尖喝起来的味道如何）

换一组看看

频道最IN

>五一放假几天2023年法定几天（2023年的五一假期是那几天）

五一放假几天2023年法定几天（2023年的五一假期是那几天）

>离婚后该不该复婚（离婚后是否要答应复婚呢）

离婚后该不该复婚（离婚后是否要答应复婚呢）

>高镍电池十大相关企业排行榜（2023年第二季度股票毛利润排名）

高镍电池十大相关企业排行榜（2023年第二季度股票毛利润排名）

关于我们法律声明联系我们广告服务隐私条款

@老男人网版权所有/信息产业部备案号：蜀ICP备13015099号-1