gpt-4-vision-preview模型的介绍

openai 文章 2023-11-14 20:24 1663 0 全屏看文

AI助手支持GPT4.0

原文档:https://platform.openai.com/docs/guides/vision?lang=curl


GPT-4 with Vision(有时称为GPT-4V或gpt-4-vision-preview在 API 中)允许模型接收图像并回答有关图像的问题。从历史上看,语言模型系统受到单一输入模式(文本)的限制。对于许多用例来说,这限制了 GPT-4 等模型的使用领域。

目前,所有可以通过模型和聊天完成 API访问 GPT- 4 的开发人员都可以使用具有视觉功能的 GPT-4,该 API 已更新为支持图像输入。gpt-4-vision-preview请注意,Assistants API目前不支持图像输入。

重要的是要注意以下几点:

  • 带视觉的 GPT-4 模型的行为与 GPT-4 没有什么不同,除了我们用于模型的系统提示之外

  • 具有视觉功能的 GPT-4 并不是一个在文本任务上表现较差的不同模型,因为它具有视觉功能,它只是添加了视觉功能的 GPT-4

  • 具有视觉功能的 GPT-4 是模型的一组增强功能

目前,GPT-4 with Vision 不支持message.name参数、functions/tools、response_format参数,并且我们当前设置了一个较低的max_tokens默认值,您可以覆盖该默认值。

该模型最擅长回答有关图像中存在的内容的一般问题。虽然它确实理解图像中对象之间的关系,但尚未优化以回答有关图像中某些对象位置的详细问题。例如,您可以询问它汽车是什么颜色,或者根据冰箱里的东西提出一些关于晚餐的想法,但如果您向它展示房间的图像并询问它椅子在哪里,它可能不会回答问题正确。

当您探索视觉理解可以应用于哪些用例时,请务必牢记模型的局限性。

局限性

虽然具有视觉功能的 GPT-4 功能强大并且可以在许多情况下使用,但了解该模型的局限性也很重要。以下是我们意识到的一些限制:

  • 医学图像:该模型不适合解释 CT 扫描等专业医学图像,也不应用于提供医疗建议。

  • 非英语:在处理包含非拉丁字母文本(例如日语或韩语)的图像时,模型可能无法获得最佳性能。

  • 大文本:放大图像中的文本以提高可读性,但避免裁剪重要细节。

  • 旋转:模型可能会误解旋转/颠倒的文本或图像。

  • 视觉元素:模型可能难以理解颜色或样式(如实线、虚线或点线)变化的图形或文本。

  • 空间推理:该模型难以完成需要精确空间定位的任务,例如识别国际象棋位置。

  • 准确性:在某些情况下,模型可能会生成不正确的描述或标题。

  • 图像形状:模型难以处理全景和鱼眼图像。

  • 元数据和调整大小:模型不处理原始文件名或元数据,图像在分析之前会调整大小,从而影响其原始尺寸。

  • 计数:可以给出图像中对象的近似计数。

  • 验证码:出于安全原因,我们实施了一个系统来阻止验证码的提交。

计算成本

与文本输入一样,图像输入以代币计量和收费。给定图像的代币成本由两个因素决定:图像的大小以及detail每个 image_url 块上的选项。所有图像detail: low每张花费 85 个代币。detail: high图像首先被缩放以适合 2048 x 2048 的正方形,并保持其纵横比。然后,对它们进行缩放,使图像的最短边长为 768 像素。最后,我们计算图像由多少个 512px 的正方形组成。每个方格需要170 个代币。另外85 个代币始终会添加到最终总数中。

以下是一些演示上述内容的示例。

  • 模式下的 1024 x 1024 方形图像detail: high需要 765 个代币

    • 1024 小于 2048,因此没有初始调整大小。

    • 最短边是 1024,因此我们将图像缩小到 768 x 768。

    • 需要 4 512px 方形图块来表示图像,因此最终的代币成本为170 * 4 + 85 = 765。

  • 模式下的 2048 x 4096 图像detail: high需要 1105 个代币

    • 我们将图像缩小到 1024 x 2048 以适合 2048 的正方形。

    • 最短边是 1024,因此我们进一步缩小到 768 x 1536。

    • 需要 6 512px 图块,因此最终的代币成本为170 * 6 + 85 = 1105。

  • detail: low大多数情况下,一张 4096 x 8192 的图像需要 85 个代币

    • 无论输入大小如何,低细节图像都是固定成本。

常问问题

我可以微调图像功能吗gpt-4?

gpt-4不,我们目前不支持微调图像功能。

我可以用来gpt-4生成图像吗?

不,您可以用来dall-e-3生成图像并gpt-4-vision-preview理解图像。

我可以上传什么类型的文件?

我们目前支持 PNG (.png)、JPEG(.jpeg 和 .jpg)、WEBP (.webp) 和非动画 GIF (.gif)。

我可以上传的图片大小有限制吗?

是的,我们将图像上传限制为每张图像 20MB。

我可以删除我上传的图片吗?

不会,模型处理完图像后,我们会自动为您删除该图像。

在哪里可以了解有关 GPT-4 with Vision 的注意事项的更多信息?

您可以在GPT-4 with Vision 系统卡中找到有关我们的评估、准备和缓解工作的详细信息。

我们进一步实施了一个系统来阻止验证码的提交。

GPT-4 with Vision 的速率限制如何运作?

我们在令牌级别处理图像,因此我们处理的每个图像都会计入您的每分钟令牌 (TPM) 限制。有关用于确定每个图像的标记计数的公式的详细信息,请参阅计算成本部分。

带有 Vision 的 GPT-4 可以理解图像元数据吗?

不,模型不接收图像元数据。

如果我的图像不清楚怎么办?

如果图像不明确或不清楚,模型将尽力解释它。然而,结果可能不太准确。一个好的经验法则是,如果普通人无法以低/高分辨率模式下使用的分辨率看到图像中的信息,那么模型也看不到。


-EOF-

AI助手支持GPT4.0


国内超级便宜服务器

摸鱼人热门新闻聚合

钻级赞助商 我要加入

开发者在线工具

第三方支付技术请加QQ群

相关文章
gpt-4-vision-preview模型的介绍
chatgpt4处理 数据库捞取数据,线程池并发处理
根据openai的规则,1000token是多少个中文字
为什么chatgpt不可以在中国使用
三叔工具箱新增chatGPT助手插件
随便看看
unionid的产生机制说改就改了啊? 524
微信公众号或者h5可以获取到用户手机号吗? 3477
小程序内嵌H5页面 H5页面中跳转微信的链接 提示请在微信客户端打开链 591
怎么使用微信的 wx.startLocationUpdateBackground 这个api? 554
高于2.10.4基础库也不支持getUserProfile? 571
小程序首次进入和第二次进入加载的内容不一样? 491
小程序 swiper 组件,在真机上有一个bug 546
授权手机号时,使用其他手机号码的页面,手机号和验证码校验逻辑可以根据自己业务要求来吗? 437
小程序如何实现语音播报的功能?类似于收款后语音播报 663
微信小商店如何在微信外部访问? 520