gpt-4-vision-preview模型的介绍

openai 文章 2023-11-14 20:24 1385  0 全屏看文

原文档：https://platform.openai.com/docs/guides/vision?lang=curl

GPT-4 with Vision（有时称为GPT-4V或gpt-4-vision-preview在 API 中）允许模型接收图像并回答有关图像的问题。从历史上看，语言模型系统受到单一输入模式（文本）的限制。对于许多用例来说，这限制了 GPT-4 等模型的使用领域。

目前，所有可以通过模型和聊天完成 API访问 GPT- 4 的开发人员都可以使用具有视觉功能的 GPT-4，该 API 已更新为支持图像输入。gpt-4-vision-preview请注意，Assistants API目前不支持图像输入。

重要的是要注意以下几点：

带视觉的 GPT-4 模型的行为与 GPT-4 没有什么不同，除了我们用于模型的系统提示之外
具有视觉功能的 GPT-4 并不是一个在文本任务上表现较差的不同模型，因为它具有视觉功能，它只是添加了视觉功能的 GPT-4
具有视觉功能的 GPT-4 是模型的一组增强功能

目前，GPT-4 with Vision 不支持message.name参数、functions/tools、response_format参数，并且我们当前设置了一个较低的max_tokens默认值，您可以覆盖该默认值。

该模型最擅长回答有关图像中存在的内容的一般问题。虽然它确实理解图像中对象之间的关系，但尚未优化以回答有关图像中某些对象位置的详细问题。例如，您可以询问它汽车是什么颜色，或者根据冰箱里的东西提出一些关于晚餐的想法，但如果您向它展示房间的图像并询问它椅子在哪里，它可能不会回答问题正确。

当您探索视觉理解可以应用于哪些用例时，请务必牢记模型的局限性。

局限性

虽然具有视觉功能的 GPT-4 功能强大并且可以在许多情况下使用，但了解该模型的局限性也很重要。以下是我们意识到的一些限制：

医学图像：该模型不适合解释 CT 扫描等专业医学图像，也不应用于提供医疗建议。
非英语：在处理包含非拉丁字母文本（例如日语或韩语）的图像时，模型可能无法获得最佳性能。
大文本：放大图像中的文本以提高可读性，但避免裁剪重要细节。
旋转：模型可能会误解旋转/颠倒的文本或图像。
视觉元素：模型可能难以理解颜色或样式（如实线、虚线或点线）变化的图形或文本。
空间推理：该模型难以完成需要精确空间定位的任务，例如识别国际象棋位置。
准确性：在某些情况下，模型可能会生成不正确的描述或标题。
图像形状：模型难以处理全景和鱼眼图像。
元数据和调整大小：模型不处理原始文件名或元数据，图像在分析之前会调整大小，从而影响其原始尺寸。
计数：可以给出图像中对象的近似计数。
验证码：出于安全原因，我们实施了一个系统来阻止验证码的提交。

与文本输入一样，图像输入以代币计量和收费。给定图像的代币成本由两个因素决定：图像的大小以及detail每个 image_url 块上的选项。所有图像detail: low每张花费 85 个代币。detail: high图像首先被缩放以适合 2048 x 2048 的正方形，并保持其纵横比。然后，对它们进行缩放，使图像的最短边长为 768 像素。最后，我们计算图像由多少个 512px 的正方形组成。每个方格需要170 个代币。另外85 个代币始终会添加到最终总数中。

以下是一些演示上述内容的示例。

模式下的 1024 x 1024 方形图像detail: high需要 765 个代币

1024 小于 2048，因此没有初始调整大小。
最短边是 1024，因此我们将图像缩小到 768 x 768。
需要 4 512px 方形图块来表示图像，因此最终的代币成本为170 * 4 + 85 = 765。

模式下的 2048 x 4096 图像detail: high需要 1105 个代币

我们将图像缩小到 1024 x 2048 以适合 2048 的正方形。
最短边是 1024，因此我们进一步缩小到 768 x 1536。
需要 6 512px 图块，因此最终的代币成本为170 * 6 + 85 = 1105。

detail: low大多数情况下，一张 4096 x 8192 的图像需要 85 个代币

无论输入大小如何，低细节图像都是固定成本。

AI助手支持GPT4.0

原文出处:http://www.sanshu.cn/a/76023.html

您还可能感兴趣的文章

gpt-4-vision-preview模型的介绍

局限性

计算成本

常问问题

我可以微调图像功能吗gpt-4？

我可以用来gpt-4生成图像吗？

我可以上传什么类型的文件？

我可以上传的图片大小有限制吗？

我可以删除我上传的图片吗？

在哪里可以了解有关 GPT-4 with Vision 的注意事项的更多信息？

GPT-4 with Vision 的速率限制如何运作？

带有 Vision 的 GPT-4 可以理解图像元数据吗？

如果我的图像不清楚怎么办？

国内超级便宜服务器

摸鱼人热门新闻聚合

开发者在线工具

第三方支付技术请加QQ群

开发工具