GPT-4V:166页说明书讲解又全又详细

2023-10-08 MedSci原创 MedSci原创 发表于上海

多模态王炸大模型GPT-4V,166页“说明书”重磅发布!不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;还传授了一整套多模态大模型提

多模态王炸大模型GPT-4V,166页“说明书”重磅发布!不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;还传授了一整套多模态大模型提示词使用技巧。

他们对GPT-4V完成各类任务的能力进行评估,还给出了使用GPT-4V的新提示词技巧。总之,GPT-4V性能炸裂,不过据说GPT-5在半年前已训练完毕,现在正在安全调优中,不知道GPT-5又会给出什么样的惊人的本领。

1、GPT-4V的用法:

5种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。

3种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文少样本学习(in-context few-shot learning)。

例如这是基于思维链变更提问方式后,GPT-4V展现出的指令遵循能力:

2、GPT-4V在10大任务中的表现:

开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)

其中就包括这种,需要一些智商才能做出来的“图像推理题”:

3、类GPT-4V多模态大模型的提示词技巧:

提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。

4、多模态大模型的研究&落地潜力:

预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。例如:

例如这是研究人员发现的GPT-4V可用场景之一——地理识别:

我们通过询问有关地点的问题来探索 GPT-4V 的问答功能。 我们上传了一张旧金山的照片,并附有文字提示“这是哪里?” GPT-4V 成功识别了旧金山的位置,并指出我们上传的图片中的泛美金字塔是该市的一个著名地标。

对于专业的医学影像,针对下面这张肺部CT,GPT-4V给出了这样的结论:

双肺多个区域存在实变和磨玻璃混浊,肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。

Image

甚至不告诉GPT-4V影像的种类和位置,它自己也能判断。

这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。

同时,GPT-4V还发现存在大量积液,认为很可能是高级别脑胶质瘤。

经过专业人士判断,GPT-4V给出的结论完全正确。

Image

然而,由于 GPT-4 与 Vision 和其他人工智能模型带来的潜在隐私、公平和网络安全问题,所有用户都应保持谨慎。

除了图像输入功能之外,OpenAI 还重新启用了 Browse with Bing 功能,以便通过 ChatGPT 进行网页浏览。

相关资料下载:
[AttachmentFileName(sort=100, fileName=GPT-4V:166页说明书讲解又全又详细)] GetArticleByIdResponse(id=d469e95073f9, projectId=1, sourceId=null, title=GPT-4V:166页说明书讲解又全又详细, articleFrom=MedSci原创, journalId=27434, copyright=原创, creationTypeList=[1], summary=多模态王炸大模型GPT-4V,166页“说明书”重磅发布!不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;还传授了一整套多模态大模型提, cover=https://img.medsci.cn/images/20230930/06a64ccad8e2420f82db913aa7e1057d.jpg, authorId=0, author=, originalUrl=, linkOutUrl=, content=<p>多模态王炸大模型GPT-4V,166页&ldquo;说明书&rdquo;重磅发布!不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;还传授了一整套多模态大模型提示词使用技巧。</p> <p>他们对GPT-4V完成各类任务的能力进行评估,还给出了使用GPT-4V的新提示词技巧。总之,GPT-4V性能炸裂,不过据说GPT-5在半年前已训练完毕,现在正在安全调优中,不知道GPT-5又会给出什么样的惊人的本领。</p> <p><strong>1、GPT-4V的用法:</strong></p> <p>5种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。</p> <p>3种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文少样本学习(in-context few-shot learning)。</p> <p>例如这是基于思维链变更提问方式后,GPT-4V展现出的指令遵循能力:</p> <p><strong>2、GPT-4V在10大任务中的表现:</strong></p> <p>开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)</p> <p>其中就包括这种,需要一些智商才能做出来的&ldquo;图像推理题&rdquo;:</p> <p><strong>3、类GPT-4V多模态大模型的提示词技巧:</strong></p> <p>提出了一种新的多模态提示词技巧&ldquo;视觉参考提示&rdquo;(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。</p> <p><strong>4、多模态大模型的研究&amp;落地潜力:</strong></p> <p>预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。例如:</p> <p><img src="https://img.medsci.cn/images/20230930/560bc0c9bc9a4aec8fc54e1ea5563d73.jpg" /></p> <p>例如这是研究人员发现的GPT-4V可用场景之一&mdash;&mdash;地理识别:</p> <p>我们通过询问有关地点的问题来探索 GPT-4V 的问答功能。 我们上传了一张旧金山的照片,并附有文字提示&ldquo;这是哪里?&rdquo; GPT-4V 成功识别了旧金山的位置,并指出我们上传的图片中的泛美金字塔是该市的一个著名地标。</p> <p><img src="https://img.medsci.cn/202301007/1696728346499_4754896.png" /></p> <p>对于专业的医学影像,针对下面这张肺部CT,GPT-4V给出了这样的结论:</p> <blockquote> <p>双肺多个区域存在实变和磨玻璃混浊,肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。</p> </blockquote> <p><img src="https://img.medsci.cn/images/20230930/06a64ccad8e2420f82db913aa7e1057d.jpg" alt="Image" cross__origin="anonymous" data-ratio="0.6046296296296296" data-src="https://img.medsci.cn/images/20230930/06a64ccad8e2420f82db913aa7e1057d.jpg" data-type="png" data-w="1080" data-index="12" data-fail="0" /></p> <p>甚至不告诉GPT-4V影像的种类和位置,它自己也能判断。</p> <p>这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。</p> <p>同时,GPT-4V还发现存在大量积液,认为很可能是高级别脑胶质瘤。</p> <p>经过专业人士判断,GPT-4V给出的结论完全正确。</p> <p><img src="https://img.medsci.cn/images/20230930/59dafa9c36ee4860b2106801c83ab23d.jpg" alt="Image" cross__origin="anonymous" data-ratio="0.675" data-src="https://img.medsci.cn/images/20230930/59dafa9c36ee4860b2106801c83ab23d.jpg" data-type="png" data-w="1080" data-index="13" data-fail="0" /></p> <p>然而,由于 GPT-4 与 Vision 和其他人工智能模型带来的潜在隐私、公平和网络安全问题,所有用户都应保持谨慎。</p> <p>除了图像输入功能之外,OpenAI 还重新启用了 Browse with Bing 功能,以便通过 ChatGPT 进行网页浏览。</p>, belongTo=, tagList=[TagDto(tagId=8461, tagName=人工智能), TagDto(tagId=467560, tagName=GPT-4)], categoryList=[CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=1, paymentType=1, paymentAmount=0, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=1469, appHits=5, showAppHits=0, pcHits=255, showPcHits=1464, likes=0, shares=0, comments=0, approvalStatus=1, publishedTime=Sun Oct 08 08:20:00 CST 2023, publishedTimeString=2023-10-08, pcVisible=1, appVisible=1, editorId=5521196, editor=小M, waterMark=0, formatted=0, deleted=0, version=4, createdBy=f63e4754896, createdName=侠胆医心, createdTime=Sun Oct 08 09:32:41 CST 2023, updatedBy=4754896, updatedName=侠胆医心, updatedTime=Sat Jan 06 16:15:34 CST 2024, ipAttribution=上海, attachmentFileNameList=[AttachmentFileName(sort=100, fileName=GPT-4V:166页说明书讲解又全又详细)], guideDownload=1)
GPT-4V:166页说明书讲解又全又详细
版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

European Radiology:人工智能与放射科医生在x线片腕关节骨折检测方面的差异

深度卷积神经网络(CNN)已经在各种医学领域证明了它的价值,如预测系统性硬化症的临床预后、糖尿病视网膜病变的严重程度、皮肤病变的分类和组织病理学特征。

Eur J Radiol:人工智能在PI-RADS v2.1前列腺癌诊断中的应用及价值

人工智能在放射学各领域的实施引发了关于放射科医生的角色是否会过时的广泛讨论。虽然普遍认为人工智能是一种支持而非替代,但缺乏人工智能的基本知识与对其应用的消极态度有关。

Radiology:人工智能在床旁胸片临床判读中的应用

现阶段,临床上对计算机辅助解释胸片有很大的需求,而神经网络是解决这一诊断问题最有希望的手段。

Lancet Oncol.| 人工智能可以改善癌症治疗吗?

该篇文章报道了人工智能能否改善癌症患者的治疗,随着人工智能的持续发展,这项技术的影响可能会提高生产力,解决气候变化问题,并彻底改变医疗保健专业人员诊断、治疗和管理疾病的方式。

MODERN PATHOLOGY:基于人工智能的结肠直肠标本肿瘤检测和定量组织分析工具

本文开发了一个临床级人工智能诊断工具,用于基于大型、高质量、手动注释的数据集分析结直肠切除和活检标本。

2023年9月:人工智能魔幻的一月,AI正在加速进化

这周是AI历史上最具里程碑意义的一周!从OpenAI到Tesla,再到Amazon和Meta,各大巨头都在这一周展示了他们的最新突破。