GPT-4V(ision)视觉能力的86种使用场景
OpenAI在9月底公布了多模态ChatGPT的预告,从10月初已经陆续给Plus用户提供了可上传图片的Vision识图能力、语音对话能力,以及直接将DALL·E 3接入ChatGPT的文生图能力,如果你还不了解这个信息的话, 可以先看我上篇文章做的相关官方简介:带上了眼睛、耳朵和嘴巴的多模态ChatGPT登场
在我看来,最令人兴奋的还是ChatGPT获得了识图的能力,毕竟语音对话更多还是情感类的场景使用,有一些基于GPT API开发的工具也能获得类似提升;而至于文生图则依然有Midjourney、Stable Diffusion等替代。但是结合了大语言模型的对图片的理解则完全是全新的。
我获得了识图能力大概有一周的时间,从实际体验来说,有点像是GPT-4刚刚发布时带给我的震撼,GPT-4V对于图片上的内容确实有相当好的理解,比如在投资领域它能直接帮我读我截取的K线图帮我做技术分析;比如我发张社交网站上的旅游照片他能通过非常细微的细节猜测可能的拍摄地;比如我发给他任何论文的图表,他都能帮我进行深入细致的解读等等。
事实上,这部分视觉能力能做的事情实在太丰富了,有很多尝试我都还没来得及做,但是我特意结合这个能力的特点和潜在的使用场景梳理了一些GPT-4V有可能来帮助我们做到的事,希望能带给你一些启发。如果你的账户也获得了这项功能,可以赶紧上手试试;如果还没有,你也可以期待期待这个功能的开放,去思考有哪些行业和工作从长期来说可能被影响被改变。
一、旅行与生活助手
- 旅行导游:分析地标照片,为用户提供历史和文化信息。
- 时尚建议:通过分析服装照片提供时尚建议。
- 购物助理:通过分析产品图片帮助用户作出购买决策。
- 家居装修建议:根据用户的居住空间图片提供家居装修建议。
- 菜谱建议:用户可以展示他们拥有的食材,GPT-4V可以提供可能的菜谱建议。
- 事件策划:通过可视化和组织空间、装饰和布局来协助策划事件。
- DIY项目指导:通过分析项目各个阶段的图片提供DIY项目的逐步指导。
- 园艺建议:根据植物及其周围环境的图片提供园艺建议。
- 景点推荐:根据用户拍摄的风景照片为其推荐相关或类似的旅游景点。
- 路线导航:通过识别街景图片为用户提供行车或步行建议。
- 书籍推荐:根据用户拍摄的书籍封面为其推荐相关书籍。
- 餐馆选择:分析用户拍摄的食物照片,推荐相关或类似的餐馆。
- 娱乐活动建议:识别用户所在的娱乐场所并提供相关活动建议。
- 车辆识别:为用户提供经过的车辆信息或型号。
- 交通违章提示:分析道路照片,为驾驶者提醒可能的交通违章行为。
- 节日庆祝建议:根据用户所在地的照片,推荐当地的节日庆祝活动。
- 美食鉴赏:识别各地特色美食并为用户提供餐馆推荐。
- 室内导航:分析大型商场或机场的室内照片,为用户提供导航指引。
- 天气预测:通过分析天空的照片为用户提供即时的天气预测。
- 手工艺品鉴赏:识别各地的手工艺品,为用户提供背后的文化和故事。
二、教育与学习
- 教育辅导:分析图表并提供详细解释,帮助学生理解复杂概念。
- 语言翻译:从一种语言翻译成另一种语言的图像中的文本。
- 艺术创作:通过分析正在创作的艺术品的图片提供创作建议。
- 历史分析:为历史事件或人物的图片提供历史背景和信息。
- 动植物识别:识别照片中的植物或动物并提供相关信息。
- 乐器教学:通过分析乐器的图片为学生提供演奏技巧。
- 语言学习辅助:识别外语文字,并提供发音和翻译。
- 宇宙探索:根据天文图像为学生提供宇宙知识。
- 地质研究:识别地质图片并为学生提供相关地质信息。
- 实验操作:识别实验器材并为学生提供操作方法和注意事项。
- 实物观察:为生物或物理实验提供观察和分析。
- 人体结构教学:识别和解释人体结构模型或图像。
- 数学图形解释:分析数学图形或几何形状,提供解释和相关公式。
- 文学解读:通过分析文学作品的插图,增强对文学内容的理解。
- 化学实验辅助:识别化学试剂和仪器,为学生提供实验步骤和安全建议。
- 星座学习:分析星空照片,为学生提供星座知识和观察技巧。
- 古代文明探索:通过分析古代文物和遗址照片,为学生提供古代文明的知识。
三、工作与职业助手
- 文档扫描与翻译:识别文档中的文字,为用户提供电子版本或进行翻译。
- 会议记录:分析会议中的图表或白板笔记,为参与者提供会议总结。
- 品质控制:在制造过程中分析产品图片,帮助识别质量问题。
- 设计建议:为设计师提供基于他们设计草图的设计建议或改进。
- 地产评估:通过分析物业照片为经纪人或买家提供房产评估。
- 农业监控:分析农田照片,为农民提供作物健康和病虫害建议。
- 营销策划:分析市场营销材料或广告,为营销人员提供策略建议。
- 财务分析:识别财务图表和数据,为会计或分析师提供财务建议。
- 法律文档分析:扫描和识别法律文件,为律师提供关键信息。
- 人事招聘:通过分析面试者的照片,为招聘者提供非语言行为的初步反馈。
- 仓储管理:分析仓库照片,为管理员提供库存和货物放置建议。
- 交通管理:通过监控拍摄的交通照片,为交通管理者提供流量和交通状况信息。
- 城市规划:分析城市照片,为城市规划师提供建议。
- 建筑评估:识别建筑物的结构和特点,为建筑师或工程师提供评估。
- 新闻报道:分析新闻图片,为记者提供事件背景和详细信息。
- 物流追踪:识别货物照片,为物流人员提供货物状态和位置。
- 生产线监控:分析生产线照片,为生产经理提供生产进度和可能的问题。
- 环境评估:为环境评估师提供基于图片的环境污染数据。
- 电路板检测:识别电路板照片,为电子工程师提供故障分析。
- 商业策略建议:分析市场照片或广告,为商务人员提供策略建议。
- 工地安全检查:分析工地照片,为建筑师或工程师提供安全建议。
- 金融市场分析:识别金融图表,为金融分析师提供市场趋势。
- IT设备故障检测:通过分析设备照片,为IT工程师提供故障分析。
- 印刷品质检查:分析印刷品照片,为印刷业者提供质量控制建议。
四、健康与健身
- 医疗图像助手:提供医疗图像的初步观察(但不用于诊断)。
- 健身教练:分析锻炼或瑜伽姿势,并提供修正或增强建议。
- 安全培训:分析工作场所环境的图片以提供安全建议。
- 饮食建议:分析用户拍摄的食物图片,提供营养分析和饮食建议。
- 病症初步判断:分析用户拍摄的身体部位照片为其提供初步健康建议(不替代医生诊断)。
- 心理健康辅导:识别用户的情绪表达,为其提供初步的心理健康建议。
- 药物信息:识别用户拍摄的药物照片,提供相关药物信息。
- 美容建议:分析用户的面部照片,提供护肤或化妆建议。
- 疾病预防:识别可能的健康风险因素并为用户提供预防措施。
- 康复指导:分析康复患者的动作,为其提供康复建议。
- 运动装备建议:分析用户的运动照片,为其推荐合适的运动装备。
- 美食烹饪技巧:根据用户拍摄的食材照片,提供烹饪建议和技巧。
五、娱乐与创意
- Meme制作:根据所提供的图像为用户提供Meme文本或编辑建议。
- 文字识别:为视觉障碍者描述周围环境或从图片中阅读文字。
- 电影或音乐推荐:根据用户提供的电影或音乐海报为其推荐相关或类似的内容。
- 游戏截图分析:分析游戏截图为玩家提供游戏策略或建议。
- 动画制作:分析用户提供的草图为其提供动画制作建议。
- 漫画剧情建议:根据用户提供的漫画框架为其提供剧情建议。
- 角色扮演建议:根据用户的装扮提供角色扮演或COSPLAY建议。
- 音乐封面设计:为音乐家分析并设计专辑封面。
- 动漫角色创意:根据用户提供的素材提供动漫角色设计建议。
- 摄影技巧指导:分析摄影作品,为摄影师提供拍摄技巧和建议。
- 影视剧本构思:根据场景照片为编剧提供剧情点子。
- 美术作品鉴赏:分析美术作品照片,为用户提供背后的创作理念和技巧。
- 虚拟时装秀:通过用户的照片,为其提供虚拟的时装搭配展示。