GPT-4V(ision)視覺能力的86種使用場景

OpenAI在9月底公佈了多模態ChatGPT的預告，從10月初已經陸續給Plus使用者提供了可上傳圖片的Vision識圖能力、語音對話能力，以及直接將DALL·E 3接入ChatGPT的文生圖能力，如果你還不瞭解這個資訊的話，可以先看我上篇文章做的相關官方簡介：帶上了眼睛、耳朵和嘴巴的多模態ChatGPT登場

在我看來，最令人興奮的還是ChatGPT獲得了識圖的能力，畢竟語音對話更多還是情感類的場景使用，有一些基於GPT API開發的工具也能獲得類似提升；而至於文生圖則依然有Midjourney、Stable Diffusion等替代。但是結合了大語言模型的對圖片的理解則完全是全新的。

我獲得了識圖能力大概有一週的時間，從實際體驗來說，有點像是GPT-4剛剛釋出時帶給我的震撼，GPT-4V對於圖片上的內容確實有相當好的理解，比如在投資領域它能直接幫我讀我擷取的K線圖幫我做技術分析；比如我發張社交網站上的旅遊照片他能透過非常細微的細節猜測可能的拍攝地；比如我發給他任何論文的圖表，他都能幫我進行深入細緻的解讀等等。

事實上，這部分視覺能力能做的事情實在太豐富了，有很多嘗試我都還沒來得及做，但是我特意結合這個能力的特點和潛在的使用場景梳理了一些GPT-4V有可能來幫助我們做到的事，希望能帶給你一些啟發。如果你的賬戶也獲得了這項功能，可以趕緊上手試試；如果還沒有，你也可以期待期待這個功能的開放，去思考有哪些行業和工作從長期來說可能被影響被改變。

一、旅行與生活助手

旅行導遊：分析地標照片，為使用者提供歷史和文化資訊。
時尚建議：透過分析服裝照片提供時尚建議。
購物助理：透過分析產品圖片幫助使用者作出購買決策。
家居裝修建議：根據使用者的居住空間圖片提供家居裝修建議。
菜譜建議：使用者可以展示他們擁有的食材，GPT-4V可以提供可能的菜譜建議。
事件策劃：透過視覺化和組織空間、裝飾和佈局來協助策劃事件。
DIY專案指導：透過分析專案各個階段的圖片提供DIY專案的逐步指導。
園藝建議：根據植物及其周圍環境的圖片提供園藝建議。
景點推薦：根據使用者拍攝的風景照片為其推薦相關或類似的旅遊景點。
路線導航：透過識別街景圖片為使用者提供行車或步行建議。
書籍推薦：根據使用者拍攝的書籍封面為其推薦相關書籍。
餐館選擇：分析使用者拍攝的食物照片，推薦相關或類似的餐館。
娛樂活動建議：識別使用者所在的娛樂場所並提供相關活動建議。
車輛識別：為使用者提供經過的車輛資訊或型號。
交通違章提示：分析道路照片，為駕駛者提醒可能的交通違章行為。
節日慶祝建議：根據使用者所在地的照片，推薦當地的節日慶祝活動。
美食鑑賞：識別各地特色美食併為使用者提供餐館推薦。
室內導航：分析大型商場或機場的室內照片，為使用者提供導航指引。
天氣預測：透過分析天空的照片為使用者提供即時的天氣預測。
手工藝品鑑賞：識別各地的手工藝品，為使用者提供背後的文化和故事。

二、教育與學習

教育輔導：分析圖表並提供詳細解釋，幫助學生理解複雜概念。
語言翻譯：從一種語言翻譯成另一種語言的影象中的文字。
藝術創作：透過分析正在創作的藝術品的圖片提供創作建議。
歷史分析：為歷史事件或人物的圖片提供歷史背景和資訊。
動植物識別：識別照片中的植物或動物並提供相關資訊。
樂器教學：透過分析樂器的圖片為學生提供演奏技巧。
語言學習輔助：識別外語文字，並提供發音和翻譯。
宇宙探索：根據天文影象為學生提供宇宙知識。
地質研究：識別地質圖片併為學生提供相關地質資訊。
實驗操作：識別實驗器材併為學生提供操作方法和注意事項。
實物觀察：為生物或物理實驗提供觀察和分析。
人體結構教學：識別和解釋人體結構模型或影象。
數學圖形解釋：分析數學圖形或幾何形狀，提供解釋和相關公式。
文學解讀：透過分析文學作品的插圖，增強對文學內容的理解。
化學實驗輔助：識別化學試劑和儀器，為學生提供實驗步驟和安全建議。
星座學習：分析星空照片，為學生提供星座知識和觀察技巧。
古代文明探索：透過分析古代文物和遺址照片，為學生提供古代文明的知識。

三、工作與職業助手

文件掃描與翻譯：識別文件中的文字，為使用者提供電子版本或進行翻譯。
會議記錄：分析會議中的圖表或白板筆記，為參與者提供會議總結。
品質控制：在製造過程中分析產品圖片，幫助識別質量問題。
設計建議：為設計師提供基於他們設計草圖的設計建議或改進。
地產評估：透過分析物業照片為經紀人或買家提供房產評估。
農業監控：分析農田照片，為農民提供作物健康和病蟲害建議。
營銷策劃：分析市場營銷材料或廣告，為營銷人員提供策略建議。
財務分析：識別財務圖表和資料，為會計或分析師提供財務建議。
法律文件分析：掃描和識別法律檔案，為律師提供關鍵資訊。
人事招聘：透過分析面試者的照片，為招聘者提供非語言行為的初步反饋。
倉儲管理：分析倉庫照片，為管理員提供庫存和貨物放置建議。
交通管理：透過監控拍攝的交通照片，為交通管理者提供流量和交通狀況資訊。
城市規劃：分析城市照片，為城市規劃師提供建議。
建築評估：識別建築物的結構和特點，為建築師或工程師提供評估。
新聞報道：分析新聞圖片，為記者提供事件背景和詳細資訊。
物流追蹤：識別貨物照片，為物流人員提供貨物狀態和位置。
生產線監控：分析生產線照片，為生產經理提供生產進度和可能的問題。
環境評估：為環境評估師提供基於圖片的環境汙染資料。
電路板檢測：識別電路板照片，為電子工程師提供故障分析。
商業策略建議：分析市場照片或廣告，為商務人員提供策略建議。
工地安全檢查：分析工地照片，為建築師或工程師提供安全建議。
金融市場分析：識別金融圖表，為金融分析師提供市場趨勢。
IT裝置故障檢測：透過分析裝置照片，為IT工程師提供故障分析。
印刷品質檢查：分析印刷品照片，為印刷業者提供質量控制建議。

四、健康與健身

醫療影象助手：提供醫療影象的初步觀察(但不用於診斷)。
健身教練：分析鍛鍊或瑜伽姿勢，並提供修正或增強建議。
安全培訓：分析工作場所環境的圖片以提供安全建議。
飲食建議：分析使用者拍攝的食物圖片，提供營養分析和飲食建議。
病症初步判斷：分析使用者拍攝的身體部位照片為其提供初步健康建議（不替代醫生診斷）。
心理健康輔導：識別使用者的情緒表達，為其提供初步的心理健康建議。
藥物資訊：識別使用者拍攝的藥物照片，提供相關藥物資訊。
美容建議：分析使用者的面部照片，提供護膚或化妝建議。
疾病預防：識別可能的健康風險因素併為使用者提供預防措施。
康復指導：分析康復患者的動作，為其提供康復建議。
運動裝備建議：分析使用者的運動照片，為其推薦合適的運動裝備。
美食烹飪技巧：根據使用者拍攝的食材照片，提供烹飪建議和技巧。

五、娛樂與創意

Meme製作：根據所提供的影象為使用者提供Meme文字或編輯建議。
文字識別：為視覺障礙者描述周圍環境或從圖片中閱讀文字。
電影或音樂推薦：根據使用者提供的電影或音樂海報為其推薦相關或類似的內容。
遊戲截圖分析：分析遊戲截圖為玩家提供遊戲策略或建議。
動畫製作：分析使用者提供的草圖為其提供動畫製作建議。
漫畫劇情建議：根據使用者提供的漫畫框架為其提供劇情建議。
角色扮演建議：根據使用者的裝扮提供角色扮演或COSPLAY建議。
音樂封面設計：為音樂家分析並設計專輯封面。
動漫角色創意：根據使用者提供的素材提供動漫角色設計建議。
攝影技巧指導：分析攝影作品，為攝影師提供拍攝技巧和建議。
影視劇本構思：根據場景照片為編劇提供劇情點子。
美術作品鑑賞：分析美術作品照片，為使用者提供背後的創作理念和技巧。
虛擬時裝秀：透過使用者的照片，為其提供虛擬的時裝搭配展示。

一、旅行與生活助手​

二、教育與學習​

三、工作與職業助手​

四、健康與健身​

五、娛樂與創意​

一、旅行與生活助手

二、教育與學習

三、工作與職業助手

四、健康與健身

五、娛樂與創意