多模态与模型评测，如何拓展AI的边界？

摘要：多模态与模型评测：拓展 AI 的边界 AI 核心技能系列 &#183; 第 11 篇导语大模型不只是&quot;文字模型&quot;了——它能看图、听声音、理解视频。同时，一个经常被忽略但

多模态与模型评测：拓展 AI 的边界 AI 核心技能系列 · 第 11 篇导语大模型不只是"文字模型"了——它能看图、听声音、理解视频。同时，一个经常被忽略但极其重要的问题是：怎么判断一个 AI 系统到底好不好用？ "感觉还行"不是评测。没有量化的评测，就没有优化方向，就不知道上线后会不会翻车。这篇文章一次覆盖两个进阶主题：多模态能力和模型评测体系。 Part I：多模态一、多模态大模型：从文字到万物 1.1 什么是多模态多模态（Multimodal）= 模型能处理多种类型的输入和输出：文本、图像、音频、视频。模型文本图像理解图像生成语音视频 GPT-4o ✅ ✅ ✅(DALL·E) ✅ ✅ Claude Opus 4.6 ✅ ✅ ❌ ❌ ❌ Gemini 2.5 Pro ✅ ✅ ✅(Imagen) ✅ ✅ Llama 4 ✅ ✅ ❌ ❌ ❌ 1.2 为什么多模态重要真实世界的信息不只是文字——合同是 PDF 扫描件、Bug 是截图、会议是录音、产品是设计稿。一个只能处理文字的 AI，在很多场景下是"残缺"的。二、视觉理解：图像与文档 2.1 主流视觉能力能力说明实际应用图片描述理解图片内容并文字描述无障碍、内容审核 OCR 识别图片中的文字票据识别、文档数字化图表解读理解数据图表的含义数据分析、报告解读文档理解解析 PDF/扫描件的结构和内容合同审查、表格提取设计稿解读理解 UI 设计稿设计稿转代码 2.2 代码示例 from openai import OpenAI import base64 client = OpenAI() # 方式一：传入图片 URL response = client.chat.completions.create( model="gpt-4o", messages=[ { "role": "user", "content": [ {"type": "text", "text": "这张图片中有什么？请详细描述。"}, { "type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"} } ] } ] ) # 方式二：传入本地图片（Base64） def encode_image(image_path): with open(image_path, "rb") as f: return base64.b64encode(f.read()).decode("utf-8") image_data = encode_image("receipt.jpg") response = client.chat.completions.create( model="gpt-4o", messages=[ { "role": "user", "content": [ {"type": "text", "text": "请提取这张发票中的以下信息：发票号码、金额、日期、开票方。以 JSON 格式输出。

多模态与模型评测，如何拓展AI的边界？

相关推荐