多模态与模型评测,如何拓展AI的边界?

摘要:多模态与模型评测:拓展 AI 的边界 AI 核心技能系列 · 第 11 篇 导语 大模型不只是"文字模型"了——它能看图、听声音、理解视频。同时,一个经常被忽略但
多模态与模型评测:拓展 AI 的边界 AI 核心技能系列 · 第 11 篇 导语 大模型不只是"文字模型"了——它能看图、听声音、理解视频。同时,一个经常被忽略但极其重要的问题是:怎么判断一个 AI 系统到底好不好用? "感觉还行"不是评测。没有量化的评测,就没有优化方向,就不知道上线后会不会翻车。 这篇文章一次覆盖两个进阶主题:多模态能力和模型评测体系。 Part I:多模态 一、多模态大模型:从文字到万物 1.1 什么是多模态 多模态(Multimodal)= 模型能处理多种类型的输入和输出:文本、图像、音频、视频。 模型 文本 图像理解 图像生成 语音 视频 GPT-4o ✅ ✅ ✅(DALL·E) ✅ ✅ Claude Opus 4.6 ✅ ✅ ❌ ❌ ❌ Gemini 2.5 Pro ✅ ✅ ✅(Imagen) ✅ ✅ Llama 4 ✅ ✅ ❌ ❌ ❌ 1.2 为什么多模态重要 真实世界的信息不只是文字——合同是 PDF 扫描件、Bug 是截图、会议是录音、产品是设计稿。一个只能处理文字的 AI,在很多场景下是"残缺"的。 二、视觉理解:图像与文档 2.1 主流视觉能力 能力 说明 实际应用 图片描述 理解图片内容并文字描述 无障碍、内容审核 OCR 识别图片中的文字 票据识别、文档数字化 图表解读 理解数据图表的含义 数据分析、报告解读 文档理解 解析 PDF/扫描件的结构和内容 合同审查、表格提取 设计稿解读 理解 UI 设计稿 设计稿转代码 2.2 代码示例 from openai import OpenAI import base64 client = OpenAI() # 方式一:传入图片 URL response = client.chat.completions.create( model="gpt-4o", messages=[ { "role": "user", "content": [ {"type": "text", "text": "这张图片中有什么?请详细描述。"}, { "type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"} } ] } ] ) # 方式二:传入本地图片(Base64) def encode_image(image_path): with open(image_path, "rb") as f: return base64.b64encode(f.read()).decode("utf-8") image_data = encode_image("receipt.jpg") response = client.chat.completions.create( model="gpt-4o", messages=[ { "role": "user", "content": [ {"type": "text", "text": "请提取这张发票中的以下信息:发票号码、金额、日期、开票方。以 JSON 格式输出。
阅读全文