多模态与模型评测,如何拓展AI的边界?
摘要:多模态与模型评测:拓展 AI 的边界 AI 核心技能系列 · 第 11 篇 导语 大模型不只是"文字模型"了——它能看图、听声音、理解视频。同时,一个经常被忽略但
多模态与模型评测:拓展 AI 的边界
AI 核心技能系列 · 第 11 篇
导语
大模型不只是"文字模型"了——它能看图、听声音、理解视频。同时,一个经常被忽略但极其重要的问题是:怎么判断一个 AI 系统到底好不好用?
"感觉还行"不是评测。没有量化的评测,就没有优化方向,就不知道上线后会不会翻车。
这篇文章一次覆盖两个进阶主题:多模态能力和模型评测体系。
Part I:多模态
一、多模态大模型:从文字到万物
1.1 什么是多模态
多模态(Multimodal)= 模型能处理多种类型的输入和输出:文本、图像、音频、视频。
模型
文本
图像理解
图像生成
语音
视频
GPT-4o
✅
✅
✅(DALL·E)
✅
✅
Claude Opus 4.6
✅
✅
❌
❌
❌
Gemini 2.5 Pro
✅
✅
✅(Imagen)
✅
✅
Llama 4
✅
✅
❌
❌
❌
1.2 为什么多模态重要
真实世界的信息不只是文字——合同是 PDF 扫描件、Bug 是截图、会议是录音、产品是设计稿。一个只能处理文字的 AI,在很多场景下是"残缺"的。
二、视觉理解:图像与文档
2.1 主流视觉能力
能力
说明
实际应用
图片描述
理解图片内容并文字描述
无障碍、内容审核
OCR
识别图片中的文字
票据识别、文档数字化
图表解读
理解数据图表的含义
数据分析、报告解读
文档理解
解析 PDF/扫描件的结构和内容
合同审查、表格提取
设计稿解读
理解 UI 设计稿
设计稿转代码
2.2 代码示例
from openai import OpenAI
import base64
client = OpenAI()
# 方式一:传入图片 URL
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "这张图片中有什么?请详细描述。"},
{
"type": "image_url",
"image_url": {"url": "https://example.com/photo.jpg"}
}
]
}
]
)
# 方式二:传入本地图片(Base64)
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_data = encode_image("receipt.jpg")
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "请提取这张发票中的以下信息:发票号码、金额、日期、开票方。以 JSON 格式输出。
