Methodology

测评方法

我们优先使用确定性探针和可解释规则，避免把模型裁判作为唯一依据。报告强调证据链、限制和不确定性。

确定性断言行为画像OpenAI 兼容协议非绝对证明

检测目标

本项目用于在接入第三方 AI API 中转站前，验证 OpenAI 兼容接口的连通性、基础能力、格式遵循、工具调用纪律、安全拒答和模型真实性线索。检测结果仅供技术参考。

Smoke 只运行 3 条低成本测试。Fast 运行 10 条基础文本探针。Standard 运行 24 条，包含工具调用、response_format、身份冲突、系统指令和推理题。Forensic v1 运行 50 条有效样本，增加重复采样、长上下文锚点和稳定性评分，成本更高。

Standard 模式会要求模型调用 lookup_order 工具，并校验工具名、order_id 字符串、include_items 布尔值和是否输出额外自然语言。工具调用是高信号探针，但单项结果不能单独证明模型真实身份。

系统会将 JSON、极简输出、工具调用、系统指令、推理、代码、安全、上下文和身份线索汇总为行为特征向量，再与模型画像库做相似度比较，输出候选画像和置信度。

行为指纹不是密码学证明。中转站可能改写系统提示词、响应字段或输出风格。同一模型在不同供应商、参数和网关下也可能表现不同，因此报告只应作为工程参考。

API Key 不进入 URL、报告、历史页或数据库。真实任务只在运行时内存中临时保存；任务完成、失败、取消或删除后会清理。建议始终使用临时 Key。

模型真实性依赖行为证据和概率判断，无法排除代理层改写、模型微调或版本差异。报告使用“行为特征接近”“证据不足”等谨慎措辞，不提供绝对真实性承诺。

Forensic v1 会对 JSON、工具调用、上下文锚点和推理陷阱进行重复采样，并根据同组样本是否稳定通过计算 stability_score。该模式用于更强证据链，不适合作为首次连通性测试。