Methodology
测评方法
我们优先使用确定性探针和可解释规则,避免把模型裁判作为唯一依据。报告强调证据链、限制和不确定性。
Methodology
我们优先使用确定性探针和可解释规则,避免把模型裁判作为唯一依据。报告强调证据链、限制和不确定性。
本项目用于在接入第三方 AI API 中转站前,验证 OpenAI 兼容接口的连通性、基础能力、格式遵循、工具调用纪律、安全拒答和模型真实性线索。检测结果仅供技术参考。
Smoke 只运行 3 条低成本测试。Fast 运行 10 条基础文本探针。Standard 运行 24 条,包含工具调用、response_format、身份冲突、系统指令和推理题。Forensic v1 运行 50 条有效样本,增加重复采样、长上下文锚点和稳定性评分,成本更高。
Standard 模式会要求模型调用 lookup_order 工具,并校验工具名、order_id 字符串、include_items 布尔值和是否输出额外自然语言。工具调用是高信号探针,但单项结果不能单独证明模型真实身份。
系统会将 JSON、极简输出、工具调用、系统指令、推理、代码、安全、上下文和身份线索汇总为行为特征向量,再与模型画像库做相似度比较,输出候选画像和置信度。
行为指纹不是密码学证明。中转站可能改写系统提示词、响应字段或输出风格。同一模型在不同供应商、参数和网关下也可能表现不同,因此报告只应作为工程参考。
API Key 不进入 URL、报告、历史页或数据库。真实任务只在运行时内存中临时保存;任务完成、失败、取消或删除后会清理。建议始终使用临时 Key。
模型真实性依赖行为证据和概率判断,无法排除代理层改写、模型微调或版本差异。报告使用“行为特征接近”“证据不足”等谨慎措辞,不提供绝对真实性承诺。
Forensic v1 会对 JSON、工具调用、上下文锚点和推理陷阱进行重复采样,并根据同组样本是否稳定通过计算 stability_score。该模式用于更强证据链,不适合作为首次连通性测试。