Evaluations

Evaluations provide an automated testing framework for your prompts. Define scoring criteria and let Traceport grade every prompt output against your quality standards.

What Are Evaluations?

Evaluations are rules that automatically score the output of your prompts. Instead of manually reviewing every response, define criteria once and Traceport evaluates every test run.

Creating Evaluation Rules

Open Evaluations

Click the Evaluations icon in the Prompt Studio sidebar.

Add Rule

Click Add Evaluation Rule and define a scoring criterion.

Configure

Set the evaluation type, scoring method, and pass/fail threshold.

Run

Execute your prompt — evaluation scores appear alongside the output.

Evaluation Types

Content Quality

Score the response’s relevance, coherence, and completeness relative to the user’s request. Catches off‑topic or low‑quality responses.

Safety & Compliance

Check for harmful content, PII leakage, or policy violations. Essential for customer-facing applications.

Format Validation

Verify that the response follows a required format — JSON schema, specific structure, or required fields.

Custom Criteria

Define your own scoring logic using natural language descriptions. Traceport uses an evaluator model to grade responses against your criteria.

Evaluations + Datasets

The most powerful workflow combines Evaluations with Datasets:

Create a Dataset with diverse test inputs
Define Evaluation Rules for quality, safety, and format
Run the batch — Traceport evaluates every response against every rule
Review the scorecard — identify which inputs produce failing outputs

This workflow is ideal for prompt optimization cycles: make a change, run the dataset, and compare evaluation scores before and after.

Continuous Evaluation

As your prompts evolve through new versions, evaluations serve as a quality gate:

Run evaluations before publishing a new version
Compare scores across versions to detect regressions
Use evaluation pass rates as confidence signals for deployment

Evaluations use an additional model call to score responses. This adds a small cost per evaluation. Use them strategically on important prompts rather than on every prompt run.

Testing & Comparison Playground

Getting Started

Overview

Risk & Governance

Config Workflows

Prompt Studio

Playground

API Management

What Are Evaluations?

Creating Evaluation Rules

Evaluation Types

Evaluations + Datasets

Continuous Evaluation

​What Are Evaluations?

​Creating Evaluation Rules

​Evaluation Types

​Evaluations + Datasets

​Continuous Evaluation

What Are Evaluations?

Creating Evaluation Rules

Evaluation Types

Evaluations + Datasets

Continuous Evaluation