`e4fdbf1`

core: safe_finalize helper — non-finite critical fields → Verdict.ERROR

Authored by

espadonne 3 weeks ago

SHA: e4fdbf1bd877b23c6efa11c70ff92e1abcc4ab7a
Parents: d21e208
Tree: a4a0ec6

3 changed files

Status	File	+	-
M	`src/dlm_sway/__init__.py`	2	1
M	`src/dlm_sway/core/result.py`	100	0
A	`tests/unit/test_safe_finalize.py`	204	0

src/dlm_sway/__init__.pymodified

      SwayError,
+ )
  from dlm_sway.core.model import LoadedModel, Model, ModelSpec
 -from dlm_sway.core.result import ProbeResult, SuiteResult, SwayScore, Verdict
 +from dlm_sway.core.result import ProbeResult, SuiteResult, SwayScore, Verdict, safe_finalize
  from dlm_sway.core.scoring import (
      DifferentialBackend,
      NullCalibratedBackend,
      "SwayScore",
      "TokenDist",
      "Verdict",
 +    "safe_finalize",
+ ]
  __version__ = "0.1.0.dev0"

src/dlm_sway/core/result.pymodified

  from __future__ import annotations
 +import math
  from dataclasses import dataclass, field
  from datetime import UTC, datetime
  from enum import StrEnum
  def utcnow() -> datetime:
      """Timezone-aware UTC timestamp (used by the runner)."""
      return datetime.now(UTC)
++
++
 +def safe_finalize(
 +    *,
 +    name: str,
 +    kind: str,
 +    verdict: Verdict,
 +    score: float | None = None,
 +    raw: float | None = None,
 +    z_score: float | None = None,
 +    base_value: float | None = None,
 +    ft_value: float | None = None,
 +    evidence: dict[str, Any] | None = None,
 +    message: str = "",
 +    duration_s: float = 0.0,
 +    critical_fields: tuple[str, ...] = ("raw",),
 +) -> ProbeResult:
 +    """Build a :class:`ProbeResult` with defense against non-finite metrics.
++
 +    Probes hand their candidate result kwargs here instead of constructing
 +    a :class:`ProbeResult` directly. The helper inspects every numeric
 +    field and classifies it:
++
 +    - **Critical field non-finite** (any field named in ``critical_fields``
 +      whose value is ``NaN`` or ``±inf``): the whole probe result is
 +      converted to :attr:`Verdict.ERROR` with all scalar fields nulled out,
 +      the offending values are preserved under
 +      ``evidence["non_finite_inputs"]``, and the message explains which
 +      field(s) were non-finite.
 +    - **Non-critical field non-finite**: nulled out silently (set to
 +      ``None``), and the field name appended to
 +      ``evidence["defensively_nulled"]`` so a report reader can see what
 +      happened.
 +    - **Everything finite**: passthrough, no change.
++
 +    The default ``critical_fields = ("raw",)`` reflects the design stance:
 +    ``raw`` is the probe's ground-truth metric; a non-finite ``raw`` means
 +    the probe cannot make a meaningful statement. Probes that care about
 +    other fields (e.g., probes whose ``z_score`` is load-bearing) pass a
 +    broader tuple.
++
 +    This helper is the single shared guardrail sprint 01 installs against
 +    the +11639σ class of bug, where NaN logprobs flowed silently through
 +    to a PASS verdict. Every numeric probe is expected to finalize through
 +    this function.
 +    """
 +    numeric_kwargs: dict[str, float | None] = {
 +        "score": score,
 +        "raw": raw,
 +        "z_score": z_score,
 +        "base_value": base_value,
 +        "ft_value": ft_value,
 +    }
++
 +    non_finite: dict[str, float] = {}
 +    for fname, v in numeric_kwargs.items():
 +        if isinstance(v, int | float) and not isinstance(v, bool) and not math.isfinite(float(v)):
 +            non_finite[fname] = float(v)
++
 +    ev: dict[str, Any] = dict(evidence) if evidence is not None else {}
++
 +    critical_non_finite = {k: v for k, v in non_finite.items() if k in critical_fields}
 +    if critical_non_finite:
 +        ev["non_finite_inputs"] = non_finite
 +        return ProbeResult(
 +            name=name,
 +            kind=kind,
 +            verdict=Verdict.ERROR,
 +            score=None,
 +            raw=None,
 +            z_score=None,
 +            base_value=None,
 +            ft_value=None,
 +            evidence=ev,
 +            message=(
 +                f"non-finite critical field(s): {', '.join(sorted(critical_non_finite))} "
 +                f"— probe cannot produce a meaningful result"
 +            ),
 +            duration_s=duration_s,
 +        )
++
 +    if non_finite:
 +        ev.setdefault("defensively_nulled", []).extend(sorted(non_finite))
 +        for fname in non_finite:
 +            numeric_kwargs[fname] = None
++
 +    return ProbeResult(
 +        name=name,
 +        kind=kind,
 +        verdict=verdict,
 +        score=numeric_kwargs["score"],
 +        raw=numeric_kwargs["raw"],
 +        z_score=numeric_kwargs["z_score"],
 +        base_value=numeric_kwargs["base_value"],
 +        ft_value=numeric_kwargs["ft_value"],
 +        evidence=ev,
 +        message=message,
 +        duration_s=duration_s,
 +    )

tests/unit/test_safe_finalize.pyadded

 +"""Tests for :func:`dlm_sway.core.result.safe_finalize`.
++
 +This helper is the shared guardrail S01 installs against NaN-flows-through
 +bugs. It must:
++
 +- Route critical non-finite fields to :attr:`Verdict.ERROR` with score nulled
 +- Defensively null non-critical non-finite fields without changing the verdict
 +- Leave all-finite inputs untouched
 +- Preserve the original non-finite values in evidence for postmortem
 +"""
++
 +from __future__ import annotations
++
 +import math
++
 +from dlm_sway.core.result import ProbeResult, Verdict, safe_finalize
++
++
 +class TestAllFinite:
 +    def test_passthrough_preserves_all_fields(self) -> None:
 +        r = safe_finalize(
 +            name="p1",
 +            kind="delta_kl",
 +            verdict=Verdict.PASS,
 +            score=0.75,
 +            raw=0.08,
 +            z_score=3.2,
 +            base_value=0.0,
 +            ft_value=0.08,
 +            evidence={"num_prompts": 4},
 +            message="looks fine",
 +            duration_s=1.2,
 +        )
 +        assert r.verdict == Verdict.PASS
 +        assert r.score == 0.75
 +        assert r.raw == 0.08
 +        assert r.z_score == 3.2
 +        assert r.base_value == 0.0
 +        assert r.ft_value == 0.08
 +        assert r.message == "looks fine"
 +        assert r.duration_s == 1.2
 +        assert r.evidence == {"num_prompts": 4}
++
 +    def test_defaults(self) -> None:
 +        r = safe_finalize(name="p", kind="k", verdict=Verdict.PASS, score=1.0)
 +        assert r.raw is None
 +        assert r.z_score is None
 +        assert r.evidence == {}
 +        assert r.duration_s == 0.0
++
++
 +class TestCriticalNonFinite:
 +    def test_nan_raw_routes_to_error(self) -> None:
 +        r = safe_finalize(
 +            name="p",
 +            kind="delta_kl",
 +            verdict=Verdict.PASS,
 +            score=1.0,
 +            raw=math.nan,
 +            z_score=3.0,
 +        )
 +        assert r.verdict == Verdict.ERROR
 +        assert r.score is None
 +        assert r.raw is None
 +        assert r.z_score is None
 +        assert "non-finite critical" in r.message
 +        assert "raw" in r.message
 +        assert "raw" in r.evidence["non_finite_inputs"]
 +        assert math.isnan(r.evidence["non_finite_inputs"]["raw"])
++
 +    def test_inf_raw_routes_to_error(self) -> None:
 +        r = safe_finalize(
 +            name="p",
 +            kind="delta_kl",
 +            verdict=Verdict.PASS,
 +            score=1.0,
 +            raw=math.inf,
 +        )
 +        assert r.verdict == Verdict.ERROR
 +        assert r.evidence["non_finite_inputs"]["raw"] == math.inf
++
 +    def test_negative_inf_raw_routes_to_error(self) -> None:
 +        r = safe_finalize(
 +            name="p",
 +            kind="delta_kl",
 +            verdict=Verdict.PASS,
 +            score=1.0,
 +            raw=-math.inf,
 +        )
 +        assert r.verdict == Verdict.ERROR
++
 +    def test_error_capture_includes_all_non_finite_fields(self) -> None:
 +        """Even non-critical fields that are non-finite are recorded in evidence."""
 +        r = safe_finalize(
 +            name="p",
 +            kind="delta_kl",
 +            verdict=Verdict.PASS,
 +            score=1.0,
 +            raw=math.nan,
 +            z_score=math.inf,
 +            base_value=math.nan,
 +        )
 +        assert r.verdict == Verdict.ERROR
 +        captured = r.evidence["non_finite_inputs"]
 +        assert set(captured) == {"raw", "z_score", "base_value"}
++
 +    def test_error_preserves_caller_evidence_keys(self) -> None:
 +        r = safe_finalize(
 +            name="p",
 +            kind="delta_kl",
 +            verdict=Verdict.PASS,
 +            score=1.0,
 +            raw=math.nan,
 +            evidence={"per_prompt": [1, 2, 3], "num_prompts": 3},
 +        )
 +        assert r.verdict == Verdict.ERROR
 +        assert r.evidence["per_prompt"] == [1, 2, 3]
 +        assert r.evidence["num_prompts"] == 3
 +        assert "non_finite_inputs" in r.evidence
++
++
 +class TestNonCriticalNonFinite:
 +    def test_nan_z_score_is_nulled_silently(self) -> None:
 +        r = safe_finalize(
 +            name="p",
 +            kind="delta_kl",
 +            verdict=Verdict.PASS,
 +            score=0.7,
 +            raw=0.05,
 +            z_score=math.nan,
 +        )
 +        assert r.verdict == Verdict.PASS
 +        assert r.score == 0.7
 +        assert r.raw == 0.05
 +        assert r.z_score is None
 +        assert "z_score" in r.evidence["defensively_nulled"]
++
 +    def test_nan_base_and_ft_nulled_preserves_passing_score(self) -> None:
 +        r = safe_finalize(
 +            name="p",
 +            kind="delta_kl",
 +            verdict=Verdict.PASS,
 +            score=0.9,
 +            raw=0.1,
 +            base_value=math.nan,
 +            ft_value=math.inf,
 +        )
 +        assert r.verdict == Verdict.PASS
 +        assert r.base_value is None
 +        assert r.ft_value is None
 +        assert sorted(r.evidence["defensively_nulled"]) == ["base_value", "ft_value"]
++
++
 +class TestCriticalFieldsOverride:
 +    def test_z_score_critical_triggers_error_on_nan(self) -> None:
 +        r = safe_finalize(
 +            name="p",
 +            kind="adapter_ablation",
 +            verdict=Verdict.PASS,
 +            score=1.0,
 +            raw=0.9,
 +            z_score=math.nan,
 +            critical_fields=("raw", "z_score"),
 +        )
 +        assert r.verdict == Verdict.ERROR
 +        assert "z_score" in r.message
++
 +    def test_critical_fields_empty_allows_all_through(self) -> None:
 +        """When no field is critical, even NaN raw only gets defensively nulled."""
 +        r = safe_finalize(
 +            name="p",
 +            kind="delta_kl",
 +            verdict=Verdict.PASS,
 +            score=1.0,
 +            raw=math.nan,
 +            critical_fields=(),
 +        )
 +        assert r.verdict == Verdict.PASS
 +        assert r.raw is None
 +        assert "raw" in r.evidence["defensively_nulled"]
++
++
 +class TestBoolFieldsNotMistakenForFloat:
 +    """Pyantic sometimes wraps bools as ints; isinstance(True, int) is True.
 +    We don't want booleans to be treated as numeric checks.
 +    """
++
 +    def test_true_in_a_numeric_slot_is_not_non_finite(self) -> None:
 +        # This test pins behavior: even if a caller passes True, we don't
 +        # crash. We also don't treat True as non-finite.
 +        r = safe_finalize(
 +            name="p",
 +            kind="test",
 +            verdict=Verdict.PASS,
 +            score=1.0,
 +            raw=True,  # type: ignore[arg-type]
 +        )
 +        assert r.verdict == Verdict.PASS  # bool is finite
++
++
 +class TestResultTypeReturned:
 +    def test_returns_probe_result(self) -> None:
 +        r = safe_finalize(name="p", kind="k", verdict=Verdict.PASS, score=1.0)
 +        assert isinstance(r, ProbeResult)