`1f0f0e8`

sway(backends): DummyDifferentialBackend for unit tests

Authored by

espadonne 3 weeks ago

SHA: 1f0f0e8bdc05b392a933bea6649c19adf4f30842
Parents: 0371e46
Tree: 3455588

2 changed files

Status	File	+	-
A	`src/dlm_sway/backends/dummy.py`	160	0
A	`tests/unit/test_backend_dummy.py`	102	0

src/dlm_sway/backends/dummy.pyadded

 +"""In-memory backend for unit tests.
++
 +Deterministic, torchless, and trivially fast. Tests pass canned responses
 +and canned score tables keyed by ``(mode, prompt, completion)``. The same
 +backend instance serves as both ``as_base`` and ``as_finetuned`` — it
 +switches an internal mode flag.
++
 +Use it to drive every probe's unit test without loading a real model.
 +For integration tests against a real PEFT adapter, see
 +:class:`~dlm_sway.backends.hf.HuggingFaceDifferentialBackend`.
 +"""
++
 +from __future__ import annotations
++
 +import math
 +from collections.abc import Iterator
 +from contextlib import contextmanager
 +from dataclasses import dataclass, field
 +from typing import Literal
++
 +import numpy as np
++
 +from dlm_sway.core.scoring import RollingLogprob, TokenDist
++
 +Mode = Literal["base", "ft"]
++
++
 +@dataclass(slots=True)
 +class DummyResponses:
 +    """Canned data for one mode (base or ft).
++
 +    Callers populate one of these per mode and hand both to
 +    :class:`DummyDifferentialBackend`.
 +    """
++
 +    generations: dict[str, str] = field(default_factory=dict)
 +    """Prompt → canned completion. Lookup is exact-match."""
 +    logprobs: dict[tuple[str, str], float] = field(default_factory=dict)
 +    """``(prompt, completion) → sum logprob``. Default ``-10.0`` if missing."""
 +    rolling: dict[str, RollingLogprob] = field(default_factory=dict)
 +    """Text → canned :class:`RollingLogprob`."""
 +    token_dists: dict[str, TokenDist] = field(default_factory=dict)
 +    """Prompt → canned :class:`TokenDist`."""
++
++
 +class _DummyView:
 +    """The per-mode view yielded by ``as_base`` / ``as_finetuned``.
++
 +    Implements :class:`~dlm_sway.core.model.Model` *and*
 +    :class:`~dlm_sway.core.scoring.ScoringBackend` — i.e. the
 +    ``ScoringModel`` intersection.
 +    """
++
 +    def __init__(self, mode: Mode, responses: DummyResponses) -> None:
 +        self.id = mode
 +        self._mode: Mode = mode
 +        self._r = responses
++
 +    # -- Model ---------------------------------------------------------
 +    def generate(
 +        self,
 +        prompt: str,
 +        *,
 +        max_new_tokens: int,
 +        temperature: float = 0.0,
 +        top_p: float = 1.0,
 +        seed: int = 0,
 +    ) -> str:
 +        del max_new_tokens, temperature, top_p, seed  # canned; decoding is trivial.
 +        try:
 +            return self._r.generations[prompt]
 +        except KeyError as exc:
 +            raise KeyError(
 +                f"dummy backend ({self._mode}): no canned generation for prompt {prompt!r}"
 +            ) from exc
++
 +    def close(self) -> None:
 +        return None
++
 +    # -- ScoringBackend ------------------------------------------------
 +    def logprob_of(self, prompt: str, completion: str) -> float:
 +        return self._r.logprobs.get((prompt, completion), -10.0)
++
 +    def rolling_logprob(self, text: str) -> RollingLogprob:
 +        if text in self._r.rolling:
 +            return self._r.rolling[text]
 +        # Synthesize a plausible rolling logprob so probes that just
 +        # want a non-trivial value work without per-text configuration.
 +        tokens = text.split()
 +        n = max(len(tokens), 1)
 +        per_tok = -2.0 if self._mode == "base" else -1.5
 +        return RollingLogprob(
 +            token_ids=np.arange(n, dtype=np.int64),
 +            logprobs=np.full(max(n - 1, 0), per_tok, dtype=np.float32),
 +            num_tokens=n,
 +            total_logprob=per_tok * max(n - 1, 0),
 +        )
++
 +    def next_token_dist(self, prompt: str, *, top_k: int = 256) -> TokenDist:
 +        del top_k
 +        if prompt in self._r.token_dists:
 +            return self._r.token_dists[prompt]
 +        # Synthesize a sharp base / broad ft distribution so divergence
 +        # probes see a non-zero signal without hand-rolled data.
 +        vocab = 1000
 +        k = 8
 +        if self._mode == "base":
 +            lp = np.array([-0.1] + [-5.0] * (k - 1), dtype=np.float32)
 +        else:
 +            # More uniform mass across the top-k tokens.
 +            lp = np.full(k, -math.log(k), dtype=np.float32)
 +        return TokenDist(
 +            token_ids=np.arange(k, dtype=np.int64),
 +            logprobs=lp,
 +            vocab_size=vocab,
 +            tail_logprob=math.log1p(-float(np.exp(lp).sum())) if np.exp(lp).sum() < 1 else 0.0,
 +        )
++
++
 +class DummyDifferentialBackend:
 +    """Dummy implementation of
 +    :class:`~dlm_sway.core.scoring.DifferentialBackend`.
++
 +    Construction takes one :class:`DummyResponses` per mode. The two
 +    modes are mutually exclusive — the backend enforces that callers
 +    exit one view before entering the other, catching bugs in probes
 +    that hold a stale view across a toggle.
 +    """
++
 +    def __init__(self, *, base: DummyResponses, ft: DummyResponses) -> None:
 +        self._base = _DummyView("base", base)
 +        self._ft = _DummyView("ft", ft)
 +        self._active: Mode | None = None
++
 +    @contextmanager
 +    def as_base(self) -> Iterator[_DummyView]:
 +        self._enter("base")
 +        try:
 +            yield self._base
 +        finally:
 +            self._exit()
++
 +    @contextmanager
 +    def as_finetuned(self) -> Iterator[_DummyView]:
 +        self._enter("ft")
 +        try:
 +            yield self._ft
 +        finally:
 +            self._exit()
++
 +    def _enter(self, mode: Mode) -> None:
 +        if self._active is not None:
 +            raise RuntimeError(
 +                f"DifferentialBackend view already active ({self._active!r}); "
 +                f"exit the current view before entering {mode!r}."
 +            )
 +        self._active = mode
++
 +    def _exit(self) -> None:
 +        self._active = None

tests/unit/test_backend_dummy.pyadded

 +"""Tests for :class:`dlm_sway.backends.dummy.DummyDifferentialBackend`.
++
 +The dummy backend is used by every downstream probe unit test, so it
 +gets a thorough own-right test here. Also verifies the view-exclusion
 +invariant that catches stale-view bugs in probes.
 +"""
++
 +from __future__ import annotations
++
 +import numpy as np
 +import pytest
++
 +from dlm_sway.backends.dummy import DummyDifferentialBackend, DummyResponses
 +from dlm_sway.core.model import Model
 +from dlm_sway.core.scoring import DifferentialBackend, ScoringBackend
++
++
 +@pytest.fixture
 +def backend() -> DummyDifferentialBackend:
 +    base = DummyResponses(
 +        generations={"hi": "hello"},
 +        logprobs={("q", "a"): -3.0},
 +    )
 +    ft = DummyResponses(
 +        generations={"hi": "greetings, traveler"},
 +        logprobs={("q", "a"): -1.2},
 +    )
 +    return DummyDifferentialBackend(base=base, ft=ft)
++
++
 +class TestViews:
 +    def test_as_base_and_as_ft_yield_distinct_generations(
 +        self, backend: DummyDifferentialBackend
 +    ) -> None:
 +        with backend.as_base() as b:
 +            assert b.generate("hi", max_new_tokens=5) == "hello"
 +        with backend.as_finetuned() as f:
 +            assert f.generate("hi", max_new_tokens=5) == "greetings, traveler"
++
 +    def test_logprob_differs_between_modes(self, backend: DummyDifferentialBackend) -> None:
 +        with backend.as_base() as b:
 +            base_score = b.logprob_of("q", "a")
 +        with backend.as_finetuned() as f:
 +            ft_score = f.logprob_of("q", "a")
 +        assert base_score == -3.0
 +        assert ft_score == -1.2
++
 +    def test_missing_generation_raises_keyerror(self, backend: DummyDifferentialBackend) -> None:
 +        with backend.as_base() as b, pytest.raises(KeyError, match="no canned generation"):
 +            b.generate("unconfigured", max_new_tokens=1)
++
 +    def test_missing_logprob_default(self, backend: DummyDifferentialBackend) -> None:
 +        with backend.as_base() as b:
 +            assert b.logprob_of("nonexistent", "target") == -10.0
++
++
 +class TestRollingLogprob:
 +    def test_synthesized_when_not_preseeded(self, backend: DummyDifferentialBackend) -> None:
 +        with backend.as_base() as b:
 +            r = b.rolling_logprob("a quick brown fox jumps")
 +        assert r.num_tokens == 5
 +        assert r.logprobs.size == 4
 +        assert np.all(r.logprobs == -2.0)
++
 +    def test_ft_perplexity_lower_than_base(self, backend: DummyDifferentialBackend) -> None:
 +        text = "a quick brown fox"
 +        with backend.as_base() as b:
 +            pb = b.rolling_logprob(text).perplexity
 +        with backend.as_finetuned() as f:
 +            pf = f.rolling_logprob(text).perplexity
 +        assert pf < pb  # synthesized ft is less perplexed → lower PPL
++
++
 +class TestTokenDist:
 +    def test_dists_differ_between_modes(self, backend: DummyDifferentialBackend) -> None:
 +        with backend.as_base() as b:
 +            base_dist = b.next_token_dist("any prompt")
 +        with backend.as_finetuned() as f:
 +            ft_dist = f.next_token_dist("any prompt")
 +        assert not np.array_equal(base_dist.logprobs, ft_dist.logprobs)
++
++
 +class TestInvariants:
 +    def test_protocol_satisfaction(self, backend: DummyDifferentialBackend) -> None:
 +        assert isinstance(backend, DifferentialBackend)
 +        with backend.as_base() as view:
 +            assert isinstance(view, Model)
 +            assert isinstance(view, ScoringBackend)
++
 +    def test_nested_views_rejected(self, backend: DummyDifferentialBackend) -> None:
 +        with backend.as_base(), pytest.raises(RuntimeError, match="view already active"):
 +            with backend.as_finetuned():
 +                pass
++
 +    def test_sequential_views_fine(self, backend: DummyDifferentialBackend) -> None:
 +        # Must be able to re-enter after exiting — common pattern in probes.
 +        with backend.as_base() as b:
 +            b.logprob_of("q", "a")
 +        with backend.as_finetuned() as f:
 +            f.logprob_of("q", "a")
 +        with backend.as_base() as b:
 +            b.logprob_of("q", "a")