`cec8c23`

tests: sway mine CLI smoke — paraphrase + outliers modes (S17.5)

Authored by

espadonne 3 weeks ago

SHA: cec8c2308e88916e9f864149078cb8315c647c11
Parents: 28d3673
Tree: 2529ab1

1 changed file

Status	File	+	-
A	`tests/unit/test_cli_mine.py`	234	0

tests/unit/test_cli_mine.pyadded

 +"""Smoke tests for ``sway mine`` — S17 CLI surface.
++
 +Follows the test_sway_gate_exit_code pattern: stub ``backends.build``
 +with a dummy-returning factory so the CLI runs without loading a real
 +HF model. The paraphrase generator is also stubbed (via monkeypatch
 +on ``dlm_sway.mining.paraphrase_miner.nlpaug_candidates``) so tests
 +don't need the nlpaug wheel.
 +"""
++
 +from __future__ import annotations
++
 +from pathlib import Path
 +from typing import Any
++
 +import numpy as np
 +import pytest
 +import yaml
 +from typer.testing import CliRunner
++
 +from dlm_sway.backends.dummy import DummyDifferentialBackend, DummyResponses
 +from dlm_sway.cli.app import app
 +from dlm_sway.core.scoring import TokenDist
++
++
 +def _programmable_backend() -> DummyDifferentialBackend:
 +    """Dummy backend with predictable logprobs + TokenDists so both
 +    mine modes have something to chew on."""
 +    base_dist = TokenDist(
 +        token_ids=np.arange(5, dtype=np.int64),
 +        logprobs=np.log(np.array([0.92, 0.02, 0.02, 0.02, 0.02], dtype=np.float32)),
 +        vocab_size=1000,
 +    )
 +    ft_dist = TokenDist(
 +        token_ids=np.arange(5, dtype=np.int64),
 +        logprobs=np.log(np.array([0.25, 0.20, 0.20, 0.20, 0.15], dtype=np.float32)),
 +        vocab_size=1000,
 +    )
 +    prompts = ["p1", "p2", "p3", "p4"]
 +    base_token_dists = dict.fromkeys(prompts, base_dist)
 +    ft_token_dists = dict.fromkeys(prompts, ft_dist)
 +    # Logprobs for the paraphrase case scoring.
 +    base_lp = {
 +        ("seed prompt", " gold"): -3.0,
 +        ("C1", " gold"): -3.0,
 +        ("C2", " gold"): -3.0,
 +        ("C3", " gold"): -3.0,
 +    }
 +    ft_lp = {
 +        ("seed prompt", " gold"): -1.0,  # lift +2
 +        ("C1", " gold"): -3.0,  # no lift → big gap
 +        ("C2", " gold"): -2.0,  # partial lift → medium gap
 +        ("C3", " gold"): -1.0,  # full lift → zero gap
 +    }
 +    return DummyDifferentialBackend(
 +        base=DummyResponses(token_dists=base_token_dists, logprobs=base_lp),
 +        ft=DummyResponses(token_dists=ft_token_dists, logprobs=ft_lp),
 +    )
++
++
 +@pytest.fixture
 +def stub_build_backend(monkeypatch: pytest.MonkeyPatch) -> None:
 +    """Replace ``backends.build`` so the CLI doesn't try to load HF."""
++
 +    def _factory(*_args: object, **_kwargs: object) -> DummyDifferentialBackend:
 +        return _programmable_backend()
++
 +    import dlm_sway.backends as backends_mod
++
 +    monkeypatch.setattr(backends_mod, "build", _factory)
++
++
 +@pytest.fixture
 +def stub_embedder(monkeypatch: pytest.MonkeyPatch) -> None:
 +    """Stub the MiniLM embedder so paraphrase mining doesn't need
 +    sentence-transformers installed."""
 +    table: dict[str, np.ndarray] = {
 +        "seed prompt": np.array([1.0, 0.0, 0.0], dtype=np.float32),
 +        "C1": np.array([0.0, 1.0, 0.0], dtype=np.float32),
 +        "C2": np.array([0.0, 0.0, 1.0], dtype=np.float32),
 +        "C3": np.array([0.5, 0.5, 0.0], dtype=np.float32),
 +    }
++
 +    def _encode(texts: list[str]) -> np.ndarray:
 +        return np.stack([table[t] for t in texts])
++
 +    monkeypatch.setattr(
 +        "dlm_sway.mining.paraphrase_miner._load_embedder",
 +        lambda _model_id: _encode,  # type: ignore[arg-type]
 +    )
++
++
 +@pytest.fixture
 +def stub_nlpaug(monkeypatch: pytest.MonkeyPatch) -> None:
 +    """Stub the nlpaug generator so paraphrase mining doesn't need
 +    the nlpaug wheel."""
++
 +    def _gen(prompt: str, *, n: int, seed: int) -> list[str]:
 +        del prompt, n, seed
 +        return ["C1", "C2", "C3"]
++
 +    monkeypatch.setattr("dlm_sway.mining.paraphrase_miner.nlpaug_candidates", _gen)
++
++
 +def _write_paraphrase_spec(path: Path) -> None:
 +    path.write_text(
 +        """
 +version: 1
 +models:
 +  base: {base: stub, kind: hf, adapter: /tmp/stub}
 +  ft: {base: stub, kind: hf, adapter: /tmp/stub}
 +suite:
 +  - name: pi
 +    kind: paraphrase_invariance
 +    cases:
 +      - prompt: seed prompt
 +        gold: " gold"
 +        paraphrases: ["x"]
 +""".strip()
 +    )
++
++
 +def _write_delta_kl_spec(path: Path) -> None:
 +    path.write_text(
 +        """
 +version: 1
 +models:
 +  base: {base: stub, kind: hf, adapter: /tmp/stub}
 +  ft: {base: stub, kind: hf, adapter: /tmp/stub}
 +suite:
 +  - name: dk
 +    kind: delta_kl
 +    prompts: [p1, p2, p3, p4]
 +    assert_mean_gte: 0.0
 +""".strip()
 +    )
++
++
 +class TestMineParaphrase:
 +    def test_emits_yaml_fragment_with_mined_cases(
 +        self,
 +        stub_build_backend: None,  # noqa: ARG002
 +        stub_embedder: None,  # noqa: ARG002
 +        stub_nlpaug: None,  # noqa: ARG002
 +        tmp_path: Path,
 +    ) -> None:
 +        spec = tmp_path / "sway.yaml"
 +        _write_paraphrase_spec(spec)
 +        out = tmp_path / "mined.yaml"
++
 +        result = CliRunner().invoke(
 +            app,
 +            [
 +                "mine",
 +                str(spec),
 +                "--mode",
 +                "paraphrase",
 +                "--out",
 +                str(out),
 +                "--n-candidates",
 +                "3",
 +                "--top-k",
 +                "3",
 +            ],
 +        )
 +        assert result.exit_code == 0, result.stdout
 +        assert out.exists()
 +        payload: dict[str, Any] = yaml.safe_load(out.read_text())
 +        assert "mined_cases" in payload
 +        cases = payload["mined_cases"]
 +        assert len(cases) == 1
 +        case = cases[0]
 +        assert case["prompt"] == "seed prompt"
 +        assert case["gold"] == " gold"
 +        # Paraphrases are ranked hardest-first; C1 had the largest gap.
 +        assert case["paraphrases"][0] == "C1"
 +        assert "_mining_meta" in case
++
++
 +class TestMineOutliers:
 +    def test_emits_top_and_bottom(
 +        self,
 +        stub_build_backend: None,  # noqa: ARG002
 +        tmp_path: Path,
 +    ) -> None:
 +        spec = tmp_path / "sway.yaml"
 +        _write_delta_kl_spec(spec)
 +        out = tmp_path / "outliers.yaml"
++
 +        result = CliRunner().invoke(
 +            app,
 +            ["mine", str(spec), "--mode", "outliers", "--out", str(out), "--top-k", "3"],
 +        )
 +        assert result.exit_code == 0, result.stdout
 +        assert out.exists()
 +        payload: dict[str, Any] = yaml.safe_load(out.read_text())
 +        assert "mined_outliers" in payload
 +        rollup = payload["mined_outliers"]
 +        assert rollup["probe_kind"] == "delta_kl"
 +        assert isinstance(rollup["top"], list)
 +        assert isinstance(rollup["bottom"], list)
 +        # All 4 delta_kl prompts get scored; top-K is clipped to 3.
 +        assert len(rollup["top"]) == 3
 +        assert len(rollup["bottom"]) == 3
++
 +    def test_no_prompts_and_no_corpus_errors(
 +        self,
 +        stub_build_backend: None,  # noqa: ARG002
 +        tmp_path: Path,
 +    ) -> None:
 +        """A spec with no delta_kl prompts + no --from-corpus flag
 +        must exit non-zero with a pointed message rather than write
 +        an empty YAML."""
 +        spec = tmp_path / "sway.yaml"
 +        spec.write_text(
 +            """
 +version: 1
 +models:
 +  base: {base: stub, kind: hf, adapter: /tmp/stub}
 +  ft: {base: stub, kind: hf, adapter: /tmp/stub}
 +suite:
 +  - name: pi
 +    kind: paraphrase_invariance
 +    cases:
 +      - prompt: x
 +        gold: " y"
 +        paraphrases: ["z"]
 +""".strip()
 +        )
 +        out = tmp_path / "outliers.yaml"
 +        result = CliRunner().invoke(
 +            app, ["mine", str(spec), "--mode", "outliers", "--out", str(out)]
 +        )
 +        assert result.exit_code == 2
 +        assert not out.exists()