`63979ff`

test: precision override behavior + v4→v5 migrator coverage

Authored by

espadonne 3 weeks ago

SHA: 63979fff407dae04d260045628e7b5185ea4b7d6
Parents: c2bcba4
Tree: aa12303

3 changed files

Status	File	+	-
A	`tests/unit/doc/test_migration_v4_to_v5.py`	57	0
M	`tests/unit/doc/test_schema.py`	15	1
M	`tests/unit/hardware/test_plan.py`	42	0

tests/unit/doc/test_migration_v4_to_v5.pyadded

 +"""v4 → v5 migrator: additive `training.precision` override (identity)."""
++
 +from __future__ import annotations
++
 +from typing import Any
++
 +from dlm.doc.migrations.v4 import migrate
 +from dlm.doc.schema import DlmFrontmatter
++
 +VALID_ULID = "01HZ4X7TGZM3J1A2B3C4D5E6F7"
++
++
 +class TestIdentity:
 +    def test_empty_passthrough(self) -> None:
 +        raw: dict[str, Any] = {}
 +        out = migrate(raw)
 +        assert out == raw
 +        assert out is not raw
++
 +    def test_v4_training_block_preserved(self) -> None:
 +        raw: dict[str, Any] = {
 +            "training": {
 +                "lora_r": 16,
 +                "adapters": {
 +                    "knowledge": {"adapter": "lora", "lora_r": 8},
 +                },
 +            },
 +        }
 +        out = migrate(raw)
 +        assert out == raw
++
++
 +class TestValidatesAsV5:
 +    def test_migrated_doc_validates_without_precision(self) -> None:
 +        # A v4 doc with no precision override parses as v5 unchanged;
 +        # precision defaults to None (let the planner pick).
 +        raw: dict[str, Any] = {
 +            "dlm_id": VALID_ULID,
 +            "base_model": "smollm2-135m",
 +            "dlm_version": 4,
 +        }
 +        out = migrate(raw)
 +        out["dlm_version"] = 5
 +        fm = DlmFrontmatter.model_validate(out)
 +        assert fm.training.precision is None
++
 +    def test_migrated_doc_accepts_precision_override(self) -> None:
 +        raw: dict[str, Any] = {
 +            "dlm_id": VALID_ULID,
 +            "base_model": "smollm2-135m",
 +            "dlm_version": 4,
 +            "training": {"precision": "fp16"},
 +        }
 +        out = migrate(raw)
 +        out["dlm_version"] = 5
 +        fm = DlmFrontmatter.model_validate(out)
 +        assert fm.training.precision == "fp16"

tests/unit/doc/test_schema.pymodified

          assert t.optimizer == "adamw_torch"
          assert t.lr_scheduler == "cosine"
          assert t.warmup_ratio == pytest.approx(0.1)
 +        assert t.precision is None
          assert t.seed == 42
      def test_frozen_model_rejects_mutation(self) -> None:
          with pytest.raises(ValidationError):
              TrainingConfig(warmup_ratio=bad)
 +    @pytest.mark.parametrize("value", ["bf16", "fp16", "fp32"])
 +    def test_precision_accepts_valid_values(self, value: str) -> None:
 +        t = TrainingConfig(precision=value)  # type: ignore[arg-type]
 +        assert t.precision == value
++
 +    def test_precision_defaults_to_none(self) -> None:
 +        assert TrainingConfig().precision is None
++
 +    @pytest.mark.parametrize("bad", ["float32", "FP16", "int8", ""])
 +    def test_precision_rejects_invalid(self, bad: str) -> None:
 +        with pytest.raises(ValidationError):
 +            TrainingConfig(precision=bad)  # type: ignore[arg-type]
++
      def test_adapter_literal_rejects_unknown(self) -> None:
          with pytest.raises(ValidationError):
              TrainingConfig(adapter="full")  # type: ignore[arg-type]
  class TestDlmFrontmatter:
      def test_minimal_valid(self) -> None:
          fm = DlmFrontmatter(dlm_id=VALID_ULID, base_model="smollm2-135m")
 -        assert fm.dlm_version == 4
 +        assert fm.dlm_version == 5
          assert fm.training == TrainingConfig()
          assert fm.export == ExportConfig()
          assert fm.system_prompt is None

tests/unit/hardware/test_plan.pymodified

          plan = resolve(_cfg(), caps, base_params=1_500_000_000, seq_len=2048)
          assert plan.precision == "fp32"
 +    def test_mps_fp16_override_honored(self, caplog: object) -> None:
 +        # Frontmatter `training.precision: fp16` on MPS wins over the
 +        # default fp32 pin (see .docs/bugs/01-nan-adapter-on-mps.md —
 +        # user is opting in to the known NaN risk for memory headroom).
 +        import logging
++
 +        with force_mps():
 +            caps = probe()
 +        with caplog.at_level(logging.WARNING, logger="dlm.hardware.plan"):  # type: ignore[attr-defined]
 +            plan = resolve(
 +                _cfg(precision="fp16"), caps, base_params=8_000_000_000, seq_len=2048
 +            )
 +        assert plan.precision == "fp16"
 +        # The caller must see the risk explicitly — silent fp16 on MPS
 +        # is what caused the original bug.
 +        messages = " ".join(r.message for r in caplog.records)  # type: ignore[attr-defined]
 +        assert "fp16 on MPS" in messages
 +        assert "NaN" in messages
++
 +    def test_mps_bf16_override_silent(self, caplog: object) -> None:
 +        # bf16 on MPS is user-asserted; no warning, since bf16 doesn't
 +        # have the fp16 attention-kernel issue.
 +        import logging
++
 +        with force_mps():
 +            caps = probe()
 +        with caplog.at_level(logging.WARNING, logger="dlm.hardware.plan"):  # type: ignore[attr-defined]
 +            plan = resolve(
 +                _cfg(precision="bf16"), caps, base_params=1_500_000_000, seq_len=2048
 +            )
 +        assert plan.precision == "bf16"
 +        assert caplog.records == []  # type: ignore[attr-defined]
++
 +    def test_cuda_override_fp32_honored(self) -> None:
 +        # CUDA default is bf16 (Ampere+) — override to fp32 honored.
 +        with force_cuda(sm=(8, 0)):
 +            caps = probe()
 +        plan = resolve(
 +            _cfg(precision="fp32"), caps, base_params=1_500_000_000, seq_len=2048
 +        )
 +        assert plan.precision == "fp32"
++
  class TestAttentionPicker:
      def test_cuda_without_flash_falls_back_to_sdpa(self) -> None: