`5f8f3a8`

Filter preference rows from replay in SFT build_dataset

Authored by mfwolffe <wolffemf@dukes.jmu.edu> 2 weeks ago

Status	File	+	-
M	`src/dlm/data/dataset_builder.py`	9	1
M	`tests/unit/data/test_dataset_builder.py`	17	0

src/dlm/data/dataset_builder.pymodified

          audio_token=audio_token,
+     )
      if replay_rows is not None:
 -        rows.extend(replay_rows)
 +        rows.extend(r for r in replay_rows if not _is_preference_row(r))
      if not rows:
          raise ValueError(
+             )
      return split(rows, val_frac=val_frac, seed=seed)
++
++
 +def _is_preference_row(row: Row) -> bool:
 +    return (
 +        row.get("prompt") is not None
 +        and row.get("chosen") is not None
 +        and row.get("rejected") is not None
 +    )

tests/unit/data/test_dataset_builder.pymodified

          all_text = {r["text"] for r in list(train) + list(val)}
          assert {"source doc prose", "replay-1", "replay-2"}.issubset(all_text)
 +    def test_preference_replay_rows_filtered(self) -> None:
 +        sections = [_s(SectionType.PROSE, "source doc prose")]
 +        replay = [
 +            {"text": "sft-replay", "_dlm_section_id": "replay-sft"},
 +            {
 +                "prompt": "q",
 +                "chosen": "good",
 +                "rejected": "bad",
 +                "_dlm_section_id": "replay-pref",
 +            },
 +        ]
 +        train, val = build_dataset(sections, seed=0, val_frac=0.1, replay_rows=replay)
 +        all_rows = list(train) + list(val)
 +        all_text = {r.get("text") for r in all_rows if r.get("text")}
 +        assert "sft-replay" in all_text
 +        assert not any(r.get("prompt") == "q" for r in all_rows)
++
      def test_empty_rows_raises(self) -> None:
          sections = [_s(SectionType.PROSE, "   ")]
          with pytest.raises(ValueError, match="no trainable rows"):