`53d9e59`

Refresh runtime capabilities before each turn

Authored by

espadonne 1 month ago

SHA: 53d9e5951ef2972a8cf0f8cb103c99085c797bad
Parents: ea386ab
Tree: 348f885

4 changed files

Status	File	+	-
M	`src/loader/agent/loop.py`	55	114
M	`src/loader/cli/main.py`	16	9
M	`src/loader/llm/ollama.py`	32	11
M	`src/loader/runtime/conversation.py`	19	0

src/loader/agent/loop.pymodified

  """The main agent loop."""
  import asyncio
 +import contextlib
 +from collections.abc import AsyncIterator, Awaitable, Callable
  from dataclasses import dataclass
  from pathlib import Path
 -from typing import AsyncIterator, Awaitable, Callable
 -from ..llm.base import LLMBackend, Message, Role, ToolCall
 -from ..tools.base import ToolRegistry, create_default_registry, ConfirmationRequired
  from ..context.project import ProjectContext, detect_project
 +from ..llm.base import LLMBackend, Message, Role, ToolCall
  from ..runtime.capabilities import resolve_backend_capability_profile
  from ..runtime.conversation import ConversationRuntime
  from ..runtime.events import AgentEvent, TurnSummary
  from ..runtime.session import ConversationSession
 +from ..tools.base import ToolRegistry, create_default_registry
 +from .planner import (
 +    PLANNING_PROMPT,
 +    SHOULD_PLAN_PROMPT,
 +    Plan,
 +    format_step_prompt,
 +    parse_plan,
 +    should_plan,
 +)
  from .prompts import build_system_prompt
 -from .parsing import parse_tool_calls, format_tool_result
 -from .planner import Plan, parse_plan, should_plan, format_step_prompt, PLANNING_PROMPT, SHOULD_PLAN_PROMPT
 -from .recovery import RecoveryContext, format_recovery_prompt, format_failure_message
  from .reasoning import (
 -    TaskDecomposition,
 -    Subtask,
 -    SelfCritique,
 -    ConfidenceAssessment,
 -    ActionVerification,
 -    ConfidenceLevel,
 -    TaskCompletionCheck,
 -    RollbackPlan,
 -    RollbackAction,
 -    RollbackType,
 +    CONFIDENCE_PROMPT,
      DECOMPOSITION_PROMPT,
      SELF_CRITIQUE_PROMPT,
 -    CONFIDENCE_PROMPT,
      VERIFICATION_PROMPT,
 -    COMPLETION_CHECK_PROMPT,
 +    ActionVerification,
 +    ConfidenceAssessment,
 +    ConfidenceLevel,
 +    SelfCritique,
 +    TaskDecomposition,
 +    estimate_confidence_quick,
 +    is_conversational,
 +    parse_confidence,
      parse_decomposition,
      parse_self_critique,
 -    parse_confidence,
      parse_verification,
 -    parse_completion_check,
 -    should_decompose,
 -    should_self_critique,
 -    estimate_confidence_quick,
      quick_verify,
 -    detect_premature_completion,
 -    get_continuation_prompt,
 -    is_destructive_tool,
 -    create_rollback_plan_for_action,
 -    is_conversational,
 -    estimate_complexity,
 -    get_token_budget,
 +    should_decompose,
+ )
 +from .recovery import RecoveryContext
  from .safeguards import RuntimeSafeguards
      def refresh_capability_profile(self) -> None:
          """Refresh the runtime capability profile from the current backend."""
+-
 -        self.capability_profile = resolve_backend_capability_profile(self.backend)
 +        previous_profile = self.capability_profile
 +        refreshed_profile = resolve_backend_capability_profile(self.backend)
 +        self.capability_profile = refreshed_profile
 +        if refreshed_profile != previous_profile:
 +            self._system_message = None
          self._use_react = None
      def _get_few_shot_examples(self) -> list[Message]:
                      # Run the step
                      step_prompt = format_step_prompt(plan, step)
 -                    step_response = await self._run_inner(
 +                    await self._run_inner(
                          step_prompt, emit, on_confirmation,
                          original_task=self._current_task,
+                     )
          self,
          user_message: str,
      ) -> AsyncIterator[AgentEvent]:
 -        """Run the agent with streaming output."""
 -        # Add user message
 -        self.messages.append(Message(role=Role.USER, content=user_message))
 +        """Run the agent with streaming output from the primary runtime path."""
 -        iterations = 0
 -        tools = None if self.use_react else self.registry.get_schemas()
 +        queue: asyncio.Queue[AgentEvent | BaseException | None] = asyncio.Queue()
 -        while iterations < self.config.max_iterations:
 -            iterations += 1
 +        async def on_event(event: AgentEvent) -> None:
 +            await queue.put(event)
 -            yield AgentEvent(type="thinking")
+-
 -            # Stream the response
 -            full_content = ""
 -            tool_calls: list[ToolCall] = []
+-
 -            async for chunk in self.backend.stream(
 -                messages=self._build_messages(),
 -                tools=tools,
 -                temperature=self.config.temperature,
 -                max_tokens=self.config.max_tokens,
 -            ):
 -                if chunk.content:
 -                    full_content += chunk.content
 -                    yield AgentEvent(type="response", content=chunk.content)
+-
 -                if chunk.tool_calls:
 -                    tool_calls = chunk.tool_calls
+-
 -            # In ReAct mode, parse tool calls from text
 -            if self.use_react:
 -                parsed = parse_tool_calls(full_content)
 -                tool_calls = parsed.tool_calls
 +        async def run_agent() -> None:
 +            try:
 +                await self.run(user_message, on_event=on_event)
 +            except BaseException as exc:  # pragma: no cover - propagated below
 +                await queue.put(exc)
 +            finally:
 +                await queue.put(None)
 -                if parsed.is_final_answer and not tool_calls:
 -                    self.messages.append(Message(
 -                        role=Role.ASSISTANT,
 -                        content=full_content,
 -                    ))
 +        task = asyncio.create_task(run_agent())
 +        try:
 +            while True:
 +                item = await queue.get()
 +                if item is None:
                      break
+-
 -            # If there are tool calls, execute them
 -            if tool_calls:
 -                self.messages.append(Message(
 -                    role=Role.ASSISTANT,
 -                    content=full_content,
 -                    tool_calls=tool_calls,
 -                ))
+-
 -                for tool_call in tool_calls:
 -                    yield AgentEvent(
 -                        type="tool_call",
 -                        tool_name=tool_call.name,
 -                        tool_args=tool_call.arguments,
 -                    )
+-
 -                    result = await self.registry.execute(
 -                        tool_call.name,
 -                        **tool_call.arguments,
 -                    )
+-
 -                    yield AgentEvent(
 -                        type="tool_result",
 -                        content=result.output,
 -                        tool_name=tool_call.name,
 -                    )
+-
 -                    result_text = format_tool_result(
 -                        tool_call.name,
 -                        result.output,
 -                        result.is_error,
 -                    )
 -                    self.messages.append(Message(
 -                        role=Role.TOOL,
 -                        content=result_text,
 -                    ))
+-
 -                continue
+-
 -            # No tool calls - done
 -            self.messages.append(Message(
 -                role=Role.ASSISTANT,
 -                content=full_content,
 -            ))
 -            break
 +                if isinstance(item, BaseException):
 +                    raise item
 +                yield item
 +            await task
 +        finally:
 +            if not task.done():
 +                task.cancel()
 +                with contextlib.suppress(asyncio.CancelledError):
 +                    await task
      def _contains_unexecuted_code(self, content: str) -> bool:
          """Detect if response contains code blocks that should be tool calls.
          instead of using the proper tool calling API. This method tries to
          parse and recover them.
          """
 -        import re
          import json
          import os
 +        import re
          tool_calls = []
          tool_names = ["write", "read", "edit", "bash", "glob", "grep"]

src/loader/cli/main.pymodified

  import asyncio
  import re
++
  import click
  import httpx
  from rich.console import Console
      Returns:
          Selected model name, or None if cancelled/no models.
      """
 -    from ..llm.ollama import OllamaBackend
 -    from ..config import get_last_model
      from prompt_toolkit import PromptSession
      from prompt_toolkit.completion import WordCompleter
 +    from ..config import get_last_model
 +    from ..llm.ollama import OllamaBackend
++
      # Create a temporary client to list models
      backend = OllamaBackend(model="")
      models = await backend.list_models()
      reason: bool,
      prompt: str | None,
  ) -> None:
 -    from ..llm.ollama import OllamaBackend
      from ..agent.loop import Agent, AgentConfig, ReasoningConfig
 +    from ..config import get_default_model, get_last_model, set_last_model
 +    from ..llm.ollama import OllamaBackend
      from ..tools.base import create_default_registry
 -    from ..config import get_default_model, set_last_model, get_last_model
      # Handle model selection
      if select_model:
          timeout=timeout,
+     )
 -    # Determine actual mode based on model capabilities (not just CLI flag)
 -    mode_str = "ReAct" if react or not llm.supports_native_tools() else "Native"
+-
      # Check health
      if not await llm.health_check():
          console.print("[red]Error: Cannot connect to Ollama. Is it running?[/red]")
          console.print("\nTry [cyan]loader --select-model[/cyan] to choose from available models.")
          return
 +    await llm.describe_model()
++
 +    # Determine actual mode based on resolved model capabilities (not just CLI flag)
 +    mode_str = "ReAct" if react or not llm.supports_native_tools() else "Native"
++
      # Save this model as the new default
      set_last_model(model)
  async def run_once(agent, prompt: str, skip_confirmation: bool = False) -> None:
      """Run a single prompt."""
 -    from ..tools.base import ConfirmationRequired
      import time
 +    from ..tools.base import ConfirmationRequired
++
      thinking_start = None
      streamed_response = False
  async def run_interactive(agent, skip_confirmation: bool = False) -> None:
      """Run interactive chat loop."""
 +    import os
++
      from prompt_toolkit import PromptSession
      from prompt_toolkit.history import FileHistory
++
      from ..tools.base import ConfirmationRequired
 -    import os
      history_file = os.path.expanduser("~/.loader_history")
      session = PromptSession(history=FileHistory(history_file))

src/loader/llm/ollama.pymodified

  """Ollama backend implementation."""
  import json
 -from typing import Any, AsyncIterator
 +from collections.abc import AsyncIterator
 +from typing import Any
  import httpx
      CompletionResponse,
      LLMBackend,
      Message,
 -    Role,
      StreamChunk,
      ToolCall,
+ )
          self._client = httpx.AsyncClient(timeout=timeout)
          self._supports_native_tools: bool | None = None
          self._model_details_cache: dict[str, Any] | None = None
 +        self._model_details_loaded_for: str | None = None
          self._capability_profile: CapabilityProfile | None = None
 +    def _invalidate_model_caches_if_needed(self) -> None:
 +        """Clear cached capability state when the active model changes."""
++
 +        if (
 +            self._capability_profile is not None
 +            and self._capability_profile.model_name != self.model
 +        ):
 +            self._capability_profile = None
 +            self._supports_native_tools = None
++
 +        if (
 +            self._model_details_loaded_for is not None
 +            and self._model_details_loaded_for != self.model
 +        ):
 +            self._model_details_cache = None
 +            self._model_details_loaded_for = None
++
      def _build_options(self, temperature: float, max_tokens: int) -> dict:
          """Build Ollama options dict with performance settings."""
          return {
      async def describe_model(self) -> dict[str, Any] | None:
          """Fetch and cache Ollama model details for capability resolution."""
 -        if self._model_details_cache is not None:
 +        self._invalidate_model_caches_if_needed()
++
 +        if self._model_details_loaded_for == self.model:
              return self._model_details_cache
          if not self.model:
+             )
              response.raise_for_status()
              self._model_details_cache = response.json()
 +            self._model_details_loaded_for = self.model
          except Exception:
              self._model_details_cache = None
 +            self._model_details_loaded_for = self.model
          return self._model_details_cache
      def capability_profile(self) -> CapabilityProfile:
          """Return the resolved capability profile for the current model."""
 -        if (
 -            self._capability_profile is None
 -            or self._capability_profile.model_name != self.model
 -        ):
 +        self._invalidate_model_caches_if_needed()
 +        if self._capability_profile is None:
              self._capability_profile = resolve_capability_profile(
                  self.model,
                  model_details=self._model_details_cache,
          if self.force_react:
              return False
 -        if self._capability_profile is not None and self._capability_profile.model_name != self.model:
 -            self._capability_profile = None
 -            self._supports_native_tools = None
 +        self._invalidate_model_caches_if_needed()
          if self._supports_native_tools is not None:
              return self._supports_native_tools
          max_tokens: int = 4096,
      ) -> CompletionResponse:
          """Generate a completion using Ollama."""
 +        await self.describe_model()
++
          payload: dict[str, Any] = {
              "model": self.model,
              "messages": self._format_messages(messages),
          max_tokens: int = 4096,
      ) -> AsyncIterator[StreamChunk]:
          """Stream a completion from Ollama."""
 +        await self.describe_model()
++
          payload: dict[str, Any] = {
              "model": self.model,
              "messages": self._format_messages(messages),
      async def _stream_response(self, response) -> AsyncIterator[StreamChunk]:
          """Internal helper to stream response chunks."""
 -        import re
          full_content = ""
          display_content = ""  # Content to show (filtered)

src/loader/runtime/conversation.pymodified

      ) -> TurnSummary:
          """Run one task turn and return a structured summary."""
 +        await self._prepare_runtime_capabilities()
++
          iterations = 0
          final_response = ""
          actions_taken: list[str] = []
          for key, value in update.items():
              target[key] = target.get(key, 0) + value
 +    async def _prepare_runtime_capabilities(self) -> None:
 +        describe_model = getattr(self.agent.backend, "describe_model", None)
 +        if callable(describe_model):
 +            await describe_model()
++
 +        previous_profile = self.agent.capability_profile
 +        self.agent.refresh_capability_profile()
 +        if self.agent.capability_profile != previous_profile:
 +            self.tracer.record(
 +                "runtime.capabilities_refreshed",
 +                model_name=self.agent.capability_profile.model_name,
 +                supports_native_tools=self.agent.capability_profile.supports_native_tools,
 +                preferred_tool_call_format=(
 +                    self.agent.capability_profile.preferred_tool_call_format
 +                ),
 +            )
++
      @staticmethod
      def _emit_confirmation(emit: EventSink):
          async def _emit(tool_name: str, message: str, details: str) -> None: