Ejecutar Claude Code localmente con Ollama

Cómo configurar Ollama para correr modelos de IA en tu máquina e integrarlos en tu flujo de desarrollo junto a Claude Code.

¿Qué es Ollama?

Ollama es una herramienta open-source que te permite correr modelos de lenguaje grandes localmente en tu propia máquina — sin API keys, sin conexión a internet, sin costos de uso. Envuelve modelos como llama3, deepseek-coder, qwen2.5-coder y muchos otros en un CLI simple y un servidor HTTP local.

Piénsalo como Docker, pero para modelos de IA.

¿Qué es Claude Code?

Claude Code es la herramienta CLI oficial de Anthropic para coding agéntico. Se conecta a la API de Claude y puede leer tu codebase, escribir archivos, ejecutar comandos y trabajar de forma autónoma en tareas complejas directamente desde tu terminal.

¿Por qué usar ambos?

Claude Code y Ollama cumplen roles distintos:

Claude Code → ideal para razonamiento complejo, decisiones de arquitectura, refactors multi-archivo y tareas que necesitan toda la potencia de Claude Sonnet u Opus
Ollama → ideal para completados rápidos sin conexión, codebases con datos sensibles, o cuando querés cero latencia sin costos de API

Usar ambos te da flexibilidad: usás Claude Code cuando necesitás los mejores resultados, y Ollama cuando estás offline, iterando rápido, o trabajando con código privado que no puede salir de tu máquina.

Instalando Ollama

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# O descargá la app para macOS desde https://ollama.com/download

Verificá que está corriendo:

ollama --version

Bajando un modelo de código

# Excelente para código — rápido y capaz
ollama pull qwen2.5-coder:7b

# Opción más grande y potente
ollama pull deepseek-coder-v2:16b

# De uso general con fuerte soporte de código
ollama pull llama3.1:8b

Ver tus modelos instalados:

ollama list

Corriendo un modelo en la terminal

# Chat interactivo
ollama run qwen2.5-coder:7b

# Prompt de una sola vez
ollama run qwen2.5-coder:7b "Explicá esta función: $(cat src/utils/format.ts)"

Usando la API de Ollama

Ollama expone una API REST compatible con OpenAI en http://localhost:11434. Podés consultarla directamente:

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5-coder:7b",
  "prompt": "Escribí una función TypeScript para hacer debounce a un callback",
  "stream": false
}'

O usar el endpoint compatible con OpenAI:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5-coder:7b",
    "messages": [{ "role": "user", "content": "Explicá useEffect en React" }]
  }'

Integración con VS Code via Continue

Continue es una extensión para VS Code y JetBrains que convierte cualquier modelo local en un asistente de IA dentro del editor. Funciona nativamente con Ollama.

Instalá Continue desde el marketplace de VS Code, luego configuralo en .continue/config.json:

{
  "models": [
    {
      "title": "Qwen 2.5 Coder (local)",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b",
      "apiBase": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen autocomplete",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

Ahora tenés completados inline y chat dentro de VS Code — totalmente local, totalmente privado.

Mi flujo híbrido

Preguntas rápidas / trabajo offline  → Ollama (Continue en VS Code)
Refactors complejos / nuevas features → Claude Code (API Anthropic)
Code review / arquitectura            → Claude Code
Codebases sensibles / privadas        → Ollama

La idea clave: no tenés que elegir uno. Claude Code maneja el trabajo pesado y Ollama cubre el día a día sin quemar tokens.

Comandos útiles de Ollama

# Iniciar el servidor de Ollama manualmente
ollama serve

# Ver modelos corriendo
ollama ps

# Eliminar un modelo
ollama rm deepseek-coder-v2:16b

# Bajar una versión específica
ollama pull qwen2.5-coder:14b

Conclusión

Correr IA localmente con Ollama no reemplaza a Claude Code — lo complementa. Los modelos locales te dan privacidad, costo cero y respuestas instantáneas para tareas de rutina. Claude Code te da el poder de razonamiento de los modelos frontier cuando realmente importa.

Configurá ambos, definí cuándo usar cada uno, y vas a tener lo mejor de los dos mundos en tu flujo de desarrollo.

Recursos: