Se você já usou Docker, você já sabe usar Ollama: como a Inteligência Artificial local herdou o modelo mental que o mercado já conhece

Spread the love

Se você trabalha com desenvolvimento de software nos últimos anos, Docker já virou parte do vocabulário cotidiano. Você sabe o que é uma imagem, sabe fazer um pull, sabe montar um Dockerfile e subir um contêiner. Esse modelo mental está tão consolidado que a gente nem pensa mais nele — só usa.

O Ollama foi construído exatamente em cima desse modelo mental. Não por acidente, mas por decisão arquitetural deliberada. E entender essa decisão ajuda a entender não só o Ollama em si, mas o que ele representa para o ecossistema de Inteligência Artificial local.

O que é o Ollama e quem o criou

O Ollama é uma plataforma open source para rodar LLM — Large Language Model, grandes modelos de linguagem — diretamente na sua máquina, sem depender de nenhuma API externa, sem mandar seus dados para a nuvem e sem precisar de uma infraestrutura cara. Você baixa, instala e roda. É isso.

A empresa foi fundada em 2023 por Jeffrey Morgan e Michael Chiang, em Palo Alto, na Califórnia. Os dois têm histórico em ferramentas para desenvolvedores e infraestrutura de software — e isso fica evidente nas escolhas de design do produto. O Ollama passou pelo programa de aceleração do Y Combinator e hoje suporta os principais modelos de Inteligência Artificial disponíveis no mercado: Llama, Qwen, DeepSeek, Gemma e Mistral, entre outros.

Vale deixar claro um ponto que gera confusão frequente: Ollama não é um produto da Meta. O nome soa parecido com LLaMA (o modelo da Meta), mas são coisas distintas. O Ollama é uma plataforma independente que, entre outras coisas, suporta os modelos da família LLaMA — assim como suporta modelos de outras origens.

A missão declarada da empresa é democratizar o acesso a LLMs, tornando a execução local tão simples quanto possível para desenvolvedores. E para isso, eles fizeram uma escolha bastante inteligente: em vez de inventar uma nova experiência do zero, pegaram emprestado algo que o mercado já conhece bem.

Uma interface que você já conhece

A primeira coisa que chama atenção ao instalar o Ollama é o quanto os comandos parecem familiares. Isso não é impressão — é intencional.

Ação	Docker	Ollama
Executar	`docker run ubuntu`	`ollama run qwen`
Listar	`docker ps` / `docker images`	`ollama list`
Baixar	`docker pull ubuntu`	`ollama pull qwen`
Remover	`docker rmi ubuntu`	`ollama rm qwen`
Construir	`docker build -t my-image .`	`ollama create my-model .`

Quem já tem fluência no Docker CLI consegue operar o Ollama CLI sem precisar estudar uma nova documentação do zero. A curva de aprendizado praticamente desaparece para esse perfil de desenvolvedor.

Mas isso vai além de conveniência superficial. Existe uma lógica conceitual por trás dessa escolha.

O Docker se consolidou como o padrão para gerenciar artefatos isolados e reproduzíveis: você empacota um ambiente, distribui essa imagem e ela roda da mesma forma em qualquer máquina. O Ollama aplica exatamente esse raciocínio ao mundo dos modelos de Inteligência Artificial: você empacota um modelo com suas configurações, distribui e ele se comporta da mesma forma em qualquer ambiente onde o Ollama esteja instalado.

O artefato muda — de contêiner para modelo — mas o paradigma de gerenciamento é o mesmo. E foi essa percepção que guiou a arquitetura do Ollama desde o início.

Modelfiles: os Dockerfiles dos modelos de Inteligência Artificial

Se a semelhança nos comandos já é evidente, o paralelo fica ainda mais profundo quando olhamos para os arquivos de definição.

No Docker, o Dockerfile é o contrato que descreve como uma imagem deve ser construída: qual é a base, quais dependências instalar, quais arquivos copiar, qual comando executar na inicialização.

No Ollama, o Modelfile cumpre o mesmo papel para modelos de Inteligência Artificial.

Dockerfile:

FROM ubuntu:latest
RUN apt-get update && apt-get install -y python3
COPY app.py /app.py
CMD ["python3", "/app.py"]

Modelfile:

FROM qwen
PARAMETER temperature 0.7
SYSTEM "Você é um assistente especializado em Java e Spring Boot"

A estrutura é análoga: FROM define a base, os parâmetros adicionais ajustam o comportamento e o SYSTEM equivale conceitualmente ao CMD — define o ponto de entrada do modelo no contexto da aplicação.

Essa semelhança tem implicações práticas importantes.

Versionamento e distribuição funcionam da mesma forma. Assim como um Dockerfile vive no repositório e pode ser versionado junto com o código, um Modelfile pode ser tratado como código — commitado, revisado e evoluído com a mesma disciplina que qualquer outro artefato do projeto.

O conceito de camadas se preserva. Imagens Docker são construídas em camadas que podem ser reaproveitadas entre imagens diferentes. Modelos Ollama seguem o mesmo princípio: quando você declara FROM qwen, está herdando as camadas do foundation model (modelo base) e adicionando apenas o que é específico da sua customização. Isso torna o processo eficiente em armazenamento e em tempo de build.

Reprodutibilidade garantida. Um contêiner Docker roda da mesma forma em qualquer máquina com Docker instalado. Um modelo definido via Modelfile se comporta de forma consistente em qualquer máquina com Ollama instalado — mesmos parâmetros, mesmo prompt de sistema, mesmo comportamento. Isso é crítico para equipes que precisam garantir consistência entre ambientes de desenvolvimento, homologação e produção.

A lógica por trás da arquitetura

Talvez a pergunta mais interessante não seja “o que o Ollama tem de parecido com o Docker”, mas sim “por que eles fizeram essa escolha”.

A resposta tem algumas camadas.

A primeira é redução de fricção na adoção. O maior obstáculo para qualquer nova ferramenta não é a complexidade técnica em si — é o custo cognitivo de aprender um novo paradigma. Ao adotar a interface do Docker, o Ollama eliminou esse obstáculo para uma parcela enorme do seu público-alvo: desenvolvedores backend que já trabalham com contêineres no dia a dia.

A segunda é padronização de um problema ainda sem padrão. Em 2023, quando o Ollama surgiu, não existia um jeito consensual de gerenciar modelos de Inteligência Artificial localmente. Cada ferramenta tinha sua própria interface, seus próprios comandos, sua própria lógica. O Ollama chegou com uma proposta clara: vamos usar o que já funciona.

A terceira é posicionamento para o futuro. O Docker Hub se tornou o repositório central de imagens de contêineres do mundo. O Ollama claramente está construindo a infraestrutura para que o mesmo aconteça com modelos de Inteligência Artificial — uma plataforma onde você faz pull de um modelo assim como faz pull de uma imagem, onde você publica suas customizações e onde times inteiros compartilham foundation models ajustados para seus contextos específicos.

Uma nota sobre capacidade

É importante ser honesto sobre um ponto: os modelos de Inteligência Artificial que rodam localmente via Ollama não têm a mesma capacidade dos grandes modelos comerciais disponíveis hoje — como o ChatGPT ou o Claude. Eles se comportam de forma próxima a versões desses modelos de alguns meses atrás, com limitações especialmente em raciocínio complexo e tarefas que exigem muito contexto.

Mas para a maioria dos casos de uso corporativo do dia a dia — geração de código, sumarização de documentos, automação de tarefas repetitivas, integração com sistemas internos — eles entregam valor real. E entregam sem que nenhum dado sensível da empresa saia da sua infraestrutura.

Para muitos contextos, essa troca é não só aceitável como desejável.

O que isso muda para você

Se Docker revolucionou a forma como empacotamos e distribuímos aplicações, o Ollama está tentando fazer o mesmo para modelos de Inteligência Artificial. E o fato de ter sido construído sobre o mesmo modelo mental não é detalhe — é a estratégia.

Para o desenvolvedor que já tem fluência com contêineres, a barreira de entrada para trabalhar com LLMs locais caiu de forma significativa. Você não precisa aprender uma nova filosofia de gerenciamento. Você já a conhece.

O que muda é o artefato que você está gerenciando. E com ele, as possibilidades que se abrem: rodar modelos de Inteligência Artificial dentro da própria infraestrutura da empresa, customizar comportamentos via Modelfile, versionar essas customizações junto com o código e garantir que o modelo em produção se comporta exatamente como o modelo em desenvolvimento.

Se você ainda não experimentou o Ollama, vale dedicar uma tarde. Há outros posts sobre ele aqui no blog e vários vídeos no canal da Erudio no YouTube — esse é só um dos ângulos pelos quais vale entender essa ferramenta.

Treinamentos relacionados com essa postagem

Leandro

Leandro da Costa é especialista em inteligência artificial on-premise e desenvolvedor de software desde 2010, com mais de 15 anos de experiência em projetos nacionais e internacionais para empresas como Thomson Reuters, Unilever, PagSeguro e Hub Fintech, além de órgãos como CNPq, Ministério da Saúde e Ministério da Justiça. Trabalho com Java, Python, Kotlin, JavaScript, microsserviços, cloud (AWS, Azure, GCP) e Docker/Kubernetes — sempre em times ágeis, muitas vezes distribuídos globalmente. Já enfrentei desafios reais de escalabilidade e performance, como a modernização do sistema de análise de crédito do PagSeguro, onde reduzi o tempo de resposta de mais de 1 minuto para menos de 15 segundos. Sou Instrutor Parceiro na Udemy desde 2021 — reconhecimento concedido aos 200 melhores instrutores do mundo — com mais de 65.000 alunos em 136 países. Minha missão é compartilhar conhecimento validado na prática, ajudando desenvolvedores a acelerar suas carreiras e conquistar melhores oportunidades. Fora do teclado, gosto bastante de viajar além de esportes de aventura: rapel, tirolesa e trilhas. Apreciador de cervejas, fã de Rock'n Roll, ficção científica e geopolítica. Atualmente atuo como consultor na Erudio Training.