Documentação
Use o Caramelo em qualquer SDK compatível com OpenAI ou direto no terminal. Crie uma conta, gere uma chave e comece — sem custo.
Configure com o seu agente
Baixe as instruções completas de uso (inclusive como gerar a chave pela CLI) e entregue ao seu agente de código (Claude Code, Cursor) para ele configurar tudo. Também em /AGENTS.md.
É 100% gratuito
O Caramelo é gratuito: sem cartão, sem cobrança, sem plano pago. Você cria uma conta, gera uma chave crml_… e usa no chat, na API ou no terminal. Há limites de uso (rate limit) para manter o serviço de pé — descritos em Limites —, mas o uso em si não custa nada.
Começar em 3 passos
Gere uma chave
No painel, crie uma chave de API crml_…. Guarde — ela aparece uma vez.
Use
Aponte qualquer SDK da OpenAI para ia-caramelo.com/v1, ou instale a CLI.
API (compatível com OpenAI)
Base URL: https://ia-caramelo.com/v1. Autentique com Authorization: Bearer crml_…. Funciona com qualquer cliente da OpenAI.
curl https://ia-caramelo.com/v1/chat/completions \ -H "Authorization: Bearer crml_SUA_CHAVE" \ -H "Content-Type: application/json" \ -d '{"model":"caramelo", "messages":[{"role":"user","content":"e aí, beleza?"}]}'
from openai import OpenAI client = OpenAI( base_url="https://ia-caramelo.com/v1", api_key="crml_SUA_CHAVE", ) r = client.chat.completions.create( model="caramelo", messages=[{"role": "user", "content": "me explica RAG"}], ) print(r.choices[0].message.content)
import OpenAI from "openai"; const client = new OpenAI({ baseURL: "https://ia-caramelo.com/v1", apiKey: "crml_SUA_CHAVE", }); const r = await client.chat.completions.create({ model: "caramelo", messages: [{ role: "user", content: "me explica RAG" }], }); console.log(r.choices[0].message.content);
POST /v1/chat/completions — chat (suporta stream: true).
GET /v1/models — lista os modelos disponíveis.
Parâmetros: model, messages, temperature, top_p, max_tokens, stream.
CLI no terminal
O pacote caramelo-chat no npm dá o comando caramelo. Rode caramelo login para entrar com o Google e gerar a chave direto no terminal.
$ npm i -g caramelo-chat $ caramelo login # loga com Google e cria sua chave $ caramelo "me explica RAG em duas frases" # pergunta direta $ caramelo -m caramelo-code "debounce em python" # escolhe o modelo $ caramelo keys # chaves: uso e economia
O login salva a chave em ~/.caramelo/config.json (apiUrl, apiKey, model, temperature, maxTokens). No chat: /sair, /limpar, /help.
Modelos
Mesmo modelo (Gemma 3 4B + LoRA na voz do Gui), duas variantes — mudam pelo system prompt.
Assistente geral. Direto ao ponto, com dados e exemplos, no jeito do Gui de escrever.
Variante de programação. Código completo, seguro e pronto pra produção, clareza acima de esperteza.
Casos de uso
O Caramelo é um modelo pequeno e direto. Ele brilha em tarefas curtas, repetitivas e objetivas, onde a resposta certa é enxuta. É aqui que ele rende mais.
Pequenas tarefas
Resumir um parágrafo, reescrever uma frase, traduzir um trecho, extrair um dado de um texto. Pedidos pontuais, resposta na hora.
$ caramelo "resuma em uma frase: ..."
Ações repetitivas
Rode a mesma transformação em volume, pela API ou pela CLI: padronizar textos, gerar variações, formatar saídas, limpar listas.
for linha in arquivo: caramelo "padronize: $linha"
Categorizações simples
Classificar feedback em positivo, negativo ou neutro. Rotular tickets, escolher uma categoria de uma lista, responder sim ou não.
$ caramelo "positivo, negativo ou neutro? ..."
Respostas diretas
Perguntas objetivas, definições curtas, "explique em uma frase", "qual a diferença entre X e Y". Sem rodeio, sem enchimento.
$ caramelo "o que é RAG em uma frase?"
Para tarefas longas que pedem muito detalhe (código extenso, prova passo a passo), use o caramelo-code ou peça explicitamente uma resposta completa.
Como o Caramelo foi construído
Do modelo aberto à produção, em seis passos. A primeira versão piorou o modelo; a correção foi mudar o formato do dado e medir cada eixo separadamente.
A persona e a camada de segurança são injetadas no servidor (não ficam nos pesos). O tradeoff de concisão que apareceu na avaliação foi corrigido por uma instrução no prompt, sem retreinar.
Limites e segurança
Rate limit
Por conta: cerca de 20 requisições/minuto e 2.000/dia (chaves da mesma conta dividem o limite), e uma fila de concorrência (o modelo roda em CPU e atende uma de cada vez). Limites pra manter o serviço gratuito de pé.
Segurança sempre ligada
Uma camada de segurança recusa pedidos perigosos (armas, malware, abuso infantil, violência) e tem prioridade sobre as instruções do usuário. Saiba mais.