100% gratuito · sem cartão

Documentação

Use o Caramelo em qualquer SDK compatível com OpenAI ou direto no terminal. Crie uma conta, gere uma chave e comece — sem custo.

Configure com o seu agente

Baixe as instruções completas de uso (inclusive como gerar a chave pela CLI) e entregue ao seu agente de código (Claude Code, Cursor) para ele configurar tudo. Também em /AGENTS.md.

É 100% gratuito

O Caramelo é gratuito: sem cartão, sem cobrança, sem plano pago. Você cria uma conta, gera uma chave crml_… e usa no chat, na API ou no terminal. Há limites de uso (rate limit) para manter o serviço de pé — descritos em Limites —, mas o uso em si não custa nada.

Começar em 3 passos

01

Crie sua conta

Acesse ia-caramelo.com e cadastre-se (e-mail ou Google).

02

Gere uma chave

No painel, crie uma chave de API crml_…. Guarde — ela aparece uma vez.

03

Use

Aponte qualquer SDK da OpenAI para ia-caramelo.com/v1, ou instale a CLI.

API (compatível com OpenAI)

Base URL: https://ia-caramelo.com/v1. Autentique com Authorization: Bearer crml_…. Funciona com qualquer cliente da OpenAI.

curl
curl https://ia-caramelo.com/v1/chat/completions \
  -H "Authorization: Bearer crml_SUA_CHAVE" \
  -H "Content-Type: application/json" \
  -d '{"model":"caramelo",
       "messages":[{"role":"user","content":"e aí, beleza?"}]}'
Python (SDK da OpenAI)
from openai import OpenAI

client = OpenAI(
    base_url="https://ia-caramelo.com/v1",
    api_key="crml_SUA_CHAVE",
)
r = client.chat.completions.create(
    model="caramelo",
    messages=[{"role": "user", "content": "me explica RAG"}],
)
print(r.choices[0].message.content)
JavaScript (SDK da OpenAI)
import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://ia-caramelo.com/v1",
  apiKey: "crml_SUA_CHAVE",
});
const r = await client.chat.completions.create({
  model: "caramelo",
  messages: [{ role: "user", content: "me explica RAG" }],
});
console.log(r.choices[0].message.content);
Endpoints

POST /v1/chat/completions — chat (suporta stream: true).

GET /v1/models — lista os modelos disponíveis.

Parâmetros: model, messages, temperature, top_p, max_tokens, stream.

CLI no terminal

O pacote caramelo-chat no npm dá o comando caramelo. Rode caramelo login para entrar com o Google e gerar a chave direto no terminal.

terminal
$ npm i -g caramelo-chat
$ caramelo login                            # loga com Google e cria sua chave
$ caramelo "me explica RAG em duas frases"     # pergunta direta
$ caramelo -m caramelo-code "debounce em python"  # escolhe o modelo
$ caramelo keys                             # chaves: uso e economia

O login salva a chave em ~/.caramelo/config.json (apiUrl, apiKey, model, temperature, maxTokens). No chat: /sair, /limpar, /help.

Modelos

Mesmo modelo (Gemma 3 4B + LoRA na voz do Gui), duas variantes — mudam pelo system prompt.

caramelo

Assistente geral. Direto ao ponto, com dados e exemplos, no jeito do Gui de escrever.

caramelo-code

Variante de programação. Código completo, seguro e pronto pra produção, clareza acima de esperteza.

Casos de uso

O Caramelo é um modelo pequeno e direto. Ele brilha em tarefas curtas, repetitivas e objetivas, onde a resposta certa é enxuta. É aqui que ele rende mais.

tarefas pequenas

Pequenas tarefas

Resumir um parágrafo, reescrever uma frase, traduzir um trecho, extrair um dado de um texto. Pedidos pontuais, resposta na hora.

$ caramelo "resuma em uma frase: ..."
em lote

Ações repetitivas

Rode a mesma transformação em volume, pela API ou pela CLI: padronizar textos, gerar variações, formatar saídas, limpar listas.

for linha in arquivo:
  caramelo "padronize: $linha"
classificar

Categorizações simples

Classificar feedback em positivo, negativo ou neutro. Rotular tickets, escolher uma categoria de uma lista, responder sim ou não.

$ caramelo "positivo, negativo ou neutro? ..."
direto ao ponto

Respostas diretas

Perguntas objetivas, definições curtas, "explique em uma frase", "qual a diferença entre X e Y". Sem rodeio, sem enchimento.

$ caramelo "o que é RAG em uma frase?"

Para tarefas longas que pedem muito detalhe (código extenso, prova passo a passo), use o caramelo-code ou peça explicitamente uma resposta completa.

Como o Caramelo foi construído

Do modelo aberto à produção, em seis passos. A primeira versão piorou o modelo; a correção foi mudar o formato do dado e medir cada eixo separadamente.

1 Base Gemma 3 4B aberto, do Google 2 v1 treino nos artigos crus ✗ piorou (viés de formato) 3 Correção dataset por estilo 414 pares conversacionais 4 v2 QLoRA, caramelo 3.4.2 ✓ venceu o base 5 Avaliação 3 eixos, juízes cegos voz 91-100%, raciocínio mantido 6 Produção ia-caramelo.com API, chat e CLI

A persona e a camada de segurança são injetadas no servidor (não ficam nos pesos). O tradeoff de concisão que apareceu na avaliação foi corrigido por uma instrução no prompt, sem retreinar.

Limites e segurança

Rate limit

Por conta: cerca de 20 requisições/minuto e 2.000/dia (chaves da mesma conta dividem o limite), e uma fila de concorrência (o modelo roda em CPU e atende uma de cada vez). Limites pra manter o serviço gratuito de pé.

Segurança sempre ligada

Uma camada de segurança recusa pedidos perigosos (armas, malware, abuso infantil, violência) e tem prioridade sobre as instruções do usuário. Saiba mais.

Pronto pra usar

Crie a conta, gere a chave e comece — de graça.