Toda PoC de IA cabe no cartão corporativo. O choque chega no terceiro mês de produção, quando a conta do Azure OpenAI passa o salário do squad e ninguém sabe explicar por quê. O problema raramente é o preço do token. São quatro vetores invisíveis que ninguém modela na proposta comercial e que cobram juros compostos depois do go-live.
O primeiro vetor é o retry. Polly configurado com retry exponencial em cima de chamada para LLM é uma armadilha clássica: cada timeout vira três a cinco chamadas faturadas, e o usuário ainda ganha erro. A regra é separar política de retry para falha de rede e para falha do modelo. Rede tenta de novo, modelo não. Quando o modelo retorna conteúdo inválido, o caminho certo é fallback para modelo menor ou resposta determinística, nunca repetir a mesma chamada cara esperando outro resultado.
O segundo é o re-index de embeddings. Mudou o modelo de embedding, mudou a base inteira: reprocessar dois milhões de chunks em text-embedding-3-large custa quatro dígitos por iteração. Cache de embeddings por hash do conteúdo é não-negociável desde o primeiro deploy. Quando o conteúdo não muda, o vetor não é recalculado. Em bases com churn baixo, essa decisão sozinha economiza setenta por cento do orçamento de embedding no ano.
O terceiro vetor é o fine-tune que pareceu boa ideia. Treinar um modelo dedicado para reduzir latência e custo unitário ignora que o modelo fine-tuned fica preso à versão base, não acompanha melhorias da fronteira e exige reprocesso a cada upgrade. Na prática, prompt engineering bem feito em modelo menor (gpt-4o-mini, gpt-4.1-mini) entrega resultado equivalente em noventa por cento dos hot paths, sem o passivo operacional. Fine-tune só compensa quando há lock-in de domínio real e métrica medida.
O quarto é observabilidade. Sem tracking por usuário, por endpoint e por modelo desde o dia um, a equipe descobre o estouro pelo billing alert da Microsoft. OpenTelemetry com atributo customizado de tokens-in, tokens-out, modelo e tenant resolve, mas precisa estar no pipeline antes do primeiro usuário. Adicionar depois exige instrumentar centenas de pontos e ainda perder o histórico. O custo de implementar isso no dia um é uma sprint. O custo de implementar no mês seis é o dobro mais a vergonha de não saber explicar a conta.
Arquitetura de IA em .NET não é sobre escolher entre Semantic Kernel ou chamar a SDK direto. É sobre decidir esses quatro vetores antes de escrever a primeira chamada. O diagrama abaixo abre a distribuição típica de custo que vejo em projetos que entraram em produção sem essa disciplina, e mostra onde cada um dos vetores pesa de verdade na fatura mensal.
Tags
- #ia-aplicada
- #azure-openai
- #custos