Você configurou o robots.txt, enviou o sitemap.xml e otimizou cada meta tag. Mas quando alguém pergunta ao ChatGPT sobre sua empresa, a resposta vem genérica — ou cita um concorrente.
O problema não é falta de conteúdo. É que as IAs não sabem onde encontrá-lo.
Segundo dados da InboundCycle, de 28 auditorias GEO realizadas entre janeiro e maio de 2026, apenas 27% das webs têm um arquivo llms.txt. Três de cada quatro sites são invisíveis para os agentes de IA que procuram esse arquivo.
O llms.txt é um arquivo markdown na raiz do seu site (/llms.txt) que funciona como índice curado do seu melhor conteúdo para modelos de linguagem. Aqui você vai entender para que serve, como criar o seu e o que os dados dizem — dentro do contexto mais amplo de preparar seu site para agentes de IA.
Para que serve o llms.txt (e para que não serve)
O llms.txt é um índice em markdown que ajuda modelos de linguagem a encontrar e interpretar o conteúdo de um site durante consultas em tempo real — o que se chama de inferência. Não é uma ferramenta de treinamento, nem um mecanismo de controle de acesso, nem um sinal de ranking para buscadores.
Imagine que alguém pergunta a uma IA sobre o seu produto. Sem o llms.txt, o modelo precisa processar páginas HTML cheias de menus, scripts e pixels de rastreamento.
Um estudo da Pronovix (2026) mediu a diferença: a versão HTML de uma página típica consome 16.933 tokens, enquanto a versão markdown da mesma página consome apenas 2.583 — uma redução de 85%. Para um agente de IA com orçamento limitado de contexto, isso é a diferença entre entender seu site e ignorá-lo.
Custo de contexto: HTML vs Markdown
Tokens consumidos por página típica de documentação
Fonte: Pronovix, 2026
Aqui é onde a maioria se perde: o llms.txt não garante que as IAs vão ler seu arquivo. Publicar o arquivo é diferente de ter ele respeitado. Nenhum grande provedor — OpenAI, Google, Anthropic, Meta — confirmou publicamente que seus sistemas consomem o llms.txt de terceiros durante a inferência.
O valor verificado hoje está em developer tooling: agentes de código como Cursor, Claude Code, Windsurf e Copilot carregam ativamente o llms.txt para contextualizar suas respostas. Para empresas B2B com audiência técnica, isso já é razão suficiente para implementar.
A proposta foi criada por Jeremy Howard, cofundador da Answer.AI, em setembro de 2024. A especificação vive em llmstxt.org e permanece como proposta comunitária — não foi ratificada por nenhum organismo de padrões.
Formato oficial e como se compara com robots.txt
O llms.txt segue uma estrutura markdown simples e padronizada que qualquer profissional de marketing pode criar sem conhecimentos de programação. Entender o formato correto é essencial porque existe desinformação circulando — especialmente sobre supostas diretivas de permissão que não existem na especificação oficial.
Especificação canônica
Pense no llms.txt como uma biblioteca. O robots.txt marca as estantes restritas. O sitemap.xml é o catálogo completo.
O llms.txt é a lista curada que o bibliotecário prepara para um pesquisador com 15 minutos — só os títulos mais relevantes, com uma nota sobre cada um.
A estrutura oficial tem um único elemento obrigatório: um título H1 com o nome do site. Depois, a especificação recomenda um blockquote com resumo curto, seções H2 com listas de links anotados e uma seção "Optional" para conteúdo dispensável em contextos limitados.
Com certeza você já ouviu: mais um arquivo que "precisa ter." Mas aqui vale prestar atenção.
Alguns blogs descrevem diretivas como $trainingAllowed e $chatAllowed como parte do llms.txt. Essas diretivas não existem na especificação oficial. A confusão vem da mistura com três propostas diferentes: o robots.txt (controle de acesso), o ai.txt da Spawning (consentimento de treinamento) e as diretivas Content-Signal da Cloudflare.
Como se compara com robots.txt
| Dimensão | robots.txt | sitemap.xml | llms.txt |
|---|---|---|---|
| Função | Controle de acesso a crawlers | Descoberta de URLs para buscadores | Índice curado para LLMs na inferência |
| Formato | Texto com diretivas | XML | Markdown |
| Público | Bots de busca e treinamento | Motores de indexação | Modelos de IA e agentes |
| Status | Padrão IETF ratificado | Padrão de facto | Proposta comunitária |
| Cobertura | Todas as URLs (regras de acesso) | Todas as URLs canônicas | Subconjunto curado (20-50 páginas) |
Como disse John Mueller, do Google: "Comparar o llms.txt com o robots.txt é 100% incorreto." São ferramentas complementares, não substitutos.
Família de arquivos
O llms.txt não vive sozinho. O ecossistema inclui o llms-full.txt — um arquivo companion que concatena o conteúdo completo de todas as páginas referenciadas.
Os números da Mintlify (2025), baseados em dados de CDN de 25 sites, são claros: o llms-full.txt é consultado 5,6 vezes mais que o llms.txt (mediana). Na prática, o índice funciona como roteador e o arquivo completo é o que alimenta o raciocínio dos agentes.
No Brasil, a LGPD é o marco regulatório relevante — nunca liste no llms.txt URLs que contenham dados pessoais.
Como criar seu llms.txt passo a passo
Criar um llms.txt é um processo de quatro fases que pode ser feito em 1 a 4 horas. Não exige programação — exige curadoria. A qualidade das descrições que você escreve para cada link é o que determina se o arquivo será útil ou apenas mais ruído.
Passo 0 — Verifique se já existe
Antes de criar um arquivo novo, confirme que seu site não tem um gerado automaticamente. No terminal, execute curl -I https://seudominio.com/llms.txt.
Se a resposta for HTTP 200 com text/plain ou text/markdown, você já tem um. Plataformas como Wix já geram llms.txt por padrão em sites de e-commerce.
Nas nossas auditorias, encontramos casos onde o servidor devolve um HTTP 200, mas o conteúdo é uma página de erro HTML — um falso positivo que pode enganar os crawlers. Em outro caso, um firewall bloqueia o acesso ao arquivo sem que o proprietário saiba. Verifique o conteúdo real, não apenas o código de status.
Fase 1 — Auditoria de conteúdo
Identifique as 20 a 50 páginas que um colega experiente recomendaria a alguém que perguntasse "o que preciso ler para entender esse site?" Para a maioria dos sites B2B: homepage, páginas de serviço principais, pilares de conteúdo, FAQ e material de referência. Ignore arquivos de tags, páginas de carreiras, fluxos de checkout e posts superficiais.
Organize em 3 a 7 seções temáticas usando H2s. Rótulos comuns: Documentação, Guias, API, Blog, FAQ, Optional.
Fase 2 — Redação do arquivo
Escreva o H1 com o nome do site, seguido do blockquote com um resumo de 1 a 3 frases. Seja específico — esse resumo é a única parte que a maioria dos LLMs lê por completo.
Depois, adicione seções H2 com links anotados. Cada link precisa de uma descrição após os dois pontos — um link sem descrição força o agente a buscar a página inteira antes de decidir se é relevante.
Para sites multi-idioma como os que gerenciamos na InboundCycle (ES + BR), o padrão emergente é um /llms.txt na raiz como índice geral e um /pt-br/llms.txt com conteúdo e URLs em português. Use o hreflang como fonte de verdade para mapear as URLs entre idiomas.
Atenção à LGPD: nunca inclua URLs que contenham dados pessoais de usuários. O llms.txt não é um mecanismo de proteção legal — listar essas URLs pode facilitar o acesso de agentes de IA a conteúdo sensível.
Fase 3 — Validação
Valide a estrutura markdown em qualquer renderizador (GitHub, Obsidian). Depois, submeta o arquivo ao llmstxtvalidator.dev para verificar conformidade com a especificação. Faça um teste de sanidade: cole o conteúdo no ChatGPT ou no Claude com a pergunta "com base nesse arquivo, o que esse site faz e o que devo ler primeiro?" Se a resposta for imprecisa, reescreva o blockquote.
Se você trabalha com marketing digital há algum tempo, isso vai soar familiar: os erros mais comuns são servir o arquivo como text/html em vez de text/plain, links quebrados e descrições genéricas.
Fase 4 — Deploy e monitoramento
Publique o arquivo na raiz do domínio. Verifique com curl https://seudominio.com/llms.txt que ele carrega como texto puro, sem HTML envolvente.
Na InboundCycle, implementamos llms.txt em todas as webs dos nossos clientes. Fazemos isso no HubSpot CMS — uma plataforma que ainda não tem suporte nativo para esse arquivo — mediante uma solução com o File Manager e um redirect 301. Se você prefere terceirizar esse tipo de implementação técnica, nosso serviço de web agêntica cobre todo o processo.
Para monitorar, ative o Cloudflare Bot Analytics (gratuito) ou o Ahrefs Bot Analytics (beta gratuito). Filtre por user-agents como GPTBot, ClaudeBot e PerplexityBot.
Se receber menos de 10 requisições ao /llms.txt por mês, nenhuma plataforma está consumindo o arquivo — mantenha-o atualizado, mas não invista mais. Acima de 30 requisições com tráfego referral de chatgpt.com ou perplexity.ai, vale considerar o llms-full.txt.
Para monitoramento indireto de marca em IAs, ferramentas como Ahrefs Brand Radar e Otterly.ai rastreiam menções em ChatGPT, Perplexity e Gemini.
Funciona mesmo? O que dizem os dados
Quatro estudos empíricos independentes chegaram à mesma conclusão: não há correlação mensurável entre ter um arquivo llms.txt e ser citado por sistemas de IA generativa. O arquivo não melhora posições no Google — não é um sinal de ranking para nenhum motor de busca.
Os dados da SE Ranking (2025) são os mais abrangentes: analisaram aproximadamente 300 mil domínios e não encontraram relação significativa entre llms.txt e citações de IA. A OtterlyAI (2026) rastreou 62.100 requisições de bots de IA em 90 dias — apenas 84 (0,1%) foram ao /llms.txt. A ALLMO.ai (94 mil URLs) e a Search Engine Land (10 sites, 180 dias, 8 de 10 sem mudança) corroboram.
O que dizem os dados
4 estudos independentes, mesmo resultado
SE Ranking
0 correlação
Sem relação entre ter llms.txt e ser citado por IAs
300.000 domínios · Nov 2025
OtterlyAI
0,1%
das requisições de bots de IA foram ao /llms.txt
62.100 requisições · 90 dias · Fev 2026
ALLMO.ai
0 diferença
Sem diferença em citações entre sites com e sem o arquivo
94.000 URLs analisadas
Search Engine Land
8/10 sem mudança
Os 2 que melhoraram tinham mudanças simultâneas não relacionadas
10 sites · 180 dias · Dez 2025
Consenso: implementar por custo quase zero, mas não prometer resultados de visibilidade perante IAs.
Fontes: SE Ranking (2025), OtterlyAI (2026), ALLMO.ai, Search Engine Land (2025)
Agora, é justo fazer a pergunta contrária: se não funciona, por que implementar? Porque o custo é quase zero e o risco é inexistente. O Ahrefs chamou isso de "low-risk / low-reward" — e essa é a posição mais defensível hoje.
A adoção cresceu 700 vezes em 12 meses (de 0,015% para 10,13% dos domínios top, segundo SE Ranking), sem evidência empírica de efeito. Existe um loop de desinformação: ferramentas de SEO sinalizam o llms.txt ausente como problema → usuários implementam por medo de ficar para trás → a percepção de necessidade se reforça sozinha.
Mueller, do Google, comparou o llms.txt com a meta tag keywords dos anos 90 — amplamente adotada, nunca eficaz. Gary Illyes, também do Google, foi mais direto em julho de 2025: "O Google não suporta o LLMs.txt e não planeja fazê-lo."
Mas atenção, porque tem uma nuance importante aqui. Na nossa amostra de auditorias, as webs com llms.txt bem implementado têm um AEO Score médio de 66/100, frente a 51/100 nas que não o têm. Não podemos afirmar causalidade — as webs que implementam llms.txt provavelmente também cuidam de outros aspectos da sua presença em IA — mas o padrão é consistente.
A Vercel atribui 10% dos novos cadastros ao ChatGPT, mas essa atribuição é multi-fator: combina llms.txt com conteúdo answer-first, documentação em markdown e conceitos de fronteira.
E agora vem a parte que realmente importa: o llms.txt não é uma ferramenta de SEO — é de GEO (Generative Engine Optimization). Nenhum motor de busca usa o arquivo como sinal de ranking. Seu valor está na visibilidade perante IAs, não em buscadores.
A posição da InboundCycle: implementar com expectativas calibradas. O valor real hoje está em developer tooling. O valor especulativo está em optionality — se algum provedor maior começar a consumir o arquivo, quem já tem sai na frente.
llms.txt vs MCP — a diferença que ninguém explica
Nenhum artigo no SERP brasileiro, espanhol ou anglófono explica essa diferença — e ela é fundamental para quem quer entender onde o llms.txt se encaixa no ecossistema mais amplo de preparação para agentes de IA.
| Dimensão | llms.txt | MCP |
|---|---|---|
| O que é | Arquivo markdown estático | Protocolo de interação dinâmica |
| Como é consumido | Passivamente via HTTP GET | Ativamente — o modelo executa funções |
| O que fornece | Identidade do site, mapa de conteúdo | Dados ao vivo, ações executáveis |
| Pergunta que responde | "O que tem nesse site?" | "O que posso fazer com esse site?" |
| Estado | Sem estado | Com estado (mantém sessão) |
O llms.txt é descoberta. O Model Context Protocol é interação. São camadas complementares, não concorrentes.
Um site de documentação pode implementar o llms.txt para que agentes de código carreguem seus docs como contexto, e ao mesmo tempo um servidor MCP para que esses agentes executem consultas ao vivo.
Olhe esse dado: a LangChain já construiu o mcpdoc, uma ponte que ingere o llms.txt e o expõe via MCP — permitindo que um agente tanto descubra conteúdo (via llms.txt) quanto atue sobre ele (via MCP).
Perguntas frequentes
O que é llms.txt?
Um arquivo markdown padronizado colocado na raiz de um site (/llms.txt) que funciona como índice curado para modelos de linguagem. Diferente do robots.txt (que controla acesso) e do sitemap.xml (que lista URLs), o llms.txt oferece contexto otimizado para inferência de IA. A especificação foi criada por Jeremy Howard (Answer.AI) em setembro de 2024 e vive em llmstxt.org.
O llms.txt melhora o SEO?
Não. Nenhum motor de busca usa o llms.txt como sinal de ranking. Mueller e Illyes, ambos do Google, foram explícitos.
O valor do arquivo está na visibilidade perante IAs generativas (GEO), não em buscadores tradicionais (SEO). Implementar não tem risco nem custo relevante, mas também não melhora posições no Google.
Qual é o impacto real de um arquivo llms.txt?
Quatro estudos empíricos independentes não encontraram correlação entre ter llms.txt e citações por IAs. O valor verificado está em developer tooling — agentes de código como Cursor e Claude Code carregam ativamente o arquivo. Custo baixo, risco zero, benefício para visibilidade em IA especulativo mas plausível.
Conclusão — o que fazer esta semana
- Hoje: verifique se seu site já tem um llms.txt com
curl https://seudominio.com/llms.txt - Esta semana: audite as 20-50 páginas mais relevantes e redija o arquivo com descrições específicas
- Semana 2: valide, publique na raiz e configure monitoramento de bots de IA
- Mês 1: avalie se vale adicionar o llms-full.txt com base nos dados de requisições
- Trimestre 1: reavalie o impacto — o custo de manutenção é quase zero
Implemente, não prometa resultados, monitore e reavalie em 12 meses. O ecossistema de IA ainda está se definindo — e quem já tem a infraestrutura pronta sai na frente quando ele se consolidar.