<img height="1" width="1" style="display:none;" alt="" src="https://dc.ads.linkedin.com/collect/?pid=81693&amp;fmt=gif">

O que é llms.txt, como criar o seu e por que importa

Você configurou o robots.txt, enviou o sitemap.xml e otimizou cada meta tag. Mas quando alguém pergunta ao ChatGPT sobre sua empresa, a resposta vem genérica — ou cita um concorrente.

O problema não é falta de conteúdo. É que as IAs não sabem onde encontrá-lo.

Segundo dados da InboundCycle, de 28 auditorias GEO realizadas entre janeiro e maio de 2026, apenas 27% das webs têm um arquivo llms.txt. Três de cada quatro sites são invisíveis para os agentes de IA que procuram esse arquivo.

O llms.txt é um arquivo markdown na raiz do seu site (/llms.txt) que funciona como índice curado do seu melhor conteúdo para modelos de linguagem. Aqui você vai entender para que serve, como criar o seu e o que os dados dizem — dentro do contexto mais amplo de preparar seu site para agentes de IA.

Para que serve o llms.txt (e para que não serve)

O llms.txt é um índice em markdown que ajuda modelos de linguagem a encontrar e interpretar o conteúdo de um site durante consultas em tempo real — o que se chama de inferência. Não é uma ferramenta de treinamento, nem um mecanismo de controle de acesso, nem um sinal de ranking para buscadores.

Imagine que alguém pergunta a uma IA sobre o seu produto. Sem o llms.txt, o modelo precisa processar páginas HTML cheias de menus, scripts e pixels de rastreamento.

Um estudo da Pronovix (2026) mediu a diferença: a versão HTML de uma página típica consome 16.933 tokens, enquanto a versão markdown da mesma página consome apenas 2.583 — uma redução de 85%. Para um agente de IA com orçamento limitado de contexto, isso é a diferença entre entender seu site e ignorá-lo.

Aqui é onde a maioria se perde: o llms.txt não garante que as IAs vão ler seu arquivo. Publicar o arquivo é diferente de ter ele respeitado. Nenhum grande provedor — OpenAI, Google, Anthropic, Meta — confirmou publicamente que seus sistemas consomem o llms.txt de terceiros durante a inferência.

O valor verificado hoje está em developer tooling: agentes de código como Cursor, Claude Code, Windsurf e Copilot carregam ativamente o llms.txt para contextualizar suas respostas. Para empresas B2B com audiência técnica, isso já é razão suficiente para implementar.

A proposta foi criada por Jeremy Howard, cofundador da Answer.AI, em setembro de 2024. A especificação vive em llmstxt.org e permanece como proposta comunitária — não foi ratificada por nenhum organismo de padrões.

Formato oficial e como se compara com robots.txt

O llms.txt segue uma estrutura markdown simples e padronizada que qualquer profissional de marketing pode criar sem conhecimentos de programação. Entender o formato correto é essencial porque existe desinformação circulando — especialmente sobre supostas diretivas de permissão que não existem na especificação oficial.

Especificação canônica

Pense no llms.txt como uma biblioteca. O robots.txt marca as estantes restritas. O sitemap.xml é o catálogo completo.

O llms.txt é a lista curada que o bibliotecário prepara para um pesquisador com 15 minutos — só os títulos mais relevantes, com uma nota sobre cada um.

A estrutura oficial tem um único elemento obrigatório: um título H1 com o nome do site. Depois, a especificação recomenda um blockquote com resumo curto, seções H2 com listas de links anotados e uma seção "Optional" para conteúdo dispensável em contextos limitados.

Com certeza você já ouviu: mais um arquivo que "precisa ter." Mas aqui vale prestar atenção.

Alguns blogs descrevem diretivas como $trainingAllowed e $chatAllowed como parte do llms.txt. Essas diretivas não existem na especificação oficial. A confusão vem da mistura com três propostas diferentes: o robots.txt (controle de acesso), o ai.txt da Spawning (consentimento de treinamento) e as diretivas Content-Signal da Cloudflare.

Como se compara com robots.txt

Dimensãorobots.txtsitemap.xmlllms.txt
FunçãoControle de acesso a crawlersDescoberta de URLs para buscadoresÍndice curado para LLMs na inferência
FormatoTexto com diretivasXMLMarkdown
PúblicoBots de busca e treinamentoMotores de indexaçãoModelos de IA e agentes
StatusPadrão IETF ratificadoPadrão de factoProposta comunitária
CoberturaTodas as URLs (regras de acesso)Todas as URLs canônicasSubconjunto curado (20-50 páginas)

Como disse John Mueller, do Google: "Comparar o llms.txt com o robots.txt é 100% incorreto." São ferramentas complementares, não substitutos.

Família de arquivos

O llms.txt não vive sozinho. O ecossistema inclui o llms-full.txt — um arquivo companion que concatena o conteúdo completo de todas as páginas referenciadas.

Os números da Mintlify (2025), baseados em dados de CDN de 25 sites, são claros: o llms-full.txt é consultado 5,6 vezes mais que o llms.txt (mediana). Na prática, o índice funciona como roteador e o arquivo completo é o que alimenta o raciocínio dos agentes.

No Brasil, a LGPD é o marco regulatório relevante — nunca liste no llms.txt URLs que contenham dados pessoais.

Como criar seu llms.txt passo a passo

Criar um llms.txt é um processo de quatro fases que pode ser feito em 1 a 4 horas. Não exige programação — exige curadoria. A qualidade das descrições que você escreve para cada link é o que determina se o arquivo será útil ou apenas mais ruído.

Passo 0 — Verifique se já existe

Antes de criar um arquivo novo, confirme que seu site não tem um gerado automaticamente. No terminal, execute curl -I https://seudominio.com/llms.txt.

Se a resposta for HTTP 200 com text/plain ou text/markdown, você já tem um. Plataformas como Wix já geram llms.txt por padrão em sites de e-commerce.

Nas nossas auditorias, encontramos casos onde o servidor devolve um HTTP 200, mas o conteúdo é uma página de erro HTML — um falso positivo que pode enganar os crawlers. Em outro caso, um firewall bloqueia o acesso ao arquivo sem que o proprietário saiba. Verifique o conteúdo real, não apenas o código de status.

Fase 1 — Auditoria de conteúdo

Identifique as 20 a 50 páginas que um colega experiente recomendaria a alguém que perguntasse "o que preciso ler para entender esse site?" Para a maioria dos sites B2B: homepage, páginas de serviço principais, pilares de conteúdo, FAQ e material de referência. Ignore arquivos de tags, páginas de carreiras, fluxos de checkout e posts superficiais.

Organize em 3 a 7 seções temáticas usando H2s. Rótulos comuns: Documentação, Guias, API, Blog, FAQ, Optional.

Fase 2 — Redação do arquivo

Escreva o H1 com o nome do site, seguido do blockquote com um resumo de 1 a 3 frases. Seja específico — esse resumo é a única parte que a maioria dos LLMs lê por completo.

Depois, adicione seções H2 com links anotados. Cada link precisa de uma descrição após os dois pontos — um link sem descrição força o agente a buscar a página inteira antes de decidir se é relevante.

Para sites multi-idioma como os que gerenciamos na InboundCycle (ES + BR), o padrão emergente é um /llms.txt na raiz como índice geral e um /pt-br/llms.txt com conteúdo e URLs em português. Use o hreflang como fonte de verdade para mapear as URLs entre idiomas.

Atenção à LGPD: nunca inclua URLs que contenham dados pessoais de usuários. O llms.txt não é um mecanismo de proteção legal — listar essas URLs pode facilitar o acesso de agentes de IA a conteúdo sensível.

Fase 3 — Validação

Valide a estrutura markdown em qualquer renderizador (GitHub, Obsidian). Depois, submeta o arquivo ao llmstxtvalidator.dev para verificar conformidade com a especificação. Faça um teste de sanidade: cole o conteúdo no ChatGPT ou no Claude com a pergunta "com base nesse arquivo, o que esse site faz e o que devo ler primeiro?" Se a resposta for imprecisa, reescreva o blockquote.

Se você trabalha com marketing digital há algum tempo, isso vai soar familiar: os erros mais comuns são servir o arquivo como text/html em vez de text/plain, links quebrados e descrições genéricas.

Fase 4 — Deploy e monitoramento

Publique o arquivo na raiz do domínio. Verifique com curl https://seudominio.com/llms.txt que ele carrega como texto puro, sem HTML envolvente.

Na InboundCycle, implementamos llms.txt em todas as webs dos nossos clientes. Fazemos isso no HubSpot CMS — uma plataforma que ainda não tem suporte nativo para esse arquivo — mediante uma solução com o File Manager e um redirect 301. Se você prefere terceirizar esse tipo de implementação técnica, nosso serviço de web agêntica cobre todo o processo.

Para monitorar, ative o Cloudflare Bot Analytics (gratuito) ou o Ahrefs Bot Analytics (beta gratuito). Filtre por user-agents como GPTBot, ClaudeBot e PerplexityBot.

Se receber menos de 10 requisições ao /llms.txt por mês, nenhuma plataforma está consumindo o arquivo — mantenha-o atualizado, mas não invista mais. Acima de 30 requisições com tráfego referral de chatgpt.com ou perplexity.ai, vale considerar o llms-full.txt.

Para monitoramento indireto de marca em IAs, ferramentas como Ahrefs Brand Radar e Otterly.ai rastreiam menções em ChatGPT, Perplexity e Gemini.

Funciona mesmo? O que dizem os dados

Quatro estudos empíricos independentes chegaram à mesma conclusão: não há correlação mensurável entre ter um arquivo llms.txt e ser citado por sistemas de IA generativa. O arquivo não melhora posições no Google — não é um sinal de ranking para nenhum motor de busca.

Os dados da SE Ranking (2025) são os mais abrangentes: analisaram aproximadamente 300 mil domínios e não encontraram relação significativa entre llms.txt e citações de IA. A OtterlyAI (2026) rastreou 62.100 requisições de bots de IA em 90 dias — apenas 84 (0,1%) foram ao /llms.txt. A ALLMO.ai (94 mil URLs) e a Search Engine Land (10 sites, 180 dias, 8 de 10 sem mudança) corroboram.

Agora, é justo fazer a pergunta contrária: se não funciona, por que implementar? Porque o custo é quase zero e o risco é inexistente. O Ahrefs chamou isso de "low-risk / low-reward" — e essa é a posição mais defensível hoje.

A adoção cresceu 700 vezes em 12 meses (de 0,015% para 10,13% dos domínios top, segundo SE Ranking), sem evidência empírica de efeito. Existe um loop de desinformação: ferramentas de SEO sinalizam o llms.txt ausente como problema → usuários implementam por medo de ficar para trás → a percepção de necessidade se reforça sozinha.

Mueller, do Google, comparou o llms.txt com a meta tag keywords dos anos 90 — amplamente adotada, nunca eficaz. Gary Illyes, também do Google, foi mais direto em julho de 2025: "O Google não suporta o LLMs.txt e não planeja fazê-lo."

Mas atenção, porque tem uma nuance importante aqui. Na nossa amostra de auditorias, as webs com llms.txt bem implementado têm um AEO Score médio de 66/100, frente a 51/100 nas que não o têm. Não podemos afirmar causalidade — as webs que implementam llms.txt provavelmente também cuidam de outros aspectos da sua presença em IA — mas o padrão é consistente.

A Vercel atribui 10% dos novos cadastros ao ChatGPT, mas essa atribuição é multi-fator: combina llms.txt com conteúdo answer-first, documentação em markdown e conceitos de fronteira.

E agora vem a parte que realmente importa: o llms.txt não é uma ferramenta de SEO — é de GEO (Generative Engine Optimization). Nenhum motor de busca usa o arquivo como sinal de ranking. Seu valor está na visibilidade perante IAs, não em buscadores.

A posição da InboundCycle: implementar com expectativas calibradas. O valor real hoje está em developer tooling. O valor especulativo está em optionality — se algum provedor maior começar a consumir o arquivo, quem já tem sai na frente.

llms.txt vs MCP — a diferença que ninguém explica

Nenhum artigo no SERP brasileiro, espanhol ou anglófono explica essa diferença — e ela é fundamental para quem quer entender onde o llms.txt se encaixa no ecossistema mais amplo de preparação para agentes de IA.

Dimensãollms.txtMCP
O que éArquivo markdown estáticoProtocolo de interação dinâmica
Como é consumidoPassivamente via HTTP GETAtivamente — o modelo executa funções
O que forneceIdentidade do site, mapa de conteúdoDados ao vivo, ações executáveis
Pergunta que responde"O que tem nesse site?""O que posso fazer com esse site?"
EstadoSem estadoCom estado (mantém sessão)

O llms.txt é descoberta. O Model Context Protocol é interação. São camadas complementares, não concorrentes.

Um site de documentação pode implementar o llms.txt para que agentes de código carreguem seus docs como contexto, e ao mesmo tempo um servidor MCP para que esses agentes executem consultas ao vivo.

Olhe esse dado: a LangChain já construiu o mcpdoc, uma ponte que ingere o llms.txt e o expõe via MCP — permitindo que um agente tanto descubra conteúdo (via llms.txt) quanto atue sobre ele (via MCP).

Perguntas frequentes

O que é llms.txt?

Um arquivo markdown padronizado colocado na raiz de um site (/llms.txt) que funciona como índice curado para modelos de linguagem. Diferente do robots.txt (que controla acesso) e do sitemap.xml (que lista URLs), o llms.txt oferece contexto otimizado para inferência de IA. A especificação foi criada por Jeremy Howard (Answer.AI) em setembro de 2024 e vive em llmstxt.org.

O llms.txt melhora o SEO?

Não. Nenhum motor de busca usa o llms.txt como sinal de ranking. Mueller e Illyes, ambos do Google, foram explícitos.

O valor do arquivo está na visibilidade perante IAs generativas (GEO), não em buscadores tradicionais (SEO). Implementar não tem risco nem custo relevante, mas também não melhora posições no Google.

Qual é o impacto real de um arquivo llms.txt?

Quatro estudos empíricos independentes não encontraram correlação entre ter llms.txt e citações por IAs. O valor verificado está em developer tooling — agentes de código como Cursor e Claude Code carregam ativamente o arquivo. Custo baixo, risco zero, benefício para visibilidade em IA especulativo mas plausível.

Conclusão — o que fazer esta semana

  • Hoje: verifique se seu site já tem um llms.txt com curl https://seudominio.com/llms.txt
  • Esta semana: audite as 20-50 páginas mais relevantes e redija o arquivo com descrições específicas
  • Semana 2: valide, publique na raiz e configure monitoramento de bots de IA
  • Mês 1: avalie se vale adicionar o llms-full.txt com base nos dados de requisições
  • Trimestre 1: reavalie o impacto — o custo de manutenção é quase zero

Implemente, não prometa resultados, monitore e reavalie em 12 meses. O ecossistema de IA ainda está se definindo — e quem já tem a infraestrutura pronta sai na frente quando ele se consolidar.

O que você acha? Deixe um comentário!