<img height="1" width="1" style="display:none;" alt="" src="https://dc.ads.linkedin.com/collect/?pid=81693&amp;fmt=gif">
Português

O que é llms.txt, como criar o seu e por que importa

Você configurou o robots.txt, enviou o sitemap.xml e otimizou cada meta tag. Mas quando alguém pergunta ao ChatGPT sobre sua empresa, a resposta vem genérica ou cita um concorrente.

O problema não é falta de conteúdo. É que as IAs não sabem onde encontrá-lo.

Segundo dados da InboundCycle, de 28 auditorias GEO realizadas entre janeiro e maio de 2026, apenas 27% das webs têm um arquivo llms.txt. Três a cada quatro sites são invisíveis para os agentes de IA que procuram esse arquivo.

O llms.txt é um arquivo markdown na raiz do seu site (/llms.txt) que funciona como índice curado do seu melhor conteúdo para modelos de linguagem. Aqui você vai entender para que serve, como criar o seu e o que os dados dizem — dentro do contexto mais amplo de preparar seu site para agentes de IA.

Para que serve o llms.txt (e para que não serve)

O llms.txt é um índice em markdown que ajuda modelos de linguagem a encontrar e interpretar o conteúdo de um site durante consultas em tempo real — o que se chama de inferência. Não é uma ferramenta de treinamento, nem um mecanismo de controle de acesso, nem um sinal de ranking para buscadores.

Imagine que alguém pergunta a uma IA sobre o seu produto. Sem o llms.txt, o modelo precisa processar páginas HTML cheias de menus, scripts e pixels de rastreamento.

Um estudo da Pronovix (2026) mediu a diferença: a versão HTML de uma página típica consome 16.933 tokens, enquanto a versão markdown da mesma página consome apenas 2.583 — uma redução de 85%. Para um agente de IA com orçamento limitado de contexto, isso é a diferença entre entender seu site e ignorá-lo.

Aqui é onde a maioria se perde: o llms.txt não garante que as IAs vão ler seu arquivo. Publicar o arquivo é diferente de tê-lo respeitado. Nenhum grande provedor — OpenAI, Google, Anthropic, Meta — confirmou publicamente que seus sistemas consomem o llms.txt de terceiros durante a inferência.

O valor verificado hoje está em developer tooling: agentes de código como Cursor, Claude Code, Windsurf e Copilot carregam ativamente o llms.txt para contextualizar suas respostas. Para empresas B2B com audiência técnica, isso já é razão suficiente para implementar.

A proposta foi criada por Jeremy Howard, cofundador da Answer.AI, em setembro de 2024. A especificação vive em llmstxt.org e permanece como proposta comunitária — não foi ratificada por nenhum organismo de padrões.

Formato oficial e como se compara com robots.txt

O llms.txt segue uma estrutura markdown simples e padronizada que qualquer profissional de marketing pode criar sem conhecimentos de programação. Entender o formato correto é essencial porque existe desinformação circulando — especialmente sobre supostas diretivas de permissão que não existem na especificação oficial.

Especificação canônica

Pense no llms.txt como uma biblioteca. O robots.txt marca as estantes restritas. O sitemap.xml é o catálogo completo.

O llms.txt  é a lista curada que o bibliotecário prepara para um pesquisador com 15 minutos — só os títulos mais relevantes, com uma nota sobre cada um.

A estrutura oficial tem um único elemento obrigatório: um título H1 com o nome do site. Depois, a especificação recomenda um blockquote com resumo curto, seções H2 com listas de links anotados e uma seção "Optional" para conteúdo dispensável em contextos limitados.

Com certeza você já ouviu: mais um arquivo que "precisa ter." Mas aqui vale prestar atenção.

Alguns blogs descrevem diretivas como $trainingAllowed e $chatAllowed como parte do llms.txt. Essas diretivas não existem na especificação oficial. A confusão vem da mistura com três propostas diferentes: o robots.txt (controle de acesso), o ai.txt da Spawning (consentimento de treinamento) e as diretivas Content-Signal da Cloudflare.

Como se compara com robots.txt

Dimensão robots.txt sitemap.xml llms.txt
Função Controle de acesso a crawlers Descoberta de URLs para buscadores Índice curado para LLMs na inferência
Formato Texto com diretivas XML Markdown
Público Bots de busca e treinamento Motores de indexação Modelos de IA e agentes
Status Padrão IETF ratificado Padrão de facto Proposta comunitária
Cobertura Todas as URLs (regras de acesso) Todas as URLs canônicas Subconjunto curado (20-50 páginas)

Como disse John Mueller, do Google: "Comparar o llms.txt com o robots.txt é 100% incorreto." São ferramentas complementares, não substitutos.

Família de arquivos

O llms.txt não vive sozinho. O ecossistema inclui o llms-full.txt — um arquivo companion que concatena o conteúdo completo de todas as páginas referenciadas.

Os números da Mintlify (2025), baseados em dados de CDN de 25 sites, são claros: o llms-full.txt é consultado 5,6 vezes mais que o llms.txt (mediana). Na prática, o índice funciona como roteador e o arquivo completo é o que alimenta o raciocínio dos agentes.

No Brasil, a LGPD é o marco regulatório relevante — nunca liste no llms.txt URLs que contenham dados pessoais.

Como criar seu llms.txt passo a passo

Criar um llms.txt é um processo de quatro fases que pode ser feito em 1 a 4 horas. Não exige programação — exige curadoria. A qualidade das descrições que você escreve para cada link é o que determina se o arquivo será útil ou apenas mais ruído.

Passo 0 — Verifique se já existe

Antes de criar um arquivo novo, confirme que seu site não tem um gerado automaticamente. No terminal, execute curl -I https://seudominio.com/llms.txt.

Se a resposta for HTTP 200 com text/plain ou text/markdown, você já tem um. Plataformas como Wix já geram llms.txt por padrão em sites de e-commerce.

Nas nossas auditorias, encontramos casos em que o servidor devolve um HTTP 200, mas o conteúdo é uma página de erro HTML — um falso positivo que pode enganar os crawlers. Em outro caso, um firewall bloqueia o acesso ao arquivo sem que o proprietário saiba. Verifique o conteúdo real, não apenas o código de status.

Fase 1 — Auditoria de conteúdo

Identifique as 20 a 50 páginas que um colega experiente recomendaria a alguém que perguntasse "o que preciso ler para entender esse site?" Para a maioria dos sites B2B: homepage, páginas de serviço principais, pilares de conteúdo, FAQ e material de referência. Ignore arquivos de tags, páginas de carreiras, fluxos de checkout e posts superficiais.

Organize em 3 a 7 seções temáticas usando H2s. Rótulos comuns: Documentação, Guias, API, Blog, FAQ, Optional.

Fase 2 — Redação do arquivo

Escreva o H1 com o nome do site, seguido do blockquote com um resumo de 1 a 3 frases. Seja específico pois esse resumo é a única parte que a maioria dos LLMs lê por completo.

Depois, adicione seções H2 com links anotados. Cada link precisa de uma descrição após os dois pontos — um link sem descrição força o agente a buscar a página inteira antes de decidir se é relevante.

Para sites multi-idioma como os que gerenciamos na InboundCycle (ES + BR), o padrão emergente é um /llms.txt na raiz como índice geral e um /pt-br/llms.txt com conteúdo e URLs em português. Use o hreflang como fonte de verdade para mapear as URLs entre idiomas.

Atenção à LGPD: nunca inclua URLs que contenham dados pessoais de usuários. O llms.txt não é um mecanismo de proteção legal — listar essas URLs pode facilitar o acesso de agentes de IA a conteúdo sensível.

Fase 3 — Validação

Valide a estrutura markdown em qualquer renderizador (GitHub, Obsidian). Depois, submeta o arquivo ao llmstxtvalidator.dev para verificar conformidade com a especificação. Faça um teste de sanidade: cole o conteúdo no ChatGPT ou no Claude com a pergunta "com base nesse arquivo, o que esse site faz e o que devo ler primeiro?" Se a resposta for imprecisa, reescreva o blockquote.

Se você trabalha com marketing digital há algum tempo, isso vai soar familiar: os erros mais comuns são servir o arquivo como text/html em vez de text/plain, links quebrados e descrições genéricas.

Fase 4 — Deploy e monitoramento

Publique o arquivo na raiz do domínio. Verifique com curl https://seudominio.com/llms.txt que ele carrega como texto puro, sem HTML envolvente.

Na InboundCycle, implementamos llms.txt em todas as webs dos nossos clientes. Fazemos isso no HubSpot CMS — uma plataforma que ainda não tem suporte nativo para esse arquivo — mediante uma solução com o File Manager e um redirect 301. Se você prefere terceirizar esse tipo de implementação técnica, nosso serviço de web agêntica cobre todo o processo.

Para monitorar, ative o Cloudflare Bot Analytics (gratuito) ou o Ahrefs Bot Analytics (beta gratuito). Filtre por user-agents como GPTBot, ClaudeBot e PerplexityBot.

Se receber menos de 10 requisições ao /llms.txt por mês, nenhuma plataforma está consumindo o arquivo. Mantenha-o atualizado, mas não invista mais. Acima de 30 requisições com tráfego de referência de chatgpt.com ou perplexity.ai, vale considerar o llms-full.txt.

Para monitoramento indireto de marca em IAs, ferramentas como Ahrefs Brand Radar e Otterly.ai rastreiam menções em ChatGPT, Perplexity e Gemini.

Funciona mesmo? O que dizem os dados

Quatro estudos empíricos independentes chegaram à mesma conclusão: não há correlação mensurável entre ter um arquivo llms.txt e ser citado por sistemas de IA generativa. O arquivo não melhora posições no Google — não é um sinal de ranking para nenhum motor de busca.

Os dados da SE Ranking (2025) são os mais abrangentes: analisaram aproximadamente 300 mil domínios e não encontraram relação significativa entre llms.txt e citações de IA. A OtterlyAI (2026) rastreou 62.100 requisições de bots de IA em 90 dias — apenas 84 (0,1%) foram ao /llms.txt. A ALLMO.ai (94 mil URLs) e a Search Engine Land (10 sites, 180 dias, 8 de 10 sem mudança) corroboram.

Agora, é justo fazer a pergunta contrária: se não funciona, por que implementar? Porque o custo é quase zero e o risco é inexistente. O Ahrefs chamou isso de "low-risk / low-reward" — e essa é a posição mais defensível hoje.

A adoção cresceu 700 vezes em 12 meses (de 0,015% para 10,13% dos domínios top, segundo SE Ranking), sem evidência empírica de efeito. Existe um loop de desinformação: ferramentas de SEO sinalizam o llms.txt ausente como problema → usuários implementam por medo de ficar para trás → a percepção de necessidade se reforça sozinha.

Mueller, do Google, comparou o llms.txt com a meta tag keywords dos anos 90 — amplamente adotada, nunca eficaz. Gary Illyes, também do Google, foi mais direto em julho de 2025: "O Google não suporta o LLMs.txt e não planeja fazê-lo."

Mas atenção, porque tem uma nuance importante aqui. Na nossa amostra de auditorias, as webs com llms.txt bem implementado têm um AEO Score médio de 66/100, frente a 51/100 nas que não o têm. Não podemos afirmar causalidade — as webs que implementam llms.txt provavelmente também cuidam de outros aspectos da sua presença em IA — mas o padrão é consistente.

A Vercel atribui 10% dos novos cadastros ao ChatGPT, mas essa atribuição é multifatorial: combina llms.txt com conteúdo answer-first, documentação em markdown e conceitos de fronteira.

E agora vem a parte que realmente importa: o llms.txt não é uma ferramenta de SEO — é de GEO (Generative Engine Optimization). Nenhum motor de busca usa o arquivo como sinal de ranking. Seu valor está na visibilidade perante IAs, não em buscadores.

A posição da InboundCycle: implementar com expectativas calibradas. O valor real hoje está em developer tooling. O valor especulativo está em optionality — se algum provedor maior começar a consumir o arquivo, quem já tem sai na frente.

llms.txt vs MCP — a diferença que ninguém explica

Nenhum artigo no SERP brasileiro, espanhol ou anglófono explica essa diferença — e ela é fundamental para quem quer entender onde o llms.txt se encaixa no ecossistema mais amplo de preparação para agentes de IA.

Dimensão llms.txt MCP
O que é Arquivo markdown estático Protocolo de interação dinâmica
Como é consumido Passivamente via HTTP GET Ativamente — o modelo executa funções
O que fornece Identidade do site, mapa de conteúdo Dados ao vivo, ações executáveis
Pergunta que responde "O que tem nesse site?" "O que posso fazer com esse site?"
Estado Sem estado Com estado (mantém sessão)

O llms.txt é descoberta. O Model Context Protocol é interação. São camadas complementares, não concorrentes.

Um site de documentação pode implementar o llms.txt para que agentes de código carreguem seus docs como contexto, e ao mesmo tempo um servidor MCP para que esses agentes executem consultas ao vivo.

Olhe esse dado: a LangChain já construiu o mcpdoc, uma ponte que ingere o llms.txt e o expõe via MCP — permitindo que um agente tanto descubra conteúdo (via llms.txt) quanto atue sobre ele (via MCP).

Perguntas frequentes

O que é llms.txt?

Um arquivo markdown padronizado colocado na raiz de um site (/llms.txt) que funciona como índice curado para modelos de linguagem. Diferente do robots.txt (que controla acesso) e do sitemap.xml (que lista URLs), o llms.txt oferece contexto otimizado para inferência de IA. A especificação foi criada por Jeremy Howard (Answer.AI) em setembro de 2024 e vive em llmstxt.org.

O llms.txt melhora o SEO?

Não. Nenhum motor de busca usa o llms.txt como sinal de ranking. Mueller e Illyes, ambos do Google, foram explícitos.

O valor do arquivo está na visibilidade perante IAs generativas (GEO), não em buscadores tradicionais (SEO). Implementar não tem risco nem custo relevante, mas também não melhora posições no Google.

Qual é o impacto real de um arquivo llms.txt?

Quatro estudos empíricos independentes não encontraram correlação entre ter llms.txt e citações por IAs. O valor verificado está em developer tooling — agentes de código como Cursor e Claude Code carregam ativamente o arquivo. Custo baixo, risco zero, benefício para visibilidade em IA especulativo, mas plausível.

Conclusão — o que fazer esta semana

  • Hoje: verifique se seu site já tem um llms.txt com curl https://seudominio.com/llms.txt
  • Esta semana: audite as 20-50 páginas mais relevantes e redija o arquivo com descrições específicas
  • Semana 2: valide, publique na raiz e configure monitoramento de bots de IA
  • Mês 1: avalie se vale adicionar o llms-full.txt com base nos dados de requisições
  • Trimestre 1: reavalie o impacto — o custo de manutenção é quase zero

Implemente, não prometa resultados, monitore e reavalie em 12 meses. O ecossistema de IA ainda está se definindo — e quem já tem a infraestrutura pronta sairá na frente quando ele se consolidar.

O que você acha? Deixe um comentário!