<img height="1" width="1" style="display:none;" alt="" src="https://dc.ads.linkedin.com/collect/?pid=81693&amp;fmt=gif">

O que é indexação: por que importa e como funciona no SEO

Se você pesquisa "o que é indexação" no Google agora, 4 dos 5 primeiros resultados falam de IPCA, IGP-M e Selic. De indexação financeira, não de indexação web. O Google não sabe o que você está perguntando — e isso, por irônico que pareça, ilustra perfeitamente o problema que este artigo resolve.

Este artigo trata de indexação web: como os buscadores descobrem, processam e armazenam suas páginas para que possam aparecer nos resultados de busca. A indexação é a base técnica de toda estratégia de visibilidade orgânica — incluindo GEO e AEO no contexto de SEO técnico. Sem ela, seu site simplesmente não existe para o Google nem para o ChatGPT.

Um dado coloca a urgência em perspectiva: segundo o IBGE (PNAD Contínua TIC 2024), 89,1% dos brasileiros com 10 anos ou mais acessam a internet. Se sua marca não está indexada, ela é invisível para esse mercado.

O que é indexação web (e o que NÃO é)

Indexação web é o processo pelo qual um buscador descobre, lê, processa e armazena uma página no seu banco de dados (o "índice"), tornando-a elegível para aparecer nos resultados de busca. Sem indexação, não existe posicionamento — é o requisito prévio de qualquer investimento em SEO ou em visibilidade nas IAs.

Pense da seguinte forma: publicar uma página é como imprimir um livro. A indexação é a biblioteca registrar esse livro no fichário. Se o livro não está no fichário, ninguém consegue encontrá-lo — mesmo que seja o melhor livro da estante.

É exatamente isso que acontece com um site não indexado: ele existe na internet, mas é invisível para quem busca.

Uma confusão muito comum no Brasil: "indexação" também significa vincular valores a um índice de inflação (IPCA, IGP-M, Selic). É indexação financeira, não web. Se você chegou aqui procurando o reajuste do aluguel, este não é o artigo certo.

Outro ponto que gera confusão: estar indexado não é o mesmo que estar bem posicionado. Você pode ter uma página indexada e ela nunca aparecer na primeira página do Google para nenhuma busca relevante. A indexação é a primeira porta; o posicionamento é a última.

Para dimensionar o tamanho do sistema: o índice do Google supera 100.000.000 GB — mais de 100 petabytes de dados armazenados (Google — How Search Works).

Como funciona: o pipeline crawl → render → index → serve

O Google Search Central descreve três etapas públicas — Rastreamento, Indexação, Exibição — mas na prática são cinco operações distintas. Internamente, o sistema que processa tudo se chama Caffeine, ativo desde 2010, baseado no Percolator (Peng & Dabek, OSDI 2010). O resultado: o Google reduziu em 50% a idade média dos documentos nos resultados de busca.

Etapa O que acontece O que pode falhar
1. Descoberta O Google descobre que a URL existe (via links, sitemap, IndexNow, envio no GSC) Páginas órfãs, sem links internos/externos, sem sitemap
2. Rastreamento O Googlebot acessa a URL e baixa o HTML robots.txt com Disallow, erros 5xx, cadeias de redirect
3. Renderização Um navegador headless (Chromium) executa o JavaScript Client-side rendering sem SSR, erros de JS, CSS/JS bloqueados
4. Indexação O Google extrai o texto, escolhe a versão canônica e armazena no índice invertido Tag noindex, soft 404, conteúdo duplicado, baixa qualidade
5. Exibição O Google ranqueia a página para cada consulta Baixa relevância, pouca autoridade, CWV ruins

Desde 5 de julho de 2024, o mobile-first indexing é universal: o Googlebot Smartphone é o crawler primário para 100% dos sites (Google Search Central). Se a versão móvel do seu site esconde conteúdo que existe no desktop, o Google não vai ver esse conteúdo.

Imagine uma empresa B2B brasileira de software que publica o post /blog/o-que-e-indexacao. Ela submete o sitemap atualizado no Google Search Console. O Googlebot Smartphone acessa a URL, renderiza o JavaScript se necessário, analisa o conteúdo, escolhe a versão canônica e adiciona ao índice.

John Mueller indica que conteúdo de qualidade costuma ser indexado em aproximadamente uma semana — sites novos podem levar até 8 semanas.

Como controlar o que é indexado (e o que não)

Se o pipeline anterior explica como o Google processa suas páginas, o próximo passo é entender como você controla esse processo.

O controle de indexação se divide em três ferramentas, cada uma atuando numa camada diferente: o robots.txt controla o rastreamento (se o Googlebot acessa a URL), a tag meta robots ou X-Robots-Tag controla a indexação (se o Google armazena no índice), e o sitemap.xml ajuda na descoberta (informa quais URLs você quer rastreadas). Confundir essas camadas é a causa técnica mais comum de páginas invisíveis.

Ferramenta O que controla Onde fica Exemplo
robots.txt Rastreamento /robots.txt na raiz do site User-agent: *
Disallow: /admin/
Meta robots Indexação <head> da página HTML <meta name="robots" content="noindex, follow">
X-Robots-Tag Indexação (para PDFs e regras em massa) Header HTTP da resposta X-Robots-Tag: noindex
sitemap.xml Descoberta Qualquer lugar do site, declarado no robots.txt Arquivo XML com entradas <loc>

Aqui é onde a maioria se perde: se uma página está bloqueada no robots.txt, o Googlebot não consegue ler a tag noindex dentro dela. O Google pode manter um registro da URL nos resultados se descobri-la por links externos.

Essa assimetria é o erro técnico autoinfligido mais frequente em migrações de staging para produção. O Google eliminou o suporte a noindex dentro do robots.txt em julho de 2019.

Para redirects, a regra operativa é direta: 301 (permanente) sinaliza que o destino é a URL canônica; 302 (temporário) mantém a origem como canônica. Mueller confirmou que redirects 30x não perdem mais PageRank.

O Google recomenda manter 301s por pelo menos 1 ano e limitar cadeias a no máximo 2 saltos.

No sitemap, as boas práticas são claras: máximo de 50.000 URLs ou 50 MB por arquivo (Google Search Central). O Google ignora <priority> e <changefreq>, mas usa <lastmod> — só se for consistente e verificável.

A tag canonical é um hint (sugestão). A tag noindex é uma directive (ordem). O Google obedece noindex, mas avalia canonical contra outros sinais — links internos, sitemap, redirects, preferência por HTTPS — e pode ignorá-la.

Uma observação importante para quem busca visibilidade em IA: a tag nosnippet não só suprime snippets nos resultados do Google, mas também impede que a página seja usada como fonte para AI Overviews (Google — Page Experience). Se o seu CMS tem essa tag ativada por padrão, vale auditar.

Como des-indexar conteúdo

Des-indexar é o caminho inverso: tirar do índice do Google uma página que já está lá. Existem quatro métodos com velocidades e permanências diferentes (Google — Removals Tool).

Método Velocidade Permanência Quando usar
GSC Removals ~24 horas Temporário (~6 meses) Urgência: precisa sumir dos resultados enquanto resolve
noindex Dias a semanas Permanente (enquanto a tag existir) Páginas que existem para o usuário mas não devem ranquear (carrinho, login)
404 / 410 Dias a semanas Permanente Páginas que não devem mais existir; 410 des-indexa mais rápido que 404
Senha / autenticação Imediato (próximo crawl) Permanente Conteúdo sensível que não deve ser público

A sequência correta é crítica: (1) permitir o rastreamento, (2) adicionar noindex, (3) esperar o recrawl. Nunca use robots.txt para des-indexar — se você bloqueia o rastreamento, o Google não consegue ler o noindex e a URL pode continuar aparecendo nos resultados.

5 problemas de indexação que você pode diagnosticar hoje

Saber controlar a indexação é metade do trabalho — a outra metade é diagnosticar quando algo não funciona.

Os cinco problemas de indexação mais frequentes em sites B2B são: noindex acidental, soft 404, canonical contraditório, JavaScript invisível e o status "Discovered — not indexed". Todos são diagnosticáveis no Google Search Console e, na maioria dos casos, corrigíveis sem intervenção de desenvolvimento.

Se você trabalha com marketing digital há algum tempo, isso vai soar familiar — são erros silenciosos que se acumulam sem ninguém perceber.

1. Noindex acidental. Status no GSC: "Excluded by 'noindex' tag". Causa típica: tag de staging que chegou à produção ou plugin de CMS mal configurado. Solução: remover a tag e solicitar indexação no URL Inspection.

2. Soft 404. Status: "Soft 404". A página retorna código 200 mas tem conteúdo vazio ou genérico. Solução: adicionar conteúdo real, retornar 404/410 de verdade ou fazer 301.

3. Canonical contraditório. Status: "Google chose different canonical than user". Os sinais de canonical apontam para direções diferentes. Solução: alinhar canonical, links internos e sitemap.

4. JS rendering invisível. O conteúdo não aparece no HTML renderizado do URL Inspection. Causa: client-side rendering (CSR) sem SSR. Solução: migrar para Next.js (React), Nuxt.js (Vue) ou Angular Universal. SSR já não é opcional para visibilidade multi-motor.

E agora vem a parte que realmente importa:

5. Discovered — not indexed. O Google encontrou a URL mas decidiu não indexar. Esse status cresceu significativamente desde 2023, depois da Helpful Content Update. Mueller declarou: "it's really normal that we don't index everything. That can be the case that maybe we just index 1/10 of a website" (Onely). Solução: melhorar qualidade e originalidade, consolidar duplicados, reforçar links internos.

A armadilha do JavaScript merece destaque: se o HTML inicial diz noindex, o JavaScript não pode removê-lo. É uma armadilha de sentido único — o Google confirma que pode pular a renderização ao encontrar noindex no HTML.

O problema dos frameworks não é React, Angular ou Vue em si — é o padrão de implementação CSR. Dados operacionais indicam que organizações migrando de CSR puro para SSR veem taxas de indexação saltar de menos de 40% para mais de 95%.

Uma vez resolvidos os problemas técnicos de indexação, o próximo passo é otimizar suas páginas para o Google — mas sem a base técnica, nenhuma otimização de conteúdo produz resultados.

Crawl budget e Core Web Vitals — a verdade sem ruído

O crawl budget é o conjunto de URLs que o Google pode e quer rastrear do seu site num período determinado (Google Search Central). Depende de dois fatores: o crawl capacity limit (capacidade do servidor) e o crawl demand (o quanto o Google quer rastrear). Detalhe técnico pouco discutido: o Googlebot tem um limite de ~2 MB por URL individual.

Agora, é justo fazer a pergunta contrária: seu site realmente precisa se preocupar com crawl budget? O Google diz que não — para a maioria dos sites. Só importa se você tem mais de 1 milhão de páginas com atualizações semanais, ou mais de 10.000 com atualizações diárias.

Para 95% dos sites B2B, o problema real é a arquitetura de descoberta, não crawl budget.

Sobre Core Web Vitals: LCP < 2,5s, INP < 200ms (substituiu o FID em 12 de março de 2024), CLS < 0,1. Apenas 62% das páginas móveis atingem um LCP "bom" (Web Almanac 2025).

Mas aqui vai a posição honesta: não existe estudo primário que demonstre relação direta entre CWV e indexação. A relação é indireta — páginas mais rápidas são mais eficientes para rastrear e renderizar, mas CWV não é um "interruptor de indexação".

Como verificar se o seu site está indexado

Com os problemas identificados, a pergunta seguinte é direta: como saber se suas páginas estão de fato no índice?

Verificar a indexação do seu site requer uma abordagem em camadas, não uma ferramenta única. Existem três métodos principais, cada um com alcance diferente — e usá-los em combinação é o que separa um diagnóstico real de uma verificação superficial.

Método Melhor para Limitações
URL Inspection (GSC) Diagnóstico de 1 URL por vez Não detecta duplicados/canonicals (Google)
Page Indexing report (GSC) Vista global de todo o site 4 dias de atraso nos dados
Operador site: Verificação rápida externa Apenas uma aproximação — Mueller diz que não serve como diagnóstico

O workflow recomendado tem 4 camadas: (1) inspecionar a URL específica no URL Inspection, (2) identificar se o problema é de rastreamento, renderização, canonical ou qualidade, (3) validar se é um caso isolado ou sistêmico no Page Indexing report, (4) quantificar o impacto com um crawler externo como Screaming Frog ou Sitebulb.

Olhe esse dado: uma pesquisa da Onely mostra que 83% das páginas são indexadas na primeira semana. O que acelera a descoberta? Links — o Google usa links para "find new pages to crawl".

Um único backlink de alta autoridade pode acionar o rastreamento de uma página nova mais rápido do que esperar pela descoberta via sitemap.

Para melhorar a descoberta das suas páginas, conseguir links de qualidade continua sendo um dos sinais mais fortes — embora as técnicas de como consegui-los sejam outro tema.

Mueller recomenda uma hierarquia piramidal: homepage → pillar → article. Muitos "problemas de indexação" são, na verdade, problemas de arquitetura de descoberta — páginas importantes que não estão acessíveis a partir da homepage.

Indexação além do Google: IA e multi-motor

Até aqui, falamos de Google. Mas a busca já não vive num ecossistema de um motor só.

Em 2026, a indexação não é mais uma relação bilateral entre seu site e o Google. O ecossistema se multiplicou para incluir buscadores tradicionais, protocolos de notificação instantânea e crawlers de inteligência artificial — e quem só aparece no Google é invisível para uma parte crescente da pesquisa que os compradores B2B fazem.

IndexNow é um protocolo de notificação instantânea que permite avisar múltiplos buscadores de uma só vez. Os números: 3,5 bilhões de URLs processadas por dia, e 18% das URLs clicadas no Bing vêm de IndexNow. Suportado por Bing, Yandex, Naver, Seznam, Yep e Amazon — o Google ainda não adotou.

A implementação exige apenas 3 passos: gerar uma API key, hospedar como arquivo .txt na raiz, e fazer um POST com as URLs alteradas — até 10.000 por request, com propagação em 10 segundos.

Os crawlers de IA são o outro lado da equação. Os dados do Cloudflare Radar (2025) são claros: o GPTBot passou de 5% para 30% do share de tráfego de crawlers em apenas um ano.

No agregado, crawlers de IA fazem 3,6 vezes mais requests que crawlers tradicionais.

É justamente isso que muda a perspectiva: permitir GPTBot, ClaudeBot, PerplexityBot e Google-Extended no seu robots.txt é agora o padrão para marcas B2B que buscam visibilidade em ChatGPT, Claude, Perplexity e AI Overviews.

Para quem quer ir além, o llms.txt é um arquivo de declaração para agentes de IA. OpenAI e Microsoft já o rastreiam ativamente; o Google diz que não é necessário. A posição recomendada: futuro a baixo custo, não requisito.

Um dado de mercado que dimensiona a oportunidade: a adoção de IA pela indústria brasileira saltou de 16,9% para 41,9% em dois anos (IBGE — Pintec Semestral 2024).

Ao mesmo tempo, apenas 53% das empresas com 10 a 49 funcionários têm site próprio (Cetic.br TIC Empresas 2024).

A configuração técnica — dados estruturados, arquitetura de links internos e abertura para crawlers de IA — é o alicerce de qualquer estratégia de visibilidade nesse cenário. Um teste A/B controlado da SearchPilot mostrou +20% de CTR em 30 dias ao adicionar dados estruturados a páginas de produto.

E schema FAQ mostrou +28% de citações em resultados de IA numa análise de 50 domínios B2B/e-commerce (Relixir, 2025).

Entender como funcionam as SERPs uma vez indexado o conteúdo completa o panorama.

Se você precisa de ajuda para implementar essa configuração técnica — do robots.txt aos dados estruturados, da arquitetura de descoberta à abertura para crawlers de IA — é isso que fazemos na InboundCycle como agência especializada em SEO, GEO e AEO.

O que fazer agora: 5 passos imediatos

A indexação não é um "configurar e esquecer". É um pipeline dinâmico que exige auditoria e controle técnico contínuo.

  • Hoje: abra o Google Search Console → Page Indexing report → identifique quantas URLs você tem em "Discovered — not indexed"
  • Hoje: revise seu robots.txt — você está bloqueando URLs importantes sem querer?
  • Esta semana: verifique se o seu sitemap.xml inclui apenas URLs canônicas com status 200
  • Este mês: se usa React, Vue ou Angular, confirme que o conteúdo principal é renderizado server-side (SSR)
  • Este mês: adicione as diretivas para crawlers de IA (GPTBot, ClaudeBot) no seu robots.txt

Em 5 projetos de conteúdo web que gerenciamos — com um total de 9,4 milhões de cliques orgânicos — a posição média passou de páginas 2-3 para página 1 em todos os casos. O primeiro passo em cada projeto foi sempre o mesmo: garantir que a infraestrutura técnica estivesse funcionando.

A busca está se fragmentando entre Google, Bing, ChatGPT, Claude e Perplexity. A indexação é o denominador comum: sem ela, nenhuma dessas portas se abre.

Perguntas frequentes

O que é indexação e para que serve?

A indexação web é o processo pelo qual o Google armazena uma cópia da sua página no seu banco de dados. Sem ela, seu site não aparece em nenhum resultado de busca. É o requisito prévio de qualquer estratégia SEO ou GEO: se não está indexado, não existe para o Google nem para os motores de IA.

O que é indexação exemplo?

Indexar uma página web significa que o Google leu e armazenou no seu índice. Exemplo: você publica uma URL, o Googlebot a descobre, rastreia, executa o JavaScript, extrai o conteúdo, escolhe a versão canônica e salva. A partir daí, essa URL pode aparecer nos resultados de busca.

Indexação e posicionamento são a mesma coisa?

Não. Indexação é o Google registrar sua página no banco de dados. Posicionamento é essa página aparecer nas primeiras posições para uma busca específica. Você pode estar indexado e não aparecer para nenhuma query relevante. Indexação é a primeira porta; posicionamento é a última.

O que é crawl budget e devo me preocupar?

O crawl budget é a quantidade de páginas que o Google pode e quer rastrear do seu site em um período determinado. O Google diz que a maioria dos sites não precisa se preocupar — só importa se você tem mais de 10.000 páginas com atualizações diárias ou mais de 1 milhão de URLs.

O que você acha? Deixe um comentário!