AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / server / Perguntas / 1170223
Accepted
David Christian
David Christian
Asked: 2025-01-16 23:49:59 +0800 CST2025-01-16 23:49:59 +0800 CST 2025-01-16 23:49:59 +0800 CST

É possível corresponder duas regras de proibição diferentes em robots.txt, uma por curinga e outra por nome?

  • 772

Tenho um arquivo robots.txt que se parece com isto:

    User-agent: *
    Disallow: /account/
    Disallow: /captcha/
    Disallow: /checkout/
    
    User-agent: DataForSeoBot
    Disallow: /p-

    User-agent: UptimeRobot
    Disallow: /p-

Tenho dezenas de arquivos e pastas na minha regra de proibição de curinga. Então, quero bloquear adicionalmente o acesso a URLs que começam com /p- para rastreadores específicos como o DataForSeoBot. Antes de adicionar a regra específica para o DataForSeo, ele estava vendo a longa lista de URLs na minha regra de curinga. Depois que adicionei essa regra específica adicional pelo nome do bot, a ÚNICA regra de proibição que o DataForSeoBot agora vê é a /p-. Eles estão lendo o arquivo robots.txt incorretamente ou eu não o escrevi incorretamente? Espero não ter que repetir a primeira regra inteira para cada rastreador que também quero proibir /p-, pois há cerca de uma dúzia deles. Também tentei mover a regra específica por nome para o topo antes da regra de curinga, mas não fez diferença.

Estou testando usando o recurso no site deles para ver como eles estão lendo o arquivo robots.txt.

DadosForSeo robots.txt

web-crawler
  • 1 1 respostas
  • 31 Views

1 respostas

  • Voted
  1. Best Answer
    Esa Jokinen
    2025-01-17T01:10:04+08:002025-01-17T01:10:04+08:00

    Ambiguidade no padrão

    O Padrão Proposto RFC 9309: Protocolo de Exclusão de Robôs afirma na seção 2.2.1 que:

    Se houver mais de um grupo correspondente ao agente do usuário, as regras dos grupos correspondentes DEVEM ser combinadas em um grupo e analisadas de acordo com a Seção 2.2.2 .

    Isso define que as regras para correspondência de agentes de usuário *(todos os agentes de usuário) seriam combinadas para todos os agentes de usuário, apesar de haver uma user-agentlinha com uma correspondência mais específica.

    No entanto, acho isso ambíguo, pois continua:

    Se não houver nenhum grupo correspondente, os rastreadores DEVEM obedecer ao grupo com uma linha de agente do usuário com o valor "*", se presente.

    Isso sugere que o user-agent: *poderia ter algum significado especial que não se enquadrava no "DEVE ser combinado" afinal. Por que a frase estaria lá em primeiro lugar, se *já corresponde a todos os user-agents e todos os user-agents correspondentes teriam que ser combinados? Além disso, os exemplos na seção 5.1 são escritos de uma forma que suporta essa interpretação.

    Também pode sempre haver interpretações errôneas em implementações. Por exemplo, deve-se ter muito cuidado com a correspondência mais longa na seção 5.2 ; é um requisito para correspondência de URLs e somente URLs. O requisito para combinar user-agents correspondentes é bem o oposto.

    Uma solução prática

    Se quiser ter certeza de que a maioria das implementações obterá o resultado esperado, você pode sempre ser mais explícito do que o protocolo exige e listar todos os caminhos comuns não permitidos novamente para cada grupo correspondente.

    User-agent: *
    Disallow: /account/
    Disallow: /captcha/
    Disallow: /checkout/
    
    User-agent: DataForSeoBot
    Disallow: /p-
    Disallow: /account/
    Disallow: /captcha/
    Disallow: /checkout/
    
    User-agent: UptimeRobot
    Disallow: /p-
    Disallow: /account/
    Disallow: /captcha/
    Disallow: /checkout/
    
    • 0

relate perguntas

  • Como os sites detectam bots por trás de proxies ou redes corporativas

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Você pode passar usuário/passar para autenticação básica HTTP em parâmetros de URL?

    • 5 respostas
  • Marko Smith

    Ping uma porta específica

    • 18 respostas
  • Marko Smith

    Verifique se a porta está aberta ou fechada em um servidor Linux?

    • 7 respostas
  • Marko Smith

    Como automatizar o login SSH com senha?

    • 10 respostas
  • Marko Smith

    Como posso dizer ao Git para Windows onde encontrar minha chave RSA privada?

    • 30 respostas
  • Marko Smith

    Qual é o nome de usuário/senha de superusuário padrão para postgres após uma nova instalação?

    • 5 respostas
  • Marko Smith

    Qual porta o SFTP usa?

    • 6 respostas
  • Marko Smith

    Linha de comando para listar usuários em um grupo do Windows Active Directory?

    • 9 respostas
  • Marko Smith

    O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL?

    • 3 respostas
  • Marko Smith

    Como determinar se uma variável bash está vazia?

    • 15 respostas
  • Martin Hope
    Davie Ping uma porta específica 2009-10-09 01:57:50 +0800 CST
  • Martin Hope
    kernel O scp pode copiar diretórios recursivamente? 2011-04-29 20:24:45 +0800 CST
  • Martin Hope
    Robert ssh retorna "Proprietário incorreto ou permissões em ~/.ssh/config" 2011-03-30 10:15:48 +0800 CST
  • Martin Hope
    Eonil Como automatizar o login SSH com senha? 2011-03-02 03:07:12 +0800 CST
  • Martin Hope
    gunwin Como lidar com um servidor comprometido? 2011-01-03 13:31:27 +0800 CST
  • Martin Hope
    Tom Feiner Como posso classificar a saída du -h por tamanho 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich O que é um arquivo Pem e como ele difere de outros formatos de arquivo de chave gerada pelo OpenSSL? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent Como determinar se uma variável bash está vazia? 2009-05-13 09:54:48 +0800 CST

Hot tag

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve