11 hours ago, FERREIDEA said:Buenas de nuevo,
Acabo de ver en este articulo: https://help.dreamhost.com/hc/en-us/articles/216105077-How-can-I-control-bots-spiders-and-crawlers- que pueden utilizar tu archivo robots.txt como target y en vez de solucionar el problema los estamos atrayendo mas:
Cito textualmente: "
Blocking all bots (User-agent: *) from your entire site (Disallow: /) will get your site de-indexed from legitimate search engines. Also, note that bad bots will likely ignore your robots.txt file, so you may want to block their user-agent with an .htaccess file.
Bad bots may use your robots.txt file as a target list, so you may want to skip listing directories in the robots.txt file. Bad bots may also use false or misleading User-agents, so blocking User-agents with .htaccess may not work as well as anticipated."
¿Que opinais? Mejor bloquear por .htaccess como comento en tro hilo del foro?
Correcto. No solo pueden ignorar el robots.txt sino que si quieren pueden cambiar el user agent y decir que es el gogglebot, por decir alguno.
Lo mejor es bloquear por IP, por .htacess por ejemplo.