¿Sabes cómo proteger tu sitio web de bots y entrenadores de inteligencia artificial? A continuación explicamos dos formas estándar que pueden parecer técnicas, pero son en realidad muy sencillas.
«robots.txt» y meta tags
Si tu sitio web es propiedad privada, estos textos son señales de «prohibido el paso». No serán visibles en tu sitio web pero su propósito no es que las lean humanos, sino bots.
Algunas consideraciones importantes a tener en cuenta:
- El respeto por estas etiquetas depende del bot que acceda a tu sitio. Obedecerlas es voluntario. Los bots legítimos como los de Google generalmente respetan estas etiquetas, pero los rastreadores maliciosos pueden ignorarlas.
- Como los bots de buscadores también leen estas señales, el uso de robots.txt y las etiquetas noindex, nofollow puede impactar a la visibilidad y el SEO de tu sitio. Evita que las páginas se indexen y que se rastreen los enlaces. En el último punto de este artículo hablamos de qué hacer si quieres que tu contenido se indexe pero no que se use para entrenamiento de IAs.
Cómo añadir un archivo «robots.txt»
Explicación sencilla en dos pasos:
- Añade un archivo de texto plano llamado «robots.txt» en la raíz de tu dominio. Por ejemplo: www.miportfolio.com/robots.txt
- Este fichero de texto plano debe indicar las secciones de tu página que deseas proteger.
Por ejemplo, si quieres ocultar de cualquier bot el contenido de una sección llamada «privado», el .txt debe contener este texto:
User-agent: * Disallow: /privado/
Si quieres que Google y/o Bing sí tengan acceso (porque quieres que el contenido se indexe en sus buscadores) pero ningún otro bot, puedes copiar y pegar los párrafos correspondientes de aquí:
User-agent: Bingbot Disallow: User-agent: Googlebot Disallow: User-agent: * Disallow: /
Para información más detallada, recomendamos consultar la guía de Google: Introducción a los archivos robots.txt.
Cómo añadir meta tags noindex y nofollow
Otra alternativa es usar etiquetas meta en el HTML de tu página. Si puedes acceder al HTML, sigue estos pasos:
- Busca las etiquetas <head></head> de cada página que quieres proteger de bots.
- Entre estas etiquetas html, copia y pega lo siguiente: <meta name=»robots» content=»noindex, nofollow»>
El resultado quedaría más o menos así:
<!DOCTYPE html> <html> <head> <title>Tu Título de Página</title> <meta name="robots" content="noindex, nofollow"> <!-- Otras etiquetas de tu página --> </head> <body> <!-- Contenido de tu página --> </body> </html>
¿Y si quieres que tu contenido se indexe, pero no que se use para entrenamiento de IA?
Todavía no existe un estándar reconocido ni un meta tag específico que comunique «no rascar» a los bots de rastreo. Una opción es utilizar declaraciones claras y visibles en el sitio web, especificando las condiciones de uso del contenido. Por ejemplo:
«El contenido de este sitio está disponible para fines de indexación y visualización en buscadores. Sin embargo, queda estrictamente prohibido el uso de cualquier contenido de este sitio, incluyendo imágenes, textos y cualquier otro material, para el entrenamiento de modelos de inteligencia artificial o cualquier otra forma de rascado de datos sin el consentimiento explícito y por escrito del autor.»
Combinar este tipo de declaraciones legales con medidas técnicas como el uso de `robots.txt` y meta tags puede ofrecer una capa adicional de protección y claridad sobre tus intenciones y restricciones respecto al uso de tu contenido. Aunque esto no garantiza el cumplimiento por parte de los bots malintencionados, puede servir como una base legal para proteger los derechos de autor y tomar acciones contra el uso no autorizado del contenido.