Perplexity podría estar realizando scraping en sitios que no lo autorizan

Dos investigaciones desvelan que el buscador Perplexity AI, que combina las características de los motores de búsqueda tradicionales y los chatbots, podría estar «raspando» de forma subrepticia partes de sitios web que los programadores han bloqueado expresamente para su rastreador. Una acción que, además, incumple su política de empresa. Estos análisis también muestran que el buscador presenta «alucinaciones» y resume artículos de forma inexacta con una atribución mínima.

Dos investigaciones señalan un posible engaño en su funcionamiento

El sitio de noticias Wired y el desarrollador Robb Knight han dado a conocer sendas investigaciones sobre el funcionamiento de Perplexity AI para mostrar que ignora el Protocolo de Exclusión de Robots, a pesar de incluirlo en su política de empresa. Se trata de un estándar web ampliamente aceptado para evitar que los robots accedan a ciertas partes de las páginas web que la startup, respaldada por Jeff Bezos, estaría incumpliendo.

Relacionado: Dos medidas para que los bots no accedan al contenido de tu web

Genera alucinaciones y resúmenes inexactos sin atribución clara de la fuente

Por otro lado, Perplexity IA asegura en su blog ofrecer «respuestas instantáneas y fiables a cualquier pregunta, con fuentes completas y citas incluidas», eliminando la necesidad de «hacer clic en diferentes enlaces». Sin embargo, en diferentes pruebas realizadas por Wired se ha comprobado que, en ocasiones, el chatbot parafrasea las historias y, en otras, las resume de forma inexacta y con una atribución mínima. Incluso, en un caso, atribuye falsamente a Wired una información sobre un delito cometido por un agente de policía concreto. Y no es la primera vez. La agencia AP también identificó un caso en el que el chatbot atribuyó citas falsas a personas reales.

Ignora el protocolo para bloquear los rastreadores web

En estas pruebas descubrieron que Perplexity ignoraba el código para bloquear los rastreadores web, igual que le sucedió a Knight. Los dos informes concluyeron que parecía estar accediendo a los sitios web bloqueados a través de su rastreador Perplexity Bot utilizando al menos una dirección IP (44.221.181.252) que no había hecho pública. De aquí que crean que Perplexity está «raspando» sitios web sin permiso.

Reconstruye contenido a partir de rastros como si accediera a la fuente original

Respecto a las «alucinaciones» del chatbot, las respuestas vagas y la inexactitud de otras, parece probable que, en algunos casos, Perplexity «no resuma artículos de noticias reales, sino que realice reconstrucciones de su contenido basadas en URL y rastros de ellos dejados en motores de búsqueda, como extractos y metadatos, ofreciendo resúmenes que pretenden estar basados en el acceso directo al texto relevante», indica Wired.

El CEO de Perplexity, Aravind Srinivas, ante el informe de Wired, señala que había «un malentendido profundo y fundamental sobre cómo funcionan Perplexity e Internet» por parte de los reporteros, pero no ha cuestionado los hallazgos.

Infracción deliberada de derechos de autor

Por otro lado, la IP secreta detectada en las investigaciones también ha servido para apropiarse de texto e imágenes de diferentes medios del grupo Condé Nast, al que pertenece Wired, durante los tres últimos meses. De hecho, Forbes ya ha dirigido a la compañía una carta en la que acusa a la compañía de estar cometiendo una «infracción deliberada» de los derechos de autor. En la misiva exige que reembolse a Forbes los ingresos publicitarios obtenidos por esta infracción y que proporcione pruebas satisfactorias y garantías por escrito de haber eliminado los artículos infractores, según recoge Axios.

Fuentes: Wired, Gizmodo, Axios

Índice [hide]