Der KI-Dienst Perplexity steht in der Kritik, sich nicht an etablierte Regeln zur automatisierten Datenerfassung im Internet zu halten. Wie der Netzwerk-Dienstleister Cloudflare berichtet, soll Perplexity auch dann auf Inhalte von Webseiten zugreifen, wenn diese über die Datei robots.txt ausdrücklich untersagen, von automatisierten Programmen durchsucht zu werden. Derartige Regeln dienen dazu, die Serverlast zu reduzieren oder sensible Inhalte zu schützen.In Tests konnte Cloudflare nachweisen, dass Perplexity nicht nur mit seinem offiziell deklarierten Crawler aktiv ist, sondern zusätzlich einen alternativen Zugriff über nicht näher spezifizierte IP-Adressen und manipulierte Browserkennungen nutzt.Dabei kam unter anderem ein User Agent zum Einsatz, der den Browser Google Chrome auf einem Mac nachahmt. Diese Tarnung diene offenbar dazu, Zugriffsbeschränkungen zu umgehen. Nach Angaben von Cloudflare wurden täglich mehrere Millionen solcher verdeckten Anfragen registriert.Verhalten widerspricht gängigen StandardsCloudflare sieht in der beobachteten Vorgehensweise einen klaren Verstoß gegen geltende Normen im Umgang mit automatisierten Zugriffen. Während seriöse Anbieter wie OpenAI ihre Bots eindeutig kennzeichnen, feste IP-Bereiche verwenden und sich an Zugriffsverbote halten, scheine Perplexity bewusst gegen diese Praxis zu verstoßen. In einem Vergleichstest habe OpenAIs ChatGPT die Sperranweisungen respektiert und auf weitere Zugriffsversuche verzichtet.7 von 10 Zugriffen: KI-Bots sorgen für immer höhere ServerlastenZEIT, SPIEGEL, BILD, FAZ: Kein Zugriff für Apple IntelligenceZur Überprüfung des Verhaltens hatte Cloudflare mehrere neu registrierte Testseiten erstellt, die weder öffentlich auffindbar waren noch in Suchmaschinen indexiert wurden. Trotzdem konnte Perplexity detaillierte Inhalte dieser Seiten ausgeben. Daraus schließt Cloudflare, dass eine automatisierte Erfassung trotz Sperre erfolgt sein muss.Schutzmaßnahmen für WebseitenbetreiberCloudflare hat nach eigenen Angaben technische Gegenmaßnahmen ergriffen. Neben der Entfernung von Perplexity aus der Liste verifizierter Bots wurden neue Erkennungsmuster in die Schutzsysteme integriert, um verdecktes Crawling zu unterbinden. Webseitenbetreiber, die Cloudflares Bot-Management nutzen, sollen damit bereits geschützt sein. Außerdem können Regeln eingerichtet werden, die automatisierte Zugriffe herausfiltern oder deren Nutzer zu einer Bestätigung auffordern.Der Beitrag Verdecktes Crawling: Perplexity soll sich über Zugriffsregeln hinwegsetzen erschien zuerst auf ifun.de.