Spider – Die Heuschrecken des Internets

Spider Heuschrecken des InternetsEs gibt unendlich viele Webseiten und Blogs, in ihnen steckt viel Zeit, Liebe zum Metier und Arbeit. Die Betreiber sind meist Mädchen für alles. Sie müssen den Server in Ordnung halten, Seiten gestalten, Logdateien auswerten und das Wichtigste, lesenswerten Content beschaffen, immer wieder neu. Wenn dann mal Zeit bleibt, kann man sich ja mal mit PHP, HTML, CSS und Java-Script beschäftigen. Es ist ein Hobby, wie viele andere auch, es kostet Geld und fordert die/den ganze/n Frau/Mann. So freut sich jeder, der einen Blog oder Webseite hat, wenn sich mit der Zeit immer mehr Besucher bei ihm einfinden. Es entwickeln sich daraus auch manchmal nette Kontake, die man gerne pflegt.

Es kommen aber auch schweigsame Besucher, Robots von Suchmaschinen. Sie weisen sich aus, tragen einen Namen im USER_AGENT, ihre IP Nummern sind allgemein bekannt. Ohne Suchmaschinen würde uns keiner finden, so ist jeder Besuch von Googlebot, Slurp, MSNbot und einigen wenigen anderen gern gesehen. Leben Suchmaschinen und Webseitenbetreiber doch in einer fruchtbaren Symbiose. Ohne Webseiten hätten Suchmaschinen keinen Lebenszweck und ohne Suchmaschinen findet keiner eine Webseite. Diesen Robots rufen wir zu: „Herzlich Willkommen“. Wo Licht ist, da ist auch Schatten und so ist es nicht verwunderlich, dass auch Besucher kommen, bei denen der Wirt lieber die Hacken als die Schuhspitzen sieht.

Unsere unliebsamen Besucher kommen meist von weit her, aus Asien und Osteuropa, einige sind aber auch in unseren Gefilden heimisch. Sie sind alle miteinander verwandt, sie nennen sich Spider, Crawler, Robot und Spambot. Sie kommen leise, ohne Getöse, sie melden sich nicht an, sie sagen nicht Tschüß. Sie fressen in Sekunden alles was du mühsam zusammengetragen und geschrieben hast und du musst ihnen noch den notwendigen Trafic spendieren. Haben sie deine Seiten, oft Hunderte in wenigen Minuten ratzekahl gefressen, verschwinden sie wieder, wie die Heuschrecken die weiter ziehen, um einen anderen Landstrich leerzufressen. Was die räuberische Horde wohl mit deinem geistigen Eigentum anstellt? Von einigen habe ich gehört, sie blähen ihre Webseiten mit den bei dir geklauten Inhalten auf, um sie später besser verkaufen zu können. Viel Inhalt – Viel Pageranking – Viel Money.

So werden sie mehr und mehr, die modernen Heuschrecken des Internets. Sie abzuwehren kostet viel Zeit, zuviel Zeit. Zeit die jeder lieber in die Gestaltung seiner Seite stecken würde. Es ist die Zeit gekommen, sie zu verjagen. Sperrt sie aus, wo ihr könnt. Mit wenigen Zeilen in der htaccess kann man sie zum Teufel jagen – macht es – fangt an euch zu wehren!

  1. Dirk Jäckel

    Bei unerwuenschtem Robot-Besuch empfehle ich die Einrichtung einer entsprechenden /robots.txt.

    Bei mir funktioniert das schon seit Jahren zuverlässig.

    Gruss,
    Dirk

    1. Bernd

      @Dirk: Die robots.txt ist eine freiwillige Sache, die Ehrlichen halten sich daran, die Bösen latschen dorthin wohin sie möchten. Insbesondere besuchen sie gerne die in der robots.txt verbotenen Ordner. Dort habe ich auch Bottraps aufgestellt und kann sie dann entsprechend bearbeiten. Das sind im allgemeinen Spammer, die ans Gästebuch und Kontaktformular möchten.
      LG Bernd

  2. renate

    Das Buch von Dr. Fischer ist in der Tat eine interessante und informative Lektüre, lieber Bernd! Hab es mir vor einigen Monaten auf deinen Rat hin gekauft. Danke für den Tipp!

    Viele Grüße von Renate

  3. Hans Maulwurf

    „Viel Inhalt – Viel Pageranking – Viel Money.“

    Hört sich nach gefährlichem Halbwissen an, denn der PageRank hat nichts mit dem Content zu tun.
    Sicher gibt es content scraping und Adresssammler, aber auch zahlreiche andere bots mit Daseinsberechtigung. Schaut mal nach dem Projekt Bottrap, dann spart man sich das wühlen in den Logs.

    Bevor einem der Traffic in den Ruin treibt, einfach ein Paket nehmen, wo der Traffic inklusive ist oder zu Blogspot gehen.

    1. Bernd

      Dear Wühlmaus, die meine Emailadresse verstümmelt und dann benutzt.

      mein gefährliches Halbwissen habe ich u.a. aus dem Buch „Website Boosting“ von Prof. Dr. Mario Fischer bezogen und meine eigenen Erfahrungen haben seine Ausführungen bestätigt. Ich empfehle ab Seite 167 dort nachzulesen.

      Viel Inhalt – Viel Pageranking – Viel Money: ist natürlich verkürzt. Pageranking ist ein Zusammenspiel aus Dokument= Inhalt und Links auf dieses Dokument. Je bedeutender das Dokument, desto mehr und höherwertigere Links und bei Google & C0 steigt das Ansehen = steigt Pageranking.

      Auf unwichtige, hohle, leere Dokumente bekommt man kaum Links = kein Pageranking oder sinkendes.

      Zusammenfassung: Ohne Inhalt – keine Links = No Ranking
      ———————————————————————-
      Wenn alle Betreiber von Bots anständig handeln würden, wäre diese Branche nicht so verrufen.

      Die Bottrap ist nur das letzte aller Mittel, Aussperren mittels htaccess ist einfacher.

  4. renate

    Offen gestanden, lieber Bernd, verstehe ich nur „Bahnhof“. Was machen diese Spyder? Inhalte anderer Seiten klauen und auf eigenen Seiten veröffentlichen????

    Und wie geht das mit dem htacess??? Was muss man da rein schreiben?

    Ich schick dir mal (separat) den Text, der bei mir steht.

    Herzlicher Gruß von Renate

    1. Bernd

      Ich hab dir auch separat geantwortet und hoffe das nun alles unklarer ist als zuvor 🙂
      Lieben Gruß
      Bernd

Kommentare sind geschlossen.