Ankündigung

Einklappen
Keine Ankündigung bisher.

Probleme mit Googlebot / Wird wahrscheinlich geblockt?

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

    Probleme mit Googlebot / Wird wahrscheinlich geblockt?

    Hi,
    hat vielleicht noch jemand Probleme, dass der Googlebot geblockt wird?

    Seit dem 19.12.2019 habe ich das Problem, dass der Googlebot bei uns (eigener Reseller Server) geblockt wird.
    Aber nicht auf dem kompletten Server, sondern nur auf einer (leider die wichtigste) Domain.
    Die htaccess kann ich als Fehler völlig ausschließen - Der Bot kommt gar nicht erst nicht an.
    Ich logge mittlerweile alle 4xx Fehler und kontrolliere seit dem 20.12. täglich (teilweise stündlich) die Logs.
    Auch die Belastung des Servers ist (gerade über die Feiertage) absolut in Ordnung.
    Da läuft ein Onlineshop drauf - Aber kein PHP System, sondern ein sehr performtes CGI/Perl System mit MySQL und Memcached.
    DNS und Nameserver sind alle richtig eingestellt (hab ich gefühlt auch alles schon 100x getestet)

    Der hier -> 72.14.199.195|Mozilla/5.0 (compatible; Google-Site-Verification/1.0) kommt an
    Der hier -> 62.195.40.19|Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    kommt nicht an - 62.195. xxx ist in den LOGs von gestern genau 0x vertreten...

    im Test-Tool sieht das dann für die Domain so aus https://www.google.com/webmasters/to...s-testing-tool

    Klicken Sie bitte auf die Grafik für eine vergrößerte Ansicht

Name: Unbenannt-11.png
Ansichten: 1022
Größe: 7,8 KB
ID: 3734

    Laut Google (ich hatte das Problem im Webmaster Forum von Google geschildert) liegt es an Timeouts, bzw. Nichterreichbarkeit.

    Antwort von G. auf meine Nachfrage:
    Nun, die Sachlage sieht so aus, das der Googlebot fast immer in ein Timeout läuft. Egal ob Desktop oder Smartphonebot und eben auch beim Versuch die robots.txt zu crawlen. Passiert dieses wird der Hinweis zur robots.txt ausgegeben und das Crawling wird unterbrochen.
    Es gibt also definitiv eine Sperre, eine Blockade, eine Bremse für den Googlebot auf deiner Webseite, wie auch von uns vermutet.
    Und auch wenn du das verneinst und dein Hoster das nicht so sieht, Tatsache ist, der Bot wird, zumindest zeitweise blockiert, so das ein Timeout zustande kommt.
    Mehr kann dazu auch von G. nicht gesagt werden, denn die Ursache liegt bei dir und deinem System.


    Mit der Technik habe ich seit dem 20.12. Kontakt [#8468998]

    Da wurde ich aber erst abgewunken (liegt nicht an uns) und seit gestern (letzte Mail von gestern Morgen 7 Uhr "Wir haben diese an die entsprechende Abteilung weitergeleitet,") hab ich jetzt nix mehr gehört.

    Ich hab das Gefühl, dass es irgendwo eine automatische Blockade für 1-3 Tage gibt, die dann erstmal wieder verfällt und dann irgendwann wieder, wenn ein bestimmter Wert überschritten ist, wieder greift.

    Das ganze wird gerade richtig ärgerlich, denn ohne Zugriff auf die robots.txt, schaltet Google auch keinerlei Anzeigen wegen "Nicht verfügbarer Landingpage"!


    Gruß
    Michael




    #2
    Hallo Michael,
    ich habe gerade Deinen Beitrag gelesen und mir ist da gleich die eine IP-Adresse des Google-Bots aufgefallen:
    62.195.40.19 gehört nicht zur Google IP-Range, sondern zu dem niederländischen Provider Liberty Global B.V / Ziggo B.V. Ich gehe davon aus, dass hier jemand in dem Fall den User-agent gefaked hat und sich als vermeintlicher Google-Bot ausgibt.
    Der Google-Bot kommt meist mit IPs aus dem Bereich 66.249.x.x (vgl. IP-Ranges von Google Inc.: https://ipinfo.io/AS15169#blocks)

    Hast Du auf Deiner Webseite eine Web-Application-Firewall (WAF) laufen?
    Viele dieser WAF stellen Verbindungen zu den WAF-Servern der jeweiligen Dienstleister her und fragen ab, ob eine IP in der letzten Zeit auffällig war und blocken diese dann automatisch.

    Viele Grüße,
    Ichigo

    Kommentar


      #3
      Hi,

      >62.195.40.19 gehört nicht zur Google IP-Range, sondern zu dem niederländischen Provider Liberty Global B.V / Ziggo B.V. Ich gehe davon aus, dass hier jemand in dem Fall den User-agent gefaked hat und sich als vermeintlicher Google-Bot ausgibt.

      ah - Sorry, da hast Du absolut recht - Ich hatte eine falsche IP rausgesucht die meisten von Google fangen mit 6 an - Da hab ich mir gerade beim Copy&Paste verleiten lassen
      ...ich bin seit den Problemen _extrem_ zu viel am Rechner ^^
      Wie viele IPs ich schon überprüft und gesperrt habe .... unglaublich

      >Hast Du auf Deiner Webseite eine Web-Application-Firewall (WAF) laufen?

      Nein, genau das ist mein Problem - Irgendwo auf dem Weg von Google zu unserem Server muss die Abfrage geblockt werden.
      Ich selber blocke nur über die htaccess wenn jemand penetrant unseren Server überfährt.

      Seit 2 Wochen hab ich sogar unsere sitemaps gegen Zugriffe geschützt und logge dort die Zugriffe mit.
      Es ist Wahnsinn wer alles mit den Sitemaps was anfangen 'könnte'.
      Ich gebe die jetzt nur noch frei, wenn die Anfrage wirklich vom richtigen Host kommt.

      Das größte Problem ist, dass ich aktuell der dumme in der Mitte bin.
      DF sagt das liegt nicht an ihnen - Google sagt es liegt nicht an uns.

      Über 10 Jahre habe ich den Server jetzt bei DF und ich scheue auch ehrlich gesagt den Aufwand eines Umzuges,
      aber ich warte jetzt noch bis Morgen und dann muss ich reagieren....


      Gruß
      Michael




      Kommentar


        #4
        Du erwähnst, dass Du auch über htaccess blockst.
        Werden über die htaccess ausschließlich IPs geblockt oder sind darin auch noch andere Regeln enthalten (bspw. Umleitungen, Sperren, Zugriffsregelungen u.ä.)?
        Weitere Ideen meinerseits: Läuft Fail2ban, Apache Mod-Security o.ä.?
        Sofern möglich auch Zugriffs-Logs prüfen, die durch iptables erstellt werden.
        Soweit erstmal, was mir noch spontan eingefallen wäre,

        Viele Grüße,
        Ichigo

        Kommentar


          #5
          Hi,

          >oder sind darin auch noch andere Regeln enthalten (bspw. Umleitungen, Sperren, Zugriffsregelungen u.ä.)?

          ja - Aber reichlich gegengetestet UND seit den Problemen nicht mehr einfach geblockt, sondern intern weitergeleitet, mit dem passenden Header versehen und geloggt.
          UND auch bei allen Regeln die robots.txt ausgeschlossen ^^

          z.B (ist aber gekürzt).:

          <IfModule mod_rewrite.c>
          RewriteCond %{HTTP_USER_AGENT} ^.*(EmailCollector|SeznamBot|xxxyy|zzzzzzzmeu|zune zzzz).*$ [NC,OR]
          RewriteCond %{REQUEST_URI} !^/shop/error/.*.(php|gif)$ [NC]
          RewriteCond %{REQUEST_URI} !^/robots.txt$ [NC]
          RewriteRule ^(.*)$ https://www.meindedomain.de/shop/err....php?e=410&r=3 [L,R=308]
          </IfModule>

          Es gibt in der htaccess (zumindest nicht in der für den "öffentlichen" Teil) keine deny,allow Regel.
          Es gibt für alles Regeln die dann in die error.php laufen.
          Durch das "e=410&r=3" sehe ich dann auch welche Regel gegriffen hat.

          Normale Fehler dann auch mit
          ErrorDocument 404 /shop/error/error.php?e=404

          Das "lustige" ist ja, dass das ganze so ist, dass der Zugriff (wenn er mal zwischendurch funktioniert)
          dann 1-2 Tage völlig Problemlos ist und dann (ohne Veränderungen auf dem Server) ist dann wieder für
          mehrere Tage Schluss. Am 30 + 31.12. ging es z.B. mal wieder - Am 31.12 war dann erstmal Schluss und
          am 01.01 ging es dann für 2 Stunden und seit dem ist wieder Stille.
          Das sieht für mich wie eine automatische Sperre aus, die nach einer Zeit X wieder aufgehoben wird.

          >Weitere Ideen meinerseits: Läuft Fail2ban, Apache Mod-Security o.ä.?

          Ich denke mal nein - Ich hab nen Managed Server und keinen eigenen Apache installiert.

          >Sofern möglich auch Zugriffs-Logs prüfen, die durch iptables erstellt werden.

          Da hab ich keinen Zugriff - Ich denke mal das geht nur bei einem Root-Server - oder?

          >iptables v1.4.21: can't initialize iptables table `filter': Permission denied (you must be root)


          Gruß
          Michael




          Zuletzt geändert von Michael_M; 04.01.2020, 03:00.

          Kommentar


            #6
            Hallo Michael,
            Code:
            RewriteCond %{REQUEST_URI} !^/shop/error/.*.(php|gif)$ [NC] <- Wenn ich mich nicht irre, sollte hier dann ein [NC,[B]OR[/B]] rein
            RewriteCond %{REQUEST_URI} !^/robots.txt$ [NC]
            Da hast Du ja bereits einiges an Tests laufen lassen, um dem Problem auf den Grund zu gehen

            Da es ein Managed Server ist, würde ich ggf. den Support mal bitten, ob die Dir nicht die entsprechenden Logs zur Verfügung stellen könnten und eventuell auch die Info geben könnten, ob Fail2Ban, Mod-Security o.ä. laufen.

            Solche Zugriffsprobleme zu analysieren und der Ursache auf den Grund zu gehen, können definitiv Zeit kosten, vor allem, wenn man nicht selbst gleich auf alles an Logs und Daten unmittelbar Zugriff hat. Zugriffsprobleme durch Google können vorkommen, manchmal liegen sie auch bei Google, aber ich würde das Problem nach der Zeit nicht mehr bei Google verorten. Auffällig ist ja gerade, dass die Site-Verification möglich ist, während der Google-Bot keinen Zugriff hat.

            Du schreibst in Deinem Eingangsposting, der Google-Bot käme gar nicht erst an. Schließen wir aus, dass der Fehler bei Google liegt, könnte der Server einen Block bereits vornehmen, bevor die Anfrage den Apache erreicht. Hier wären dann tatsächlich Logs interessant, da hierbei, meine Vermutung, irgendeine Regelung (Fail2Ban, Mod-Sec) zum Block des Google-Bot geführt haben könnte.

            Weitere Faktoren: Fehlerhaftes Update des Servers, Änderungen an Systemeinstellungen uvm. - aber das ist jetzt ins Blaue hineingeraten.

            Sorry, würde Dir gerne direkt die passende Antwort / Hilfe zu Deinem Problem liefern, aber kann hier nur momentan mit Tipps und etwas Brainstorming helfen.

            Kommentar


              #7
              Hi,
              >RewriteCond %{REQUEST_URI} !^/shop/error/.*.(php|gif)$ [NC] <- Wenn ich mich nicht irre, sollte hier dann ein [NC,OR] rein
              >RewriteCond %{REQUEST_URI} !^/robots.txt$ [NC]

              Die letzten beiden will ich ja mit UND verknüpfen - Wenn Regel 1 oder 2 oder 3 UND nicht 4 UND nicht 5 Ich muss das aber auch immer nachlesen, bzw. hier lokal einmal kurz testen ;-)

              EDIT: Sehe gerade da ist ein Fehler drin, der aber dadurch resultiert, dass ich 3 Zeilen raus-genommen habe

              Code:
              <IfModule mod_rewrite.c>
              RewriteCond %{HTTP_USER_AGENT} ^.*(EmailCollector|SeznamBot|xxxyy|zzzzzzzmeu|zune zzzz).*$ [NC,OR]   #Die ODER
              RewriteCond %{HTTP_USER_AGENT} ^.*(EmailCollector|SeznamBot|xxxyy|zzzzzzzmeu|zune zzzz).*$ [NC] # Diese 
              RewriteCond %{REQUEST_URI} !^/shop/error/.*.(php|gif)$ [NC] # ABER NICHT wenn das hier aufgerufen wird
              RewriteCond %{REQUEST_URI} !^/robots.txt$ [NC] # UND NICHT wenn das hier aufgerufen wird
              RewriteRule ^(.*)$ [URL="https://www.meindedomain.de/shop/error/error.php?e=410&r=3"]https://www.meindedomain.de/shop/err....php?e=410&r=3[/URL] [L,R=308]
              </IfModule>
              Mit den Zeilen oben müsste das so passend sein

              >Sorry, würde Dir gerne direkt die passende Antwort / Hilfe zu Deinem Problem liefern, aber kann hier nur momentan mit Tipps und etwas Brainstorming helfen.


              Danke trotzdem für den Input! Manchmal übersieht man ja einen Punkt.
              Ich mach den Kram zwar schon 20 Jahre (aber ausschließlich autodidaktisch), aber bei dem Problem bekomme ich gerade graue Haare.

              Gruß
              Michael
              Zuletzt geändert von Michael_M; 04.01.2020, 03:35.

              Kommentar


                #8
                Mir ist gerade beim nochmaligen Lesen einer der Beiträge folgendes aufgefallen:
                Das "lustige" ist ja, dass das ganze so ist, dass der Zugriff (wenn er mal zwischendurch funktioniert)
                dann 1-2 Tage völlig Problemlos ist und dann (ohne Veränderungen auf dem Server) ist dann wieder für
                mehrere Tage Schluss. Am 30 + 31.12. ging es z.B. mal wieder - Am 31.12 war dann erstmal Schluss und
                am 01.01 ging es dann für 2 Stunden und seit dem ist wieder Stille.
                Das sieht für mich wie eine automatische Sperre aus, die nach einer Zeit X wieder aufgehoben wird.
                Das wäre für mich ein interessanter Hinweis, der für fail2ban sprechen könnte. Hier werden Blocks i.d.R. für einen vordefinierten Zeitraum x Minuten/Stunden vorgenommen und danach wird die IP dann wieder freigegeben bis wieder ein Trigger den Block auslöst.

                Ich mach den Kram zwar schon 20 Jahre (aber ausschließlich autodidaktisch), aber bei dem Problem bekomme ich gerade graue Haare.
                Bin auch einer dieser Autodidakten und kann Dich gut verstehen, manchmal gibt es Probleme, die einen gewaltig grübeln lassen.

                Ich werde mich dann mal langsam in die Koje begeben, wünsche Dir aber noch viel Erfolg beim Forschen. Denke aber auch an Deine Gesundheit und schlage Dir nicht die Nacht um die Ohren (soll keine Belehrung sein, aber aus eigener Erfahrung kann ich nur sagen, die Gesundheit ist das wichtigste Gut! )

                Kommentar


                  #9
                  OK - Das macht alles keinen Sinn mehr

                  Ich hab jetzt 3 Wochen damit verbraten eine Lösung für das Problem zu finden, was definitiv _VOR_ unserem Server zu suchen ist.

                  Da aber seit dem 20.12.19 keiner in der Lage ist es zu finden bin ich nach über 10 Jahren dann mal raus.
                  Vielleicht soll es einfach so sein .....

                  Gruß
                  Michael



                  Kommentar

                  Lädt...
                  X