Google Webmaster-Zentrale Blog: robots.txt

Bessere Analyse von Webseiten

Posted: Freitag, 23. Mai 2014

Im Jahr 1998 standen unsere Server noch in Susan Wojcickis Garage und wir machten uns keine großen Gedanken über JavaScript oder CSS. Beide wurden kaum verwendet bzw. JavaScript wurde damals genutzt, um Seitenelemente blinken zu lassen! Seither hat sich viel verändert. Im Web gibt es zahlreiche komplexe, dynamische Websites, die JavaScript in großem Umfang einsetzen. In diesem Blogpost erläutern wir unser Verfahren zum Rendern umfangreicherer Websites, d. h., wir rufen eure Inhalte jetzt mehr wie moderne Webbrowser ab, einschließlich externer Ressourcen, führen JavaScript aus und wenden CSS an.

Ursprünglich haben wir uns nur die reinen Textinhalte angesehen, die wir in HTTP-Antworten erhielten, und haben nicht analysiert, was ein typischer Browser abrufen würde, der JavaScript ausführt. Als es dann immer mehr Seiten gab, auf denen wertvolle Inhalte mit JavaScript gerendert wurden, konnten wir diese den suchenden Nutzern nicht anzeigen. Das war sowohl für die Suchenden als auch für die jeweiligen Webmaster ein Nachteil.

Um dieses Problem zu beheben, beschlossen wir, auszuprobieren, ob die Analyse der Seiten durch das Ausführen von JavaScript möglich sei. Dieses Vorgehen ist beim aktuellen Umfang des Webs recht schwierig, aber wir waren der Ansicht, dass es einen Versuch wert sei. Wir haben dieses Verfahren im Laufe der Zeit schrittweise verbessert. In den letzten Monaten hat unser Indexierungssystem eine große Anzahl an Webseiten beinahe wie einnormaler Nutzer gerendert, der einen Browser mit aktiviertem JavaScript verwendet.

Manche Abläufe beim Rendern sind nicht perfekt und können die Suchergebnisse für eure Websites beeinträchtigen. Im Folgenden findet ihr einige potenzielle Probleme und – sofern verfügbar – auch Vorschläge, wie ihr diese verhindern könnt:

Wenn Ressourcen wie JavaScript oder CSS in separaten Dateien blockiert werden, z. B. in robots.txt, damit der Googlebot sie nicht abrufen kann, kann unser Indexierungssystem eure Websites nicht wie ein normaler Nutzer abrufen. Wir empfehlen daher, dem Googlebot das Abrufen von JavaScript und CSS zu gestatten, damit eure Inhalte besser indexiert werden. Das ist insbesondere bei mobilen Websites wichtig, bei denen externe Ressourcen wie CSS und JavaScript unseren Algorithmen anzeigen, dass die Seiten für Mobilgeräte optimiert sind.
Sollte euer Webserver die hohe Anzahl von Crawling-Anfragen für Ressourcen nicht verarbeiten können, werden eure Seiten von uns möglicherweise nicht korrekt gerendert. Um sicherzustellen, dass eure Seiten von Google gerendert werden können, müssen eure Server die Crawling-Anfragen für Ressourcen verarbeiten können.
Idealerweise sollte eure Website auch auf Fehler und unerwartet auftretende Ereignisse angemessen reagieren (Graceful Degradation). Dadurch können Nutzer auf eure Inhalte auch dann zugreifen, wenn sie in ihren Browsern keine kompatiblen JavaScript-Implementierungen verwenden. Dieses Vorgehen hilft auch Websitebesuchern, die JavaScript deaktiviert haben, und Suchmaschinen, die noch kein JavaScript ausführen können.
In einigen Fällen ist JavaScript unter Umständen zu komplex, sodass wir die Seite nicht vollständig und korrekt rendern können.
Manche JavaScript-Implementierungen entfernen Inhalte von der Seite, statt sie hinzuzufügen, weshalb wir diese Inhalte dann nicht indexieren können.

Um das Debugging zu vereinfachen, entwickeln wir momentan ein Tool, das Webmastern ein besseres Verständnis vermitteln soll, wie Google ihre Websites rendert. Es sollte in den nächsten Tagen in den Webmaster-Tools verfügbar sein. Antworten auf Fragen findet ihr in unserem Forum für Webmaster.

Post von Michael Xu, Software Engineer, und Kazushi Nagayama, Webmaster Trends Analyst
(Veröffentlicht von Johannes Mehlem, Search Quality Team)

GET- vs. POST-Methode und die Erfassung von mehr Inhalten im Web

Posted: Donnerstag, 10. November 2011

Google muss seine Crawling- und Indexierungsmethoden an die ständige Weiterentwicklung des Webs anpassen. Wir haben die Indexierung von Flash verbessert, eine robustere Infrastruktur namens Caffeine aufgebaut und in bestimmten Fällen sogar damit angefangen, Formulare zu crawlen. Da sich JavaScript und AJAX im Web immer größerer Beliebtheit erfreuen, stoßen wir zunehmend auf Webseiten, für die POST-Anforderungen eingesetzt werden müssen. Das gilt entweder für den gesamten Seiteninhalt oder ist erforderlich, weil auf den Seiten Informationen fehlen bzw. diese Seiten ohne die über eine POST-Anforderung ausgegebenen Ressourcen unbrauchbar dargestellt werden. Bei der Google-Suche entstehen dadurch natürlich Nachteile. Wenn wir Schwierigkeiten haben, Inhalte zu finden und zu indexieren, können wir Nutzern nicht die umfassendsten und relevantesten Ergebnisse präsentieren.

Grundsätzlich empfehlen wir die GET-Methode, um die für eine Seite erforderlichen Ressourcen abzurufen. Sie ist unsere bevorzugte Crawling-Methode. Wir haben Versuche unternommen, POST-Anforderungen in GET-Anforderungen umzuschreiben. Das funktioniert in manchen Fällen, häufig sind die vom Webserver ausgegebenen Inhalte für GET und POST allerdings vollkommen unterschiedlich. Es gibt natürlich gute Gründe, die POST-Methode zu verwenden. Beispielsweise könnt ihr zu einer POST-Anforderung mehr Daten hinzufügen als zu einer GET-Anforderung. GET-Anforderungen werden zwar häufiger verwendet. Um mehr Inhalte im Web zu erfassen, kann der Googlebot jedoch nun POST-Anforderungen verarbeiten, wenn wir davon überzeugt sind, dass dieser Vorgang sicher abläuft und angebracht ist.

Wir vermeiden bei einer Website sämtliche Schritte, die zu einer ungewollten Aktion seitens der Nutzer führen könnten. Unsere POST-Anforderungen setzen wir vor allem dazu ein, Ressourcen zu crawlen, die eine Seite automatisch anfordert. Im Prinzip wird dabei die Anzeige nachgeahmt, die auch Nutzer in ihrem Browser sehen. Mit einer besseren Heuristik wird sich dieser Prozess im Laufe der Zeit weiterentwickeln, aber das ist unsere aktuelle Vorgehensweise.

Wir möchten euch an einigen Szenarien für POST-Anforderungen zeigen, wie wir unsere Crawling- und Indexierungsmethoden an die Weiterentwicklung des Web anpassen.

Beispiele für POST-Anforderungen vom Googlebot

Crawlen einer Seite über eine POST-Weiterleitung

Crawlen einer Ressource über eine POST-XMLHttpRequest-Anforderung

<html>
<head>
<title>Leckerer Eisbecher</title>
<script src="jquery.js"></script>
</head>
<body>
Auf dieser Seite geht es um einen leckeren Eisbecher.
<div id="content"></div>
<script type="text/javascript">
$(document).ready(function() {
$.post('karamellsosse-info.html', function(data)
{$('#content').html(data);});
});
</script>
</body>
</html>

So kann eure Website besser gecrawlt und indexiert werden

unserer Hilfe

Verwendet die GET-Methode für den Abruf von Ressourcen, es sei denn, ihr müsst aus einem bestimmten Grund zur POST-Methode greifen.

Bestätigt, dass wir die Ressourcen crawlen dürfen, die zur Darstellung eurer Seite erforderlich sind. Wenn im oben stehenden Beispiel karamellsosse-info.html durch eine robots.txt-Datei blockiert wird, wird sie vom Googlebot nicht abgerufen. Genauer gesagt: Wenn der JavaScript-Code, der die XMLHttpRequest-Anforderung sendet, in einer externen JS-Datei hinterlegt ist und diese Datei von einer robots.txt-Datei blockiert wird, können wir nicht erkennen, dass zwischen leckerer-eisbecher.html und karamellsosse-info.html ein Zusammenhang besteht. In diesem Fall haben wir also Schwierigkeiten, selbst wenn karamellsosse-info.html nicht direkt blockiert ist. Im Web sind uns sogar schon viel kompliziertere Verkettungen von Abhängigkeiten untergekommen. Google kann eure Website besser erfassen, wenn ihr dem Googlebot erlaubt, alle Ressourcen zu crawlen.

Webmaster-Tools Labs

Vorschau

Stellt sicher, dass an den Googlebot der gleiche Inhalt ausgegeben wird, den Nutzer auch in ihrem Webbrowser sehen. Beim Cloaking werden unterschiedliche Inhalte an den Googlebot und an die Nutzer gesendet. Diese Methode verstößt gegen unsere Richtlinien für Webmaster, da sie unter anderem dazu führen kann, dass wir nicht relevante Ergebnisse an Nutzer der Google-Suche ausgeben. In diesem Fall werden Nutzern in ihrem Browser vollkommen andere Inhalte angezeigt als die, die wir gecrawlt und indexiert haben. Wir haben bei zahlreichen POST-Anforderungen festgestellt, dass Webmaster unabsichtlich Cloaking eingesetzt haben. Doch auch dann handelt es sich um einen Verstoß. Das Cloaking führte selbst bei minimalen Abweichungen zu JavaScript-Fehlern, die eine präzise Indexierung unmöglich machten, und das Cloaking somit seinen Zweck vollkommen verfehlte. Zusammengefasst heißt das also, dass ihr einen großen Bogen um Cloaking machen solltet, wenn ihr eure Website für die Google-Suche optimieren möchtet.

Mit der Vorschau

Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)

Denkt daran, wichtige Inhalte, also Inhalte, die indexiert werden sollen, als Text einzufügen, der direkt auf der Seite zu sehen ist und angezeigt wird, ohne dass Schritte seitens der Nutzer erforderlich sind. Die meisten Suchmaschinen basieren auf Texten und funktionieren deshalb am besten mit textbasierten Inhalten. Wir arbeiten ständig daran, unsere Crawling- und Indexierungsmethoden auf verschiedenste Art und Weise zu verbessern. Trotzdem bleibt es eine verlässliche Strategie, wichtige Informationen als Text einzufügen.

So kontrolliert ihr eure Inhalte

robots.txt-Datei

Vorschau-FAQ

Es geht voran

Hilfe-Forum zur Verfügung.

Autor: Pawel Aleksander Fedorynski, Software Engineer, Indexing Team, und Maile Ohye, Developer Programs Tech Lead (Veröffentlicht von Dominik Zins, Search Quality)

Mühelos Zeit sparen mit "Status der Website"

Posted: Montag, 10. Oktober 2011

Wir hören immer wieder von Webmastern, dass sie bei ihrer Zeiteinteilung Prioritäten setzen müssen. Einige verwalten dutzende oder sogar hunderte Websites für Kunden. Andere hingegen leiten ihr eigenes Unternehmen und haben zwischen Finanzfragen und Inventarangelegenheiten nur eine knappe Stunde für die Pflege der Website übrig. Um euch dabei zu helfen, euch auf die wichtigen Probleme zu fokussieren, führt Webmaster-Tools das Konzept "Status der Website" ein. Wir haben die Startseite von Webmaster-Tools umstrukturiert, um Websites hervorzuheben, die Statusprobleme haben. Damit könnt ihr auf einen Blick sehen, worauf ihr euch zunächst konzentrieren müsst, ohne dass ihr erst alle Berichte zu jeder einzelnen Website in Webmaster-Tools durchgehen müsst.

So sieht die neue Startseite aus:

Wie ihr seht, werden Websites mit Statusproblemen

in der Liste ganz oben angezeigt. (Ihr könnt jederzeit zur alphabetischen Liste der Websites zurückkehren, wenn ihr diese Reihenfolge bevorzugt.) Um die spezifischen Probleme einer Website anzuzeigen, klickt auf das Symbol für den Status der Website oder auf den Link "Status der Website überprüfen" neben der entsprechenden Website:

Diese Homepage ist derzeit nur verfügbar, wenn ihr 100 oder weniger Websites in eurem Webmaster-Tools Asccount habt (unabhängig davon, ob die Seiten bestätigt sind oder nicht). Wir arbeiten daran, diese Änderung für alle Seiten verfügbar zu machen. Wenn ihr mehr als 100 Websites habt, könnt ihr den Status dieser oben im Dashboard der einzelnen Seiten sehen.

Im Moment erfasst die Statusprüfung für eure Website drei Probleme:
1. Wurde Malware auf der Website gefunden?
2. Wurden wichtige Seiten mit unserem Tool zum Entfernen von URLs entfernt?
3. Ist das Crawlen wichtiger Seiten über "robots.txt" blockiert?
Ihr könnt auf die Einträge klicken, um unsere Ergebnisse zu eurer Website im Detail einzusehen. Wenn das Symbol für den Status der Website und der Link "Status der Website überprüfen" nicht neben dem Namen der Website erscheint, haben wir auf dieser Website keine solchen Probleme festgestellt (Gratulation!).

Ein Wort noch zu "wichtigen Seiten": Wie ihr wisst, könnt ihr eine vollständige Liste aller entfernten URLs über "Website-Konfiguration" > "Crawler-Zugriff" > "URL entfernen" erhalten. Außerdem seht ihr über "Diagnose" > "Crawling-Fehler" > "Durch robots.txt gesperrt" alle URLs, die wir wegen "robots.txt" nicht crawlen konnten. Da Webmaster Inhalte häufig absichtlich blockieren oder entfernen, sollen mögliche Statusprobleme nur angezeigt werden, wenn wir glauben, ihr habt eine Seite versehentlich blockiert oder entfernt. Deshalb konzentrieren wir uns auf die "wichtigen Seiten". Im Moment beurteilen wir die Wichtigkeit einer Seite danach, wie viele Klicks auf sie entfallen (zu finden unter "Ihre Website im Web" > "Suchanfragen"). Im Rahmen der Weiterentwicklung unserer Statusprüfungen fügen wir möglicherweise weitere Faktoren hinzu.

Diese drei Probleme, nämlich Malware, entfernte URLs und blockierte URLs, sind nicht die einzigen Faktoren, die den Status einer Website negativ beeinflussen können. Wir hoffen, unsere Prüfungen zur Feststellung des Status einer Website in Zukunft weiter ausbauen zu können. Natürlich ist nichts so wertvoll, wie euer eigenes Urteilsvermögen und Wissen, was auf eurer Website passiert. Wir hoffen jedoch, dass ihr mit diesen Veränderungen schneller wichtige Probleme auf euren Websites erkennt, ohne alle Daten und Berichte durchforsten zu müssen.

Nachdem ihr alle aufgezeigten Statusprobleme für eine Website ausgeräumt habt, dauert es normalerweise mehrere Tage, bis der Warnhinweis nicht mehr im Webmaster-Tools-Konto angezeigt wird. Das liegt daran, dass wir die Seite erneut crawlen müssen, eure Veränderungen registrieren und dann diese Informationen erst in Google Websuche und Webmaster-Tools verarbeiten müssen. Wenn nach rund einer Woche weiterhin ein Warnhinweis zum Status der Website angezeigt wird, ist das Problem unter Umständen nicht gelöst. Ihr könnt gerne in unserem Webmaster-Hilfeforum um Hilfe zum Auffinden des Problems bitten... und uns eure Meinung mitteilen!

Gepostet von Susan Moskwa, Webmaster Trends Analyst (Veröffentlicht von Dominik Zins, Search Quality)

Google News crawlt jetzt mit dem Googlebot

Posted: Dienstag, 27. September 2011

Google News hat kürzlich seine Infrastruktur verbessert und crawlt nun mit dem Googlebot, dem primären User-Agent von Google. Was bedeutet das? Für die meisten Publisher bringt dies keine großen Veränderungen mit sich. Nachrichtenanbieter können sich immer noch jederzeit aus Google News abmelden. Google News akzeptiert auch weiterhin den Eintrag unseres ehemaligen User-Agents Google News, wenn dieser restriktivere Einstellungen aufweist, als der robots.txt-Eintrag für den Googlebot.

In unserer Hilfe erhaltet ihr eine detaillierte Anleitung zur Verwendung des Robots-Ausschlussprotokolls für Google News. Publisher können sich bei Fragen mit dem Google News-Support-Team in Verbindung setzen. Zuerst möchten wir jedoch Folgendes anmerken:

Obwohl in den Protokollen eurer Website nur noch der Googlebot-User-Agent zu sehen ist, ist die Anzeige des Googlebots anstelle des Googlebot-News unabhängig von unseren Richtlinien. Mit einer Suche mit dem Operator "site:" könnt ihr jederzeit überprüfen, ob eure Website in Google News enthalten ist. Gebt ihr in das Suchfeld von Google News beispielsweise "site:eurenewssite.com" ein und euch werden Ergebnisse angezeigt, wird eure Nachrichten-Website derzeit von uns indexiert.
Über euer Analysetool wird weiterhin unterschieden, ob Nutzer über die Google-Suche oder über Google News auf eure Website zugreifen. Diesbezüglich gibt es also keine Änderungen. Der Hauptunterschied besteht darin, dass euch keine gelegentlichen automatisierten Besuche eurer Website vom Googlebot-News-Crawler angezeigt werden.
Wenn ihr derzeit unsere Googlebot-Richtlinien befolgt, müsst ihr keine Code-Änderungen an eurer Website vornehmen. Für Websites, die gebührenpflichtige Abonnements oder First Click Free implementiert haben, ergeben sich keine Änderungen. Für Websites, auf denen vor dem Lesen eines vollständigen Artikels eine Registrierung, Zahlung oder Anmeldung erforderlich ist, kann Google News nur die Titel und Snippets crawlen und indexieren, die allen Besuchern eurer Website angezeigt werden. In unseren Richtlinien für Webmaster findet ihr zusätzliche Informationen zum Thema "Cloaking", der unterschiedlichen Präsentation einer Website für den Bot und den Nutzer. Weitere Informationen über Google News und Abonnement-Publisher findet ihr in diesem Hilfeartikel.
Keine Sorge, eure Sitemap wird weiterhin gecrawlt. Diese Änderung betrifft nicht das Crawlen von News-Sitemaps. Publisher in Google News, die noch keine News-Sitemap eingerichtet haben, jedoch Interesse daran haben, finden weitere Informationen über diesen Link.
Publisher, die sich aus Google News abmelden, die Google-Suche jedoch weiterhin nutzen möchten, können den Googlebot-News ausschließen und dem Googlebot den Zugriff erlauben. Weitere Informationen hierzu findet ihr in unserer Hilfe.

Wie jede andere Website müssen wir auch die Infrastruktur von Google News gelegentlich aktualisieren. Gleichzeitig möchten wir aber weiterhin eine optimale Kontrolle der Nachrichten-Websites ermöglichen. Wir hoffen, alle Fragen zu diesem Update beantwortet zu haben. Weitere Informationen erhalten ihr in unserer Hilfe.

Autor: David Smydra, Google News Product Specialist (Veröffentlicht von Dominik Zins, Search Quality)

Neues robots.txt-Feature und REP Meta-Tags

Posted: Freitag, 17. August 2007

Wir haben unser robots.txt-Analyse-Tool in der Webmaster-Zentrale verbessert mit dessen Hilfe man Sitemapsangaben und relative Urls erkennen kann. Frühere Versionen berücksichtigten Sitemaps in keiner Weise und konnten nur absolute Urls interpretieren. Alles andere erzeugte die Meldung "Syntax nicht verstanden".

Diese Fehlermeldungen haben wir auch verbessert. Sofern mehrere Fehler existieren, bekommt ihr diese nun alle in einer Zeile angezeigt, im Gegensatz zu früheren Versionen, die jeweils nur den ersten Fehler ausgaben. Ebenso haben wir andere allgemeine Verbesserungen an der Analyse und der Validierung vorgenommen.

Stellt euch vor, ihr seid für die Domain www.example.com verantwortlich, und ihr möchtet, dass die Suchmaschine eure gesamte Website mit Ausnahme des Ordners /images indexiert. Zudem wollt ihr sicherstellen, dass eure Sitemap berücksichtigt wird und gebt dementsprechend Folgendes in eurer robots.txt-Datei an:

disalow images

user-agent: *
Disallow:

sitemap: http://www.example.com/sitemap.xml

Ihr geht zur Webmaster-Zentrale, um eure Website gegen das robots.txt-Analyse-Tool zu testen, wobei ihr diese beiden Urls benutzt:

http://www.example.com
/archives

Ältere Versionen dieses Tools hätten folgende Meldung ausgegeben:

Die verbesserte Version gibt mehr Informationen über die robots.txt-Datei:

Probiert es selbst in den Webmaster-Tools.

Ebenso wollen wir sicherstellen, dass ihr von dem neuen unavailable_after Meta-Tag gehört habt, den Dan Crow vor einigen Wochen im Official Google Blog vorgestellt hat. Dieser Tag erlaubt eine dynamischere Beziehung zwischen eurer Website und dem Googlebot. Das bedeutet, wenn ihr zum Beispiel auf www.example.com eine nur vorübergehend veröffentlichte Nachricht habt oder eine Seite mit nur begrenzt erhältlichen Angeboten oder Promotions, dann könnt ihr jetzt exakt das Datum und die Zeit festlegen, wann der Googlebot bestimmte Seiten von euch crawlen und indexieren soll.

Angenommen, ihr habt eine Promotion laufen, die Ende 2007 zu Ende ist. Im Header der Seite www.example.com/2007promotion.html würdet ihr dann Folgendes festlegen:

<META NAME="GOOGLEBOT"
CONTENT="unavailable_after: 31-Dec-2007 23:59:59 EST">

Die zweite interessante Neuigkeit: Eine neue robots.txt-Richtlinie, die beinhaltet, dass nun das Robots Exclusion Protocol (REP) Meta-Tag auch für Nicht-HTML-Seiten unterstützt wird! Damit könnt ihr nun eure Videos, Spreadsheets und andere indexierte Dateitypen in derselben Weise kontrollieren. Um auf das oben genannte Beispiel zurückzukommen, lasst uns annehmen, eure Promotionsseite ist im PDF-Format. Für www.example.com/2007promotion.pdf würdet ihr Folgendes verwenden:

X-Robots-Tag: unavailable_after: 31 Dec
2007 23:59:59 EST

Denkt daran, dass REP META-Tags hilfreich beim Implementieren von noarchive, nosnippet and jetzt auch unavailable_after Tags sein können, um Anweisungen auf Seitenebene geben. Im Gegensatz dazu setzt das robots.txt an der Domainebene an. Diese Features haben wir auf Anfragen von Bloggern und Webmastern eingebaut - habt also Spaß damit. Sofern ihr andere Vorschläge habt: lasst es uns wissen! Noch Fragen? Bitte stellt diese in der Google Diskussiongruppe für Webmaster.

Original

Post von John Blackburn, Webmaster Tools and Matt Dougherty, Search Quality
(Übersetzung von Claudia, Search Quality)

Ihr möchtet Inhalte aus unserem Index entfernen?

Posted: Dienstag, 24. April 2007

Als Besitzer einer Website bestimmt ihr, welche Inhalte eurer Site von den Suchmaschinen indexiert werden. Der einfachste Weg, Suchmaschinen darüber zu informieren, was ihr nicht indexiert haben möchtet, ist eine robots.txt-Datei oder ein robots Meta-Tag. Aber manchmal möchtet ihr vielleicht Inhalte entfernen, die bereits im Index vorhanden sind. Wie läßt sich dies am besten erreichen?

Wie immer gilt: Es hängt davon ab, welche Art von Inhalten ihr entfernen wollt. In den Webmaster-Tools könnt ihr eine genaue Beschreibung der verschiedenen Möglichkeiten finden. Beim erneuten Crawlen der jeweiligen Seite wird der Inhalt dann automatisch aus dem Index entfernt. Wenn es jedoch etwas schneller gehen soll und ihr nicht auf den nächsten Crawl warten möchtet, gibt es jetzt eine einfache Lösung.

Für Websites, bei denen ihr in den Webmaster-Tools als Besizter verifiziert seid, findet ihr jetzt eine neue Option im Diagnose-Tab „URL-Löschungen“. Um loszulegen, klickt einfach auf URL-Löschungen und dann auf Neuer Antrag auf Entfernung. Wählt dann die Option, die am besten beschreibt, was ihr entfernen möchtet.

Einzelne URLs: Webseiten, Bilder oder andere Dateien

Wählt diese Option, wenn ihr eine einzelne URL oder z.B. einzelne Bilder entfernen möchtet. Damit eine URL entfernt werden kann, muss eine der folgenden Bedingungen zutreffen:

Die URL muss den Status-Code 404 oder 410 zurückgeben.

Die URL muss durch die robots.txt-Datei vom Crawlen ausgeschlossen sein.

Die URL muss durch den robots Meta-Tag vom Crawlen ausgeschlossen sein.

Sobald ihr wisst, welche URL entfernt werden soll, fügt ihr diese in das Eingabefeld ein und wählt aus, ob die URL in der Google-Websuche oder in der Google-Bildersuche auftaucht. Dann einfach auf Hinzufügen klicken. Innerhalb eines Antrags könnt ihr bis zu 100 URLs auflisten. Sobald ihr alle URLs, die entfernt werden sollen, hinzugefügt habt, genügt ein Klick auf Antrag auf Entfernung einreichen.

Ein Verzeichnis sowie alle Unterverzeichnisse auf der Website

Wählt diese Option, wenn ihr alle Dateien und Ordner innerhalb eines Verzeichnisses entfernen wollt. Wenn ihr beispielsweise dieses Verzeichnis entfernen möchtet,

http://www.beispiel.de/meinVerzeichnis

wird diese Angabe alle URLs entfernen, die mit diesem Pfad beginnen, also z.B.:

http://www.beispiel.de/meinVerzeichnis
http://www.beispiel.de/meinVerzeichnis/seite1.html
http://www.beispiel.de/meinVerzeichnis/bilder/bild.jpg

Damit ein Verzeichnis entfernt werden kann, müsst ihr es mittels der robots.txt-Datei sperren. Für das obige Beispiel würde die Datei http://www.beispiel.de/robots.txt z.B. folgendes beinhalten:

User-agent: Googlebot
Disallow: /meinVerzeichnis

Eure gesamte Website

Wählt diese Option nur dann, wenn ihr eure gesamte Website aus dem Google-Index entfernen möchtet. Diese Option dient dazu, alle Unterverzeichnisse und Dateien zu entfernen. Ihr solltet diese Option nicht wählen, um die von euch nicht bevorzugte Domain (mit oder ohne www) aus dem Index zu entfernen. Wenn ihr also z.B. alle eure URLs mit dem „www“-Präfix indexiert haben möchtet, solltet ihr dieses Tool nicht dazu verwenden um die Löschung der Version ohne „www“ zu beantragen. Um dies zu erreichen solltet ihr über das Bevorzugte Domain-Tool einstellen, welche Version ihr im Index haben möchtet (und möglichst auch eine 301 Weiterleitung zur bevorzugten Version einrichten).

Um die Option „Ihre gesamte Website“ zu nutzen, müsst ihr die Site in der robots.txt-Datei sperren.

Cache-Kopie eines Google-Suchergebnisses

Wählt diese Option, um Seiten aus dem Google-Cache zu entfernen. Es gibt 2 Möglichkeiten, um Seiten für die Entfernung aus dem Cache vorzubereiten.

Verwenden des Meta-Tags „noarchive“ und die sofortige Entfernung beantragen

Wenn ihr verhindern möchtet, dass eine Seite gecacht wird, könnt ihr den Meta-Tag „noarchive“ auf der Seite hinzufügen und die sofortige Entfernung aus dem Cache mit diesem Tool beantragen. Wenn ihr mit diesem Tool die Entfernung aus dem Cache beantragt, erfolgt die Löschung sofort und durch den hinzugefügten Meta-Tag „noarchive“ wird verhindert, dass die Seite bei zuküftigen Crawls wieder im Cache landet (Falls ihr die jeweilige Seite irgendwann doch wieder im Cache haben wollt, könnt ihr einfach den Meta-Tag „noarchive“ wieder löschen).

Den Inhalt einer Seite verändern

Wenn ihr die gecachte Version einer Seite entfernt haben wollt, weil sie Dinge enthält, die auf der Live-Seite nicht mehr vorhanden sind und ihr diese Inhalte nicht indexiert haben möchtet, könnt ihr an dieser Stelle die Entfernung der entsprechenden Seite aus dem Cache anfordern. Wir prüfen dann, ob sich der Inhalt der Live-Seite vom Inhalt der gecachten Version unterscheidet und entfernen in diesem Fall dann die gecachte Version. Nach 6 Monaten stellen wir automatisch wieder eine gecachte Version der jeweiligen Seite zur Verfügung (bis zu diesem Zeitpunkt wurde eure Seite mit großer Wahrscheinlichkeit erneut gecrawlt, so das die Cache-Version dann den aktuellen Stand der Seite wiederspiegelt). Falls ihr feststellt, dass wir die Seite bereits früher gecrawlt haben, könnt ihr mit diesem Tool anfordern, dass wir die neue gecachte Version bereits früher zur Verfügung stellen.

Den aktuellen Stand eines Antrags auf Entfernung abfragen

Die Anträge auf Entfernung werden als „Ausstehend“ angezeigt, bis sie bearbeitet wurden. Dann wechselt der Status entweder auf „Abgelehnt“ oder „Entfernt“. Im Allgemeinen wird ein Antrag abgelehnt, wenn er nicht den beschriebenen Anforderungen für die Entfernung entspricht.

Inhalte wieder hinzufügen

Wenn ein Antrag auf Entfernung erfolgreich war, seht ihr einen entsprechenden Eintrag im „Entfernter Inhalt“ – Tab. Die jeweiligen Inhalte können jederzeit wieder unserem Index hinzugefügt werden, indem ihr die Sperre in der robots.txt oder im robots Meta-Tag entfernt und auf wieder hinzufügen klickt. Ansonsten bleibt der Inhalt zunächst für 6 Monate entfernt. Falls nach den 6 Monaten der betreffende Inhalt immer noch gesperrt ist (robots.txt oder robots Meta-Tag) oder eine 404 oder 410 Status-Meldung zeigt, wird der Inhalt beim nächsten Crawl nicht dem Index hinzugefügt. Wenn der Inhalt nach den 6 Monaten jedoch für unsere Crawler sichtbar ist, wird der Inhalt erneut indexiert.

Antrag auf Entfernung von fremden Inhalten

Aber was ist, wenn ihr Inhalte auf einer Website, die nicht eure ist, entfernt haben wollt? Es ist jetzt auch einfacher geworden, dies zu erreichen. Unser neues Tool zum Entfernen von Webseiten führt euch Schritt für Schritt zum passenden Antrag auf Entfernung.

Da Google das Web nur indexiert, aber keinen Einfluss auf die Inhalte von Webseiten hat, können wir Einträge in unserem Index nur entfernen, wenn der jeweilige Webmaster die Inhalte gesperrt, verändert oder ganz entfernt hat. Wenn ihr bestimmte Inhalte entfernt haben wollt, solltet ihr euch an den jeweiligen Besitzer der Website wenden und anschliessend könnt ihr dieses Tool nutzen, um die Entfernung der Inhalte zu beschleunigen.

Falls ihr Suchergebnisse bekommt, die bestimmte Arten von persönlichen Daten enthalten, könnt ihr sogar einen Antrag auf Entfernung stellen, wenn es euch nicht möglich ist, den Fall mit dem Eigentümer der Webseite zu klären. Bei dieser Art von Antrag auf Entfernung müsst ihr nur eure Email-Adresse angeben, so dass wir euch direkt kontaktieren können.

Wenn ihr Suchergebnisse erhalten habt, die bei eingeschaltetem SafeSearch-Filter nicht erscheinen sollten, könnt ihr uns mit diesem Tool ebenfalls darüber informieren.

Ihr könnt den aktuellen Status von ausstehenden Anträgen prüfen und - wie bei der Version in den Webmaster-Tools - wird der Status automatisch auf „Entfernt“ oder „Abgelehnt“ gesetzt, sobald der Antrag bearbeitet wurde. Falls ein Antrag abgelehnt wurde, bedeutet dies, dass der Antrag nicht den Anforderungen für die Entfernung entsprochen hat. Bei Anträgen, bei denen es um persönliche Daten geht, wird der aktuelle Status nicht an dieser Stelle angezeigt, vielmehr erhaltet ihr von uns eine Email, die euch über die weiteren Schritte informiert.

Was passiert mit dem bisherigen Tool zum Entfernen von URLs?

Falls ihr in der Vergangenheit bereits Anträge über dieses Tool gestellt habt, könnt ihr euch immer noch dort einloggen und den Status dieser Anträge prüfen. Verwendet für neue Anträge aber bitte nur noch die neue, verbesserte Version des Tools.

Original

Post von Vanessa Fox (Übersetzung von Sven, Search Quality)

Was gibt's Neues bei Sitemaps.org?

Posted: Mittwoch, 18. April 2007

Was hat das Sitemaps-Team gemacht, seitdem wir sitemaps.org angekündigt haben? Wir waren damit beschäftigt, die allgemeine Akzeptanz von Sitemaps zu steigern und den Submission-Prozess so einfach und automatisch wie möglich zu gestalten. Und dazu haben wir drei Neuigkeiten für euch.

Zunächst einmal werden wir sitemaps.org in 18 Sprachen zur Verfügung stellen. Wir wissen, dass unsere Nutzer auf der ganzen Welt leben, und wir wollen es euch so einfach wie möglich machen, euch über Sitemaps zu informieren - egal welche Sprache ihr sprecht. Hier ist z.B. ein Link zum Sitemap-Protokoll in Japanisch und den FAQs in Deutsch.

Weiterhin ist es jetzt einfacher für euch, uns mitzuteilen, wo sich eure Sitemaps befinden. Wir haben uns gefragt, ob wir es nicht sogar so simpel gestalten könnten, dass ihr es uns und jeder anderen Suchmaschine, die Sitemaps unterstützt, noch nicht einmal sagen müsst. Aber wie? Da man zu jeder Website eine robots.txt-Datei erstellen kann, haben wir entschieden, dass ihr uns über die robots.txt Datei Bescheid geben könnt, wo sich eure Sitemap befindet. Dazu müsst ihr nur eine Zeile nach dem Schema

Sitemap: http://www.MeineSeite.de/sitemap.xml

in eure robots.txt einfügen. Stellt sicher, dass ihr die volle URL einschließlich http:// angebt. Fertig! Natürlich denken wir immer noch, dass es nützlich ist, eure Sitemap über die Webmaster-Tools einzureichen, so dass ihr sichergehen könnt, dass sie ohne Schwierigkeiten gecrawlt wurde. In den Webmaster-Tools könnt ihr auch zusätzliche Statistiken erhalten.

Und zu guter Letzt noch der Hinweis, dass Ask.com jetzt auch das Sitemap-Protokoll unterstützt. Aufgrund der Möglichkeit über eure robots.txt Datei an eure Sitemap zu gelangen werden auch Ask.com und viele andere Suchmaschinen, die diese Änderung in der robots.txt Datei unterstützen, in der Lage sein, eure Sitemap-Datei zu finden.

Original

Post von Vanessa Fox (Übersetzung von Daniela, Search Quality)

Webmaster-Zentrale Blog

Bessere Analyse von Webseiten

GET- vs. POST-Methode und die Erfassung von mehr Inhalten im Web

Mühelos Zeit sparen mit "Status der Website"

Google News crawlt jetzt mit dem Googlebot

Neues robots.txt-Feature und REP Meta-Tags

Ihr möchtet Inhalte aus unserem Index entfernen?

Was gibt's Neues bei Sitemaps.org?

Dieses Blog durchsuchen

Labels

Archiv

Feed

E-Mail Benachrichtigungen

Weitere Ressourcen

Google

Produkte

Entwickler