|
|||
|
|
|||
| Home > Lexikon > R > robots.txt | |||
robots.txt Nach der Übereinkunft des Robots-Exclusion-Standard-Protokolls liest ein Webcrawler beim Auffinden einer Webseite zuerst die Datei robots.txt im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. In dieser zentralen Textdatei können unabhängig von der Datei- und Verweisstruktur eines Web-Projekts festgelegt werden, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht. Die robots.txt muss unter diesem Namen (alle Buchstaben klein geschrieben) im Wurzelverzeichnis der Web-Dateien der Domain abgelegt werden. Der URL wäre also http://www.mein-name.de/robots.txt. Nur so kann sie von Suchmaschinen-Robots, die das Projekt aufsuchen, gefunden werden. Die robots.txt ist eine reine Textdatei und muss mit einem Texteditor bearbeitet werden. Beispiel # robots.txt zu http://www.example.de/ User-agent: UniversalRobot/1.0 User-agent: Robot-Name Disallow: /quellen/dtd/ User-agent: * Disallow: /gif/ Disallow: /temp/ Disallow: /newsticker.html Siehe auch: Meta-Tag: robots |
Social Media
Alle Begriffe von A bis Z
|
||