The Wayback Machine - https://web.archive.org/web/20170619210648/https://www.golem.de/news/suchmaschinen-internet-archive-will-kuenftig-robots-txt-eintraege-ignorieren-1704-127446.html
Abo
  • Services:
Anzeige
Zeichnung eines historischen Archivs
Zeichnung eines historischen Archivs (Bild: Gemeinfrei)

Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren

Zeichnung eines historischen Archivs
Zeichnung eines historischen Archivs (Bild: Gemeinfrei)

Das Archiv des Internets will der Robots.txt-Datei einer Webseite künftig keine Bedeutung mehr beimessen. Der Schritt sei notwendig, weil die Datei einer echten Archivierung des Internets aus Nutzersicht entgegenstehe, schreiben die Macher.

Das gemeinnützige Projekt Internet Archive hat auf seiner Webseite bekanntgegeben, Einträge in Robots.txt ignorieren zu wollen. Über die Jahre habe man festgestellt, dass die Einträge in der Datei "nicht notwendigerweise unseren archivarischen Zwecken dienen", schreibt das Projekt. In der Vergangenheit hätten Robots.txt-Einträge auf archivierten Webseiten immer wieder dazu geführt, dass solche Webseiten auch aus der "Wayback Machine" des Internet Archive herausfallen würden.

Anzeige

Bereits vor einigen Monaten hatte das Projekt aufgehört, Robots.txt auf Seiten der US-Regierung und des US-Militärs zu beachten. Dies gelte sowohl für das Crawling als auch für das Anzeigen von Webseiten durch die Wayback Machine. Löschanfragen, die an info@archive.org gesandt werden, würden weiterhin entgegengenommen. Das Vorgehen habe bislang nicht zu Problemen geführt.

US-Regierungswebseiten werden schon länger ohne Ausnahme durchsucht

Künftig soll Robots.txt auch bei anderen Webseiten keine Anwendung mehr finden. Internet Archive schreibt: "Wir sehen, dass die Zukunft der Webarchivierung sich weniger auf die Deklarationen der Robots.txt-Datei verlässt, die eher auf Suchmaschinen zielt, sondern das Web so abbildet, wie es wirklich war - aus Nutzersicht."

Robots.txt ist eine kleine Textdatei, mit der Webseitenbetreiber bestimmte Teile einer Webseite vor Suchmaschinencrawlern verstecken können. Dies kann für die gesamte Webseite gelten, aber auch nur bestimmte Teile, etwa für den Loginbereich des Content-Management-Systems. Robots.txt ist kein verbindlicher technischer Standard, sondern eine Konvention, die die meisten großen Suchmaschinenbetreiber beachten.


eye home zur Startseite
FreiGeistler 30. Mai 2017

Wenn du nur Besucher willst die europäischem Recht unterliegen, solltest du den...

Themenstart

okidoki 26. Apr 2017

Einsehbar ja, raubkopierbar nein. Keiner darf den Inhalt von Golem.de kopieren und...

Themenstart

okidoki 26. Apr 2017

Ja, richtig gelesen. Netzpublikationen müssen analog zu Büchern bei der Deutschen...

Themenstart

Prinzeumel 25. Apr 2017

Weil sie sich aktuell nur an dortige gesetze halten müssen.

Themenstart

Prinzeumel 25. Apr 2017

Genau das kann die robots.txt eben nicht leisten. Sie bittet nur darum bestimmte seiten...

Themenstart

Kommentieren



Anzeige

Stellenmarkt
  1. Fresenius Medical Care Deutschland GmbH, Schweinfurt
  2. Ratbacher GmbH, Frankfurt am Main
  3. GILDEMEISTER Beteiligungen GmbH, Bielefeld
  4. Home Shopping Europe GmbH, Ismaning Raum München


Anzeige
Spiele-Angebote
  1. 109,99€/119,99€ (Vorbesteller-Preisgarantie)
  2. 2,99€
  3. 59,99€/69,99€ (Vorbesteller-Preisgarantie)

Folgen Sie uns
       


  1. Hasskommentare

    Experten kritisieren Gesetzespläne von Heiko Maas

  2. Subventionen

    Unionsfraktion will 3 Milliarden Euro pro Jahr für Glasfaser

  3. Img Tech

    MIPS I6500-F fährt bei Mobileye mit

  4. Brandanschlag

    Primacom Kundenservice ausgefallen

  5. Unterwasserkabel

    50Hertz schließt Offshore-Windparks vor Rügen an

  6. Creation Club

    Nur größere Bezahlinhalte für Fallout 4 und Skyrim geplant

  7. NSA-Untersuchungsausschuss

    Opposition wirft Regierung Lüge vor

  8. Prozessor

    Intels Skylake-X kommt zu früh

  9. X Power 2

    LGs Smartphone mit langer Laufzeit kostet 300 Euro

  10. FTTH/B

    Zwei Bundesländer wollen "Glasfaser-first"



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Mieten bei Ottonow und Media Markt: Miet mich!
Mieten bei Ottonow und Media Markt
Miet mich!
  1. Whole Foods Market Amazon kauft Bio-Supermarktkette für 13,7 Milliarden Dollar
  2. Kartengebühren Transaktionen in Messages können teuer werden
  3. Übernahmen Extreme Networks will eine Branchengröße werden

Skull & Bones angespielt: Frischer Wind für die Segel
Skull & Bones angespielt
Frischer Wind für die Segel
  1. Call of Duty WW2 angespielt Höllenfeuer und kleine Sprünge
  2. Square Enix Die stürmischen Ereignisse vor Life is Strange
  3. Spider-Man Superheld mit Alltagssorgen

Sony Xperia XZ Premium im Test: Taschenspiegel mit übertrieben gutem Display
Sony Xperia XZ Premium im Test
Taschenspiegel mit übertrieben gutem Display
  1. Keine Entschädigung Gericht sieht mobiles Internet nicht als lebenswichtig an
  2. LTE Deutsche Telekom führt HD Voice Plus ein
  3. Datenrate Vodafone bietet im LTE-Netz 500 MBit/s

  1. Re: Was soll ich mit 10 Kernen?

    violator | 22:49

  2. Re: SAP-Experten werden zwar besser bezahlt...

    FreiGeistler | 22:43

  3. Re: Müssen sie das denn?

    nitnitnitram | 22:42

  4. "Lenkräder werden immer teurer und besser"

    HerrMannelig | 22:39

  5. Re: Bestbezahlte Stellen?

    amagol | 22:37


  1. 21:54

  2. 18:36

  3. 18:27

  4. 18:19

  5. 18:06

  6. 17:52

  7. 17:42

  8. 17:39


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel