Search Engine Katalog für Esoterik, Naturheilkunde, Medizin & Psychologie

FDSE deutsche Hilfe | englische Hilfe



[ Hilfe: Inhaltsverzeichnis ]
   
Das verfolgen von Links mit dem Crawler  
     
 

Wenn der Crawler eine Web-Seite besucht kann er auch Links zu Frame besuchen.

Dies ist ein dreiteiliger Prozeß: verbinden Sie Entdeckung, Lagerung und das Kriechen. Jeder Teil des Prozesses wird unten erörtert.

Folgende Verbindungen mit Crawler: Verbindungsentdeckung

Der Crawler behandelt die folgenden Muster als Verbindungen: Ein HREF = "Adresse", Frame SRC = "Adresse", IFRAME HREF = "Adresse". Beachten Sie, daß dies nur HTML Verbindungen, nicht jene schlägt, die mit einer schreibenden Sprache geschrieben sind. Um die Muster anzupassen, die als Verbindungen behandelt sind, editieren Sie die "Verbindung": liegen Sie am Anfang in Schleifen von d & parse_html_ex Unterroutine.

Sobald gefunden, ist jede Verbindung gegen mehrere Regeln verglichen. Nur Verbindungen, die alle die Regeln passieren, machen es für den nächsten Schritt. Die Regeln sind:

Protokoll - der Crawler kann nur das HTTP-Protokoll "sprechen", so Verbindungen müssen beginnen "http: // ". Verbindet Anfangsgründe mit "http: // "," ftp: // "," Taschenratte: // ", oder jedes andere Protokoll wird ignoriert.

ansprechen Länge, wenn eine Netzadresse zu lang ist, der Crawler ignoriert es. Die Maximalgröße einer Adresse ist gesetzt mit d "Max CharDateire: URL "Einstellung, die 128 standardmäßig ist.

befragen Strings standardmäßig der Crawler ignoriert Verbindungen, die Form HREF =, "file.pl ? testen" weil es ein Fragezeichen in der Adresse gibt. Jede Netzadresse, die ein Fragezeichen enthält, soll eine FrageString haben. Das Benehmen des Crawlers für diese Dokumente wird kontrolliert d "Crawler: Folgen Sie Query Stringsn "allgemeine Einstellung.

Erweiterung feilen - einige Verbindungen zeigen auf Dateien , die fast sicher nicht lesbarer Text sind. Der Crawler läßt Verbindungen aus, wenn die Dateien erweiterung verdächtigt davon wird, Nicht-Textdaten darzustellen. Diese Erweiterungen sind in einer Liste gespeichert, deren Format ein Satz von vom RohrcharDateir getrennten kleingeschriebenen Dateien erweiterungen ist. Die Liste Erweiterungen sind in gespeichert d "Crawler: Ignorieren Sie Verbindungen "allgemeine Einstellung.

Beachten Sie, daß diese Regel in BedeckungstextDateien erweitert werden kann, die lesbar sind, aber immer noch nicht indiziert werden sollten; die ".log" oder ".old" Erweiterungen gute Beispiele sind.

Roboter Ausschluß - eine Datei, die das Metaschild enthält, < Metanamens= "Roboter" Inhalt = "nofollow" > läßt interne Verbindungen nicht folgen, als erfordert durch die Roboter Ausschlußstandard. Setzen "Crawler: Gauner "zu 1 veranlaßt den Crawler, den Ausschlußstandard zu ignorieren, aber dies wird von der Internetgemeinschaft mißbilligt.

Hostname - einige Verbindungen zeigen auf entfernte Web-Sites. Um den Crawler auf nur die Anfangsweb-Site zu beschränken, setzt Einstellung " Crawler: Folgen Sie Offsite Verbindungen "zu 0,

Zusätzlich zu diesen Regeln bleibt der Crawler auch auf derselben Web-Site, wenn die "ganzen Standort indizieren" Option überprüft am Anfang der Kraulsitzung ist. Die "ganzen Standort indizieren" Option ist einschränkender als d "Crawler: Folgen Sie Offsite Verbindungen "setzen, weil es gefolgte Verbindungen zu demselben Verzeichnis oder einem Unterverzeichnis des Anfangsdokuments eingrenzt. Das offsite verbindet nur Regel grenzt die Verbindungen zu demselben hostname ein.

Folgende Verbindungen mit Crawler: Lagerung

Alle Verbindungen, die herausgefunden sind, sind zu den anstehenden Seiten eingeführt Datei, search.pending.txt. Diese Datei führt alle bis zu Dokumenten in alphabetischer Reihenfolge auf. Die Datei schließt eine Liste aller Seiten ein, die schon gesucht worden sind, jene, die gewesen sind, gekrochen, aber zurückgegeben Fehler und auch jene, darauf wartend, gesucht zu werden.

Das Format der Datei ist:

http://address/RealmName Staat

"Angeben "ist eine Nummer. Wenn es 0 ist, dann wartet die Adresse darauf, zu sein, gekrochen. Wenn es ist 2, dann der versuchte, um diese Seite zuvor zu indizieren, aber gestoßene Crawler ein Fehler (die Adresse ist jetzt blacklisted *). Wenn es eine große Nummer ist, dann stellt es die Zeit dar, daß die Adresse indiziert wurde.

Wenn eine Adresse gefunden ist, während sie kriecht, und diese Adresse schon in der anstehenden Datei auftaucht, dann wird keine Tat ergriffen. Der Originalzustand der Adresse d.h. indiziert werden, eine Fehlerseite oder ein wartendes Indexieren seiend, -immer nimmt Vorrang. Wenn der Benutzer gerade die "entfernte Web-Seite indizieren" Form verwendet hat, dann werden alle die gefundenen Adressen zusammen mit ihrem Zustand aufgelistet (schon indizierte, Fehler oder das Warten).

Wenn eine Adresse gefunden wird, auf die zuvor nicht gestoßen worden ist, dann wird es in die anstehende Datei eingeführt. Es hat "0" angeben, welche bedeutet, daß es bereit zu sein ist, gekrochen.

Folgende Verbindungen mit Crawler: Das Kriechen

Normalerweise wird Verbindungen nicht automatisch gefolgt.

Um Verbindungen in einem bestimmten Dokument zu folgen, verwenden Sie die "entfernte Web-Seite indizieren" Form auf der HauptUser Interface , um das Anfangsdokument zu bekommen. Die Ergebnisseite listet alle gefundenen Verbindungen auf und von dort können Sie klicken, um den gewünschten Verbindungen zu folgen.

Jedoch wird, wenn die "ganzen Standort indizieren" Option zusammen mit der "entfernte Web-Seite indizieren" Form gewählt wird, dann allen Verbindungen auf diesem Standort automatisch gefolgt.

Nachdem eine Seite ist gekrochen, die anstehende Datei ist mit den Ergebnissen des Kraulens aktualisiert. Dieser Staat wird zu "2" aktualisiert, wenn es einen Fehler * gibt oder zur Zeit, wenn dort, nicht ein Fehler ist. Zeit ist eine ganze Zahl, die die Anzahl von Sekunden seit 1970 darstellt. Dieser Zeitwert wird von anderen Teilen der Schrift verwendet, um festzustellen, ob es Zeit ist, die Datenbank aufzufrischen.

* der Satz von blacklisted Dateien kann durch Gehen zu "User Interface "= >" Datenlagerung" = > "klarer Fehlercache" aufgeklart werden (in FDSE Version R2.0.0.0040 verfügbarer und neuer; vor diesem die search.pending.txt Datei kann manuell redigiert werden).

 
 
Übersetzung Esoterik-web.net der Katalog für Esoterik, Naturheilkund, Medizin & Psychologie
spirit2you.de spirittoyou.de spirit2you.at spirittoyou.ch Lebensberatung24.de Bannernetz2000.de FDSE.eu Suchmaschine, Katalog, Fluid Dynamic Search Engine thue.de Reiki Meister Lehrer natur-fee.de - Mueritz Seminare Seminar - Feriendorf eso4you.de Domainreseller Domain Registration Robot ab 12 Domain