Search Engine Katalog für Esoterik, Naturheilkunde, Medizin & Psychologie

FDSE deutsche Hilfe | englische Hilfe



[ Hilfe: Inhaltsverzeichnis ]
   
Wie Sie die Indexierung schneller machen können  
     
 

Indexierzeit ist zu der indizierten Anzahl von Dokumenten und der Größe jedes Dokuments proportional.

Das Optimieren der indizierten Anzahl von Dokumenten und Benutzung einer entsprechenden Realmsart kann auch den Indexprozeß beschleunigen.

Jedes Dokument das wahrscheinlich keinem Besucher nützlich ist sollte aus dem Index entfernt werden. Vom HauptUser Interface können Sie mit "Realm überprüfen" sehen welche Dokumente gegenwärtig indiziert werden.

Dokumente die nicht nützlich sind können permanent dadurch entfernt werden, das Sie "Delete" wählen und dann Auswahl 2 treffen. Das heist "verbotenen Seiten Liste hinzufügen".

Die "Seiten verbieten" Filterregel und die robots.txt Datei sind effizienter zum blockieren paginiert als das Roboter Metaschild, da das Metaschild erst auf die Seite zugreift um sie syntaktisch zu analysieren.

Optimieren der Dokumentgröße

Die allgemeine Einstellung "Max CharDateire:"erlaubt Ihnen die Maximalanzahl von aus jedem Dokument gelesenen Bytes zu bestimmen. Diese Einstellung auf einen niedrigen Wert wie 64000 oder 32000 zu setzen spart Zeit während des Indexprozesses.

Seiten pro Indexierung optimieren

Die allgemeine Einstellung "Crawler: Max paginiert pro Indexierungsschub "kontrolliert die Maximalanzahl von Dokumenten die verarbeitet wird bevor die live IndexDatei aktualisiert ist.

Die live IndexDatei zu aktualisieren ist aufgrund der Suche ein zeitraubender Prozeß. Mit ihm werden andere Prozesse unterbrochen bis die Aktualisierung stattgefunden hat. Die Anzahl von Dokumente die pro Schub auf diese Art verarbeitet werden steigert die Effizienz der allgemeinen Prozesses.

Die allgemeine Einstellungs- "Auszeit" ist "Max Seiten pro Schub" ähnlich aber grenzt die Zeit des Schubs anstelle der Dokumentanzahl ein. Experimentieren Sie damit um jeden Wert sehr hoch zu setzen.

Beachten Sie jedoch das ein dazwischenliegender Zugriff um auf die live IndexDatei zu schreiben normalerweise zwischengespeichert wird. Wenn die Seiten pro Schub sehr hoch sind das dann das Servergedächtnis an seine Grenze kommen kann und der Prozeß auf Platte fehlschlägt oder sehr langsam sein wird. Auf diese Art sollte die max Anzahl von Dokumente pro Schub nicht ohne Grenze gesteigert werden.

Wichtig:

Wenn eine Neuindexierung durchgeführt wird kann es sein das der Server den Prozess ohne Nachricht beendet. In diesem Fall ist es am besten den Microsoft Internet Explorer mit Javascript zu verwenden. Wenn Sie MSIE 4,0+als das Browser verwenden nimmt eine spezielle Funktion von Javascript wahr das der CGI-Prozeß getötet wurde und startet den Prozeß ohne menschlichen Eingriff neu.

Optimizing Pages Per Batch - File System Discovery Realms

File System Discovery realms always write directly to a temp file while rebuilding, rather than to the live index file, and so they do not share the slow update problems found in crawler realms. Also, because they write directly, the memory consumption is much lower. The General Setting "Timeout" is used to throttle the indexing across multiple CGI processes to prevent a web server time-out. Setting the time-out to a high value will save some time, since there is an automatic sleep of 15 seconds between each process.

Selecting a Realm Type

Indexing with the File System Crawler is very fast compared to the Web Crawler. Use "Website Realms - File System Crawler" to maximize the speed of indexing local sites. The File System Crawler can also detect which files have changed when rebuilding the index, allowing it to index only updated files (this algorithm is used with the "Revisit Old" command). The Web Crawler must always re-index every file in the realm.

Optimizing Realm Architecture

Realms are used to group web pages together for indexing purposes. When possible, it is best to group pages based on the necessary frequency of re-indexing. For example, if you have a single web site with 10,000 documents, of which 1,000 change daily, you could create two realms covering each group. Then create a task for daily re-indexing only the smaller realm.

Trade-Offs Between Index and Search

In many cases, investing extra time while indexing can save time while searching. In every case where this trade-off is available, FDSE has taken it, since indexing is only done once every day or so, but searches are performed thousands of times each day. For example, having a large set of "Ignore Words" slows down the index process because it has to parse each word from each document. However, the result is a much smaller, more quickly searched index file, and so all resulting searches are faster, and the overall CPU utilization of the web server will be minimized.

The following features will use more resources during indexing to save time during searching:

  • Ignore Words
  • Filter Rules
  • Character conversion settings like Accent Sensitive and English Language Searching

Seiten pro Schub optimieren - feilen SystementdeckungsRealms

Dateien systementdeckungsRealms schreiben immer direkt auf eine AushilfssekretärinnenDatei, während wiederaufzubauen, statt, in die live IndexDatei und so daß sie nicht teilen, fanden die langsamen Aktualisierungsprobleme in Crawler Realms. Auch, weil sie direkt schreiben, ist der Gedächtnisverbrauch viel niedriger.

Die allgemeine Einstellungs- "Auszeit" wird verwendet um das Indexieren zu drosseln damit nicht über mehrfache CGI-Prozesse ein Web-Server sich seine Auszeit nimmt. Die Auszeit auf einen hohen Wert zu stellen spart einige Zeit da es einen automatischen Schlaf von 15 Sekunden zwischen jedem Prozeß gibt.

das Wählen einer Realmsart

Indexieren mit dem Dateien systemCrawler wird sehr schnell mit dem NetzCrawler verglichen. Verwenden "Web-SiteRealms - feilen SystemCrawler" zu maximieren die Geschwindigkeit, lokale Seiten zu indizieren. Der Dateien systemCrawler kann auch wahrnehmen welche Dateien beim Wiederaufbauen den Index das Erlauben davon geändert haben um nur aktualisierte Dateien zu indizieren, (dieser Algorithmus wird mit verwendet "besuchen wieder alt" befehlen). Der NetzCrawler muß immer jede Datei im Realm wieder indizieren.

optimierende Realmsarchitektur

Realms werden verwendet um Web-Seiten für Indexierzwecke zu gruppieren. Wenn möglich ist es am besten Seiten basierend auf der notwendigen Häufigkeit zu gruppieren, wieder indizieren. Zum Beispiel, wenn Sie eine einzelne Web-Site mit 10.000 Dokumenten haben, von denen sich 1.000 täglich ändern, konnten Sie zwei Realms schaffen und bedeckten jede Gruppe. Dann schaffen Sie eine Aufgabe für das tägliche Wieder indizieren nur des kleineren Realms.

Tausche zwischen Index und Suche

In vielen Fällen, investierender Verlängerung Weile indizieren kann Zeit sparen, während prüfend. In jedem Fall, wo dieser Tausch verfügbar ist, hat FDSE es genommen, da indizieren wird nur einmal jed Tag oder so getan, aber sucht sind ausgeführte Tausende von Zeiten jeder Tag. Zum Beispiel einen großen Satz "Wörter ignorieren" zu haben, verlangsamt den Indexprozeß, weil es jedes Wort von jedem Dokument syntaktisch analysieren muß. Das Ergebnis ist jedoch eine viel kleiner, schneller gesuchte IndexDatei und, also sind alle entstehenden Suchen, werden Faster und die allgemeine CPU-Verwendung des Web-Servers reduziert.

Die folgenden Merkmale verwenden mehr Ressourcen während Indexierens, um Zeit während des Suchens zu sparen:

  • Ignorieren Sie Wörter
  • Filter beherrscht
  • Zeichenumsetzungseinstellungen mögen akzentuieren empfindlich und englische Sprache, suchend,
 
 
Übersetzung Esoterik-web.net der Katalog für Esoterik, Naturheilkund, Medizin & Psychologie
spirit2you.de spirittoyou.de spirit2you.at spirittoyou.ch Lebensberatung24.de Bannernetz2000.de FDSE.eu Suchmaschine, Katalog, Fluid Dynamic Search Engine thue.de Reiki Meister Lehrer natur-fee.de - Mueritz Seminare Seminar - Feriendorf eso4you.de Domainreseller Domain Registration Robot ab 12 Domain