Search Engine Katalog für Esoterik, Naturheilkunde, Medizin & Psychologie

FDSE deutsche Hilfe | englische Hilfe



[ Hilfe: Inhaltsverzeichnis ]
   
Durchsuchen von PDF- Dateien  
     
 

Die Fluid Dynamik Suchmaschine kann PDF Dateien durchsuchen, wenn mit einer Helferversorgungseinrichtung verwendet. Diese Funktionalität wurde vor kurzem hinzugefügt. Dieses Hilfethema gilt für FDSE Version R2.0.0.0046 und neuer.

Die erforderliche Helferversorgungseinrichtung ist das xpdf Paket von www.foolabs.com/xpdf. Dies ist ein Paket von Gratisc++ Programmen, die auf den meisten Betriebssystemen laufen. Führen Sie diese Schritte aus, um xpdf und FDSE zu integrieren:

  1. Laden Sie die für das Betriebssystem Ihres Web-Servers geeignete xpdf Version ab. Übertragen Sie die ausführbaren Dateien (ausdrücklich pdfinfo und pdftotext) auf einen Ordner auf Ihrem Web-Server. (das Betriebssystem Ihres Web-Servers wird auf der FDSE allgemeinen Einstellungsseite aufgeführt, wenn Sie es brauchen.)

  2. Dann öffnen Sie die Haupt-FDSE Schrift, das Hauptsearch.pl (oder die Hauptsearch.cgi). Blättern Sie etwa 50 Zeilen zurück und finden Sie die Zeile gekennzeichnet:

    0% const = ('Versorgungseinrichtungsordner pdf' = > ""
    
  3. Betreten Sie den absoluten Pfad zum Ordner xpdf. Weil FDSE wird, muß Schale zu diesem Ordner, Ihnen den folgenden StRealm einschließen, und Sie müssen die für das Betriebssystem Ihres Web-Servers geeignete StRealmkonvention d.h. verwenden " x: \\ xpdf \\ "auf Windows und" /x/xpdf/"auf Unix. (der Duplikatete verkehrte Schrägstrich \\ ist gebraucht weil\ein KontrollcharDateir in Perl sind und entkommen werden muß). Beispiele:

    0% const = ('Versorgungseinrichtungsordner pdf' = > "x:
    \\ xpdf \\ ", # Fenster:
    0% const = ('Versorgungseinrichtungsordner pdf' = > "/x/xpdf/", # Unix
    
  4. Nach dem editieren der Suchschrift geben Sie es an den Web-Server zurück und testen Sie Ihre Änderungen durch Machen einiger normaler Suchersuchen. Wenn Sie einen Perl Ausführungsfehler sehen, bestätigen Sie, daß Ihre Änderungen die richtige Syntax mit gepaßten Zitaten usw. verwenden

  5. Schließlich editieren von der FDSE User Interface Sie den General, der "Ext" durch Hinzufügen der "pdf" Dateien erweiterung auf die Liste setzt. Danach redigiert die allgemeine Einstellung "Crawler: Ignorieren Sie Verbindungen "durch Entfernen der "pdf" Dateien erweiterung aus dieser Liste. Bestätigen Sie, daß die "AllowBinaryFiles" allgemeine Einstellung überprüft ist.

Um das System zu testen, versuchen Sie einfach, eine PDF Datei zu indizieren. Wenn aller der Text richtig erscheint, dann funktionieren Dinge wahrscheinlich. Wenn es Probleme gibt, können Sie versuchen, eine Datei mit der "= 1 debuggen" Flagge zu indizieren. Zum Beispiel:

Suche/search.pl?
Modus = Verwaltung & Tat = AddURL & URL = http://xav.com/search/pl2000.pdf & Testhilfe = 1

FDSE wandelt alle PDF Kopfsprünge in Metaschilder um. Das PDF "Schlüsselwörter" Attribut wird auf die "Schlüsselwörter" HTML abgebildet Metaschild. Der PDF "Titel" Kopfsprung wird, wenn anwesend, auf den HTML < Titel > abgebildet. Wenn der PDF Titel fehlt, da es oft ist, dann wendet FDSE seine Regeln für das Syntaktischanalysieren von HTML Dateien ohne Titel an und verwendet den Dateinamen selbst normalerweise als den Titel.

bekannte Probleme: Dinge, die zu beachten sind, wenn Sie Schwierigkeiten haben:

  • Eine PDF Datei syntaktisch zu analysieren, ist ressourcenintensiv und langsam. Eine 3 MB TestDatei dauerte 31 Sekunden, um syntaktisch zu analysieren. 100 solche Dateien zu indizieren, würde um eine Stunde dauern.

  • xpdf kann mit einem Gedächtnisfehler zusammenbrechen, wenn daran eine ungültige PDF Datei weitergeRealmt wird. Dies ist hauptsächlich gerade ein Ärger, aber auf Windows 2000 bewirkt es, daß sich automatische Fehlermeldungen ansammeln, auf der Konsole.

  • D "Max CharDateire: Feilen "Einstellung bewirkt, daß die meisten Dokumente nur durch die ersten 64.000 CharDateire gelesen werden. Dies ist kleiner, als das meisten PDF feilt und, eine gekürzte PDF Datei an xpdf zu senden, bewirkt, daß es zusammenbricht. FDSE umgeht dieses Problem für die Mehrheit von Fällen durch Ignorieren d "Max CharDateire: Feilen "für Dateien setzen, die die ".pdf" Erweiterung haben. Jedoch, wenn Sie PDF Dateien aus dem Netz zurückholen und der Dokument-URL nicht in ".pdf" endet, dann können Sie dieses Problem haben. Sie können rund um es durch Aufstellen arbeiten "Max CharDateire: Feilen "zu 0, um Verkürzung zu umgehen, oder dadurch, daß es es auf einen genug großen Wert stellte.

  • FDSE kann nicht zwischen einer gültigen Antwort von pdftotext und einer ungültigen Antwort zu unterscheiden ("außerstande, PDF Datei syntaktisch zu analysieren," zu mögen). In den meisten Fällen bleibt die allgemeine Einstellung, die "Minimalseitengröße" FDSE verursachen wird, um Seiten zu ignorieren, die kurze Fehlermeldungen, aber dort zurückgeben, eine Außenseite riskieren, daß unrichtige Information indizierte so gültige Daten sein wird.

  • Der NetzCrawler versucht PDF zu Text Umwandlung auf nur jenen Dokumenten, die die Inhaltsart "Bewerbung/pdf" zurückgeben. Wenn die PDF Dateien keinen genauen Inhaltsartenkopfsprung zurückgeben, dann werden sie nicht richtig verarbeitet.

  • PDF Dateien können eine Mischung von inlined Abbildungen und computerlesbarem formatiertem Text enthalten. FDSE ist nur in der Lage den formatierten Text "zu lesen", und das ist mit der Hilfe vom xpdf Werkzeugkasten (der Formatierung auszieht und auf nicht-lateinische Sprachen einige Wörter mangeln kann). Weder FDSE noch der xpdf Werkzeugkasten kann Text lesen, der in den inlined Abbildungen gespeichert ist. Auf diese Art abbildungsbasierte PDF Dateien , besonders Faxe, die auf PDF Format gesichert worden sind, können nicht bedeutungsvoll durchsucht werden, weil sie nur inline Abbildungsinhalt und keinen computerlesbaren formatierten Text enthalten.

Verschlüsselung: Handhabung von PDF Dateien wird von Unterroutine kontrolliert convert_pdf_to_text welche ist in der "searchmods/common_parse_page.pl" Bibliothek gefunden. Es ist von Unterroutinen angerufen webrequest und pagedata_from_file

Wenn alles Ihres PDFs feilt, tendieren Sie dazu, ihre Beschreibungen im "Thema" PDF speichern zu lassen, Kopfsprung anstatt dem "Titel" Kopfsprung es kann sein, daß Sie convert_pdf_to_text editieren wollen, um den HTML Titel vom "Thema" Kopfsprung stattdessen zu ziehen.

Geschichte: Unterstützung für PDF Dateien wurde mit FDSE version r2.0.0.0046. hinzugefügt

Spezieller Dank ist durch Derek B. Noonburg verursacht für das Schaffen von xpdf und das Verteilen davon für zu befreien ; und zu Andrew Mossberg dafür, daß es mir das Produkt beschrieb, nachdem ich alle aufgegeben hatte, zu hoffen davon, PDF jemals syntaktisch zu analysieren.

 
 
Übersetzung Esoterik-web.net der Katalog für Esoterik, Naturheilkund, Medizin & Psychologie
spirit2you.de spirittoyou.de spirit2you.at spirittoyou.ch Lebensberatung24.de Bannernetz2000.de FDSE.eu Suchmaschine, Katalog, Fluid Dynamic Search Engine thue.de Reiki Meister Lehrer natur-fee.de - Mueritz Seminare Seminar - Feriendorf eso4you.de Domainreseller Domain Registration Robot ab 12 Domain