| |
Die Fluid
Dynamik Suchmaschine kann PDF Dateien durchsuchen, wenn mit einer Helferversorgungseinrichtung
verwendet. Diese Funktionalität wurde vor kurzem hinzugefügt.
Dieses Hilfethema gilt für FDSE Version R2.0.0.0046 und neuer.
Die erforderliche
Helferversorgungseinrichtung ist das xpdf Paket von www.foolabs.com/xpdf.
Dies ist ein Paket von Gratisc++ Programmen, die auf den meisten Betriebssystemen
laufen. Führen Sie diese Schritte aus, um xpdf und FDSE zu integrieren:
-
Laden
Sie die für das Betriebssystem Ihres Web-Servers geeignete xpdf
Version ab. Übertragen Sie die ausführbaren Dateien (ausdrücklich
pdfinfo und pdftotext) auf einen Ordner auf Ihrem Web-Server. (das
Betriebssystem Ihres Web-Servers wird auf der FDSE allgemeinen Einstellungsseite
aufgeführt, wenn Sie es brauchen.)
-
Dann
öffnen Sie die Haupt-FDSE Schrift, das Hauptsearch.pl (oder die
Hauptsearch.cgi). Blättern Sie etwa 50 Zeilen zurück und
finden Sie die Zeile gekennzeichnet:
0% const = ('Versorgungseinrichtungsordner pdf' = > ""
-
Betreten
Sie den absoluten Pfad zum Ordner xpdf. Weil FDSE wird, muß
Schale zu diesem Ordner, Ihnen den folgenden StRealm einschließen,
und Sie müssen die für das Betriebssystem Ihres Web-Servers
geeignete StRealmkonvention d.h. verwenden " x: \\ xpdf \\ "auf Windows
und" /x/xpdf/"auf Unix. (der Duplikatete verkehrte Schrägstrich
\\ ist gebraucht weil\ein KontrollcharDateir in Perl sind und entkommen
werden muß). Beispiele:
0% const = ('Versorgungseinrichtungsordner pdf' = > "x:
\\ xpdf \\ ", # Fenster:
0% const = ('Versorgungseinrichtungsordner pdf' = > "/x/xpdf/", # Unix
-
Nach
dem editieren der Suchschrift geben Sie es an den Web-Server zurück
und testen Sie Ihre Änderungen durch Machen einiger normaler
Suchersuchen. Wenn Sie einen Perl Ausführungsfehler sehen, bestätigen
Sie, daß Ihre Änderungen die richtige Syntax mit gepaßten
Zitaten usw. verwenden
-
Schließlich
editieren von der FDSE User Interface Sie den General, der "Ext" durch
Hinzufügen der "pdf" Dateien erweiterung auf die Liste setzt.
Danach redigiert die allgemeine Einstellung "Crawler: Ignorieren Sie
Verbindungen "durch Entfernen der "pdf" Dateien erweiterung aus dieser
Liste. Bestätigen Sie, daß die "AllowBinaryFiles" allgemeine
Einstellung überprüft ist.
Um das
System zu testen, versuchen Sie einfach, eine PDF Datei zu indizieren.
Wenn aller der Text richtig erscheint, dann funktionieren Dinge wahrscheinlich.
Wenn es Probleme gibt, können Sie versuchen, eine Datei mit der "=
1 debuggen" Flagge zu indizieren. Zum Beispiel:
Suche/search.pl?
Modus = Verwaltung & Tat = AddURL & URL = http://xav.com/search/pl2000.pdf & Testhilfe = 1
FDSE wandelt
alle PDF Kopfsprünge in Metaschilder um. Das PDF "Schlüsselwörter"
Attribut wird auf die "Schlüsselwörter" HTML abgebildet Metaschild.
Der PDF "Titel" Kopfsprung wird, wenn anwesend, auf den HTML < Titel
> abgebildet. Wenn der PDF Titel fehlt, da es oft ist, dann wendet
FDSE seine Regeln für das Syntaktischanalysieren von HTML Dateien
ohne Titel an und verwendet den Dateinamen selbst normalerweise als den
Titel.
bekannte
Probleme: Dinge, die zu beachten sind, wenn Sie Schwierigkeiten haben:
-
Eine
PDF Datei syntaktisch zu analysieren, ist ressourcenintensiv und langsam.
Eine 3 MB TestDatei dauerte 31 Sekunden, um syntaktisch zu analysieren.
100 solche Dateien zu indizieren, würde um eine Stunde dauern.
-
xpdf
kann mit einem Gedächtnisfehler zusammenbrechen, wenn daran eine
ungültige PDF Datei weitergeRealmt wird. Dies ist hauptsächlich
gerade ein Ärger, aber auf Windows 2000 bewirkt es, daß
sich automatische Fehlermeldungen ansammeln, auf der Konsole.
-
D
"Max CharDateire: Feilen "Einstellung bewirkt, daß die meisten
Dokumente nur durch die ersten 64.000 CharDateire gelesen werden.
Dies ist kleiner, als das meisten PDF feilt und, eine gekürzte
PDF Datei an xpdf zu senden, bewirkt, daß es zusammenbricht.
FDSE umgeht dieses Problem für die Mehrheit von Fällen durch
Ignorieren d "Max CharDateire: Feilen "für Dateien setzen, die
die ".pdf" Erweiterung haben. Jedoch, wenn Sie PDF Dateien aus dem
Netz zurückholen und der Dokument-URL nicht in ".pdf" endet,
dann können Sie dieses Problem haben. Sie können rund um
es durch Aufstellen arbeiten "Max CharDateire: Feilen "zu 0, um Verkürzung
zu umgehen, oder dadurch, daß es es auf einen genug großen
Wert stellte.
-
FDSE
kann nicht zwischen einer gültigen Antwort von pdftotext und
einer ungültigen Antwort zu unterscheiden ("außerstande,
PDF Datei syntaktisch zu analysieren," zu mögen). In den meisten
Fällen bleibt die allgemeine Einstellung, die "Minimalseitengröße"
FDSE verursachen wird, um Seiten zu ignorieren, die kurze Fehlermeldungen,
aber dort zurückgeben, eine Außenseite riskieren, daß
unrichtige Information indizierte so gültige Daten sein wird.
-
Der
NetzCrawler versucht PDF zu Text Umwandlung auf nur jenen Dokumenten,
die die Inhaltsart "Bewerbung/pdf" zurückgeben. Wenn die PDF
Dateien keinen genauen Inhaltsartenkopfsprung zurückgeben, dann
werden sie nicht richtig verarbeitet.
-
PDF
Dateien können eine Mischung von inlined Abbildungen und computerlesbarem
formatiertem Text enthalten. FDSE ist nur in der Lage den formatierten
Text "zu lesen", und das ist mit der Hilfe vom xpdf Werkzeugkasten
(der Formatierung auszieht und auf nicht-lateinische Sprachen einige
Wörter mangeln kann). Weder FDSE noch der xpdf Werkzeugkasten
kann Text lesen, der in den inlined Abbildungen gespeichert ist. Auf
diese Art abbildungsbasierte PDF Dateien , besonders Faxe, die auf
PDF Format gesichert worden sind, können nicht bedeutungsvoll
durchsucht werden, weil sie nur inline Abbildungsinhalt und keinen
computerlesbaren formatierten Text enthalten.
Verschlüsselung:
Handhabung von PDF Dateien wird von Unterroutine kontrolliert convert_pdf_to_text
welche ist in der "searchmods/common_parse_page.pl" Bibliothek
gefunden. Es ist von Unterroutinen angerufen webrequest und
pagedata_from_file
Wenn alles
Ihres PDFs feilt, tendieren Sie dazu, ihre Beschreibungen im "Thema" PDF
speichern zu lassen, Kopfsprung anstatt dem "Titel" Kopfsprung es kann
sein, daß Sie convert_pdf_to_text editieren wollen, um den HTML
Titel vom "Thema" Kopfsprung stattdessen zu ziehen.
Geschichte:
Unterstützung für PDF Dateien wurde mit FDSE version r2.0.0.0046.
hinzugefügt
Spezieller
Dank ist durch Derek B. Noonburg verursacht für das Schaffen von
xpdf und das Verteilen davon für zu befreien ; und zu Andrew Mossberg
dafür, daß es mir das Produkt beschrieb, nachdem ich alle aufgegeben
hatte, zu hoffen davon, PDF jemals syntaktisch zu analysieren.
|
|