Hallo,
ich hoffe Ihr könnt mir weiterhelfen.
Ich bin was PDFs angeht überhaupt nicht fit und hoffe Ihr könnt mir weiterhelfen. Vor allem dachte ich da an Java Script was helfen könnte.
Ich habe eine PDF mit ca. 1200 Seiten. Ungefähr die hälfte davon haben ein bestimmtes Wort (z.B. Rev. 17). Ich möchte nun alle Seiten wo dieses Wort vorkommt extrahieren und in einer separate Datei speichern.
Geht das mit Java oder einer anderen Funktion?
Besten Dank!
Suchen und Seiten extrahieren
-
- Beiträge: 9
- Registriert: 07.05.2014, 14:45
Suchen und Seiten extrahieren
Auch wenn ich fast nicht glaube dass dir das jetzt noch hilft, vielleicht hat ja noch jemand anderes ein ähnliches Problem.
Es gibt meines Wissens keine Funktion, ein bestimmtes Wort zu finden.
Das einzige was mir einfallen würde, wenn auch sehr rechenaufwändig, nach und nach jedes einzelne Wort zu überprüfen.
Außerdem kann man zwar einzelne oder mehrere aufeinanderfolgende Seiten extrahieren, aber keine beliebigen, also z.B. Seite 1-2 & Seite 12, die restlichen nicht.
Mein Vorschlag wäre also alle Seiten, die das gesuchte Wort nicht enthalten zu löschen und das Dokument unter einem neuen Namen zu speichern.
[fontsize=1]
Skript ausprobiert, kleinen Syntaxfehler drin, jetzt sollte es gehen.[/fontsize]
Es gibt meines Wissens keine Funktion, ein bestimmtes Wort zu finden.
Das einzige was mir einfallen würde, wenn auch sehr rechenaufwändig, nach und nach jedes einzelne Wort zu überprüfen.
Außerdem kann man zwar einzelne oder mehrere aufeinanderfolgende Seiten extrahieren, aber keine beliebigen, also z.B. Seite 1-2 & Seite 12, die restlichen nicht.
Mein Vorschlag wäre also alle Seiten, die das gesuchte Wort nicht enthalten zu löschen und das Dokument unter einem neuen Namen zu speichern.
Code: Alles auswählen
function searchAndExtract(Suchbegriff) {
for (nPage=0; nPage<this.numPages; nPage++) {
for (nWord=0; nWord<this.getPageNumWords(nPage); nWord++) {
if (this.getPageNthWord(nPage, nWord) == Suchbegriff) break; //Dann innere Schleife abbrechen
}
if (nWord == this.getPageNumWords(nPage)) { //Schleife wurde nicht abgebrochen
this.deletePages(nPage); //Seite löschen
nPage-- //Es gibt jetzt eine Seite weniger im Dokument, die gleiche Seitennummer muss also im nächsten Durchlauf erneut überprüft werden.
}
}
Skript ausprobiert, kleinen Syntaxfehler drin, jetzt sollte es gehen.[/fontsize]
- nele_sonntag
- Beiträge: 2742
- Registriert: 04.05.2009, 15:12
- Wohnort: Frankfurt
- Kontaktdaten:
Suchen und Seiten extrahieren
Dank Dir für Deinen Lösungsansatz, denn Du hast wirklich recht (..also ich sehe es auch so, will ich damit sagen
). Promsn benötigt es evtl. wirklich nicht mehr, aber all die anderen, die auf diese Dikussion stoßen!!
Ein schönes Wochenende,
LG Mandy

Ein schönes Wochenende,
LG Mandy