Autore Topic: conversione di tutti i pdf di una cartella in file di testo  (Letto 2697 volte)

0 Utenti e 1 Visitatore stanno visualizzando questo topic.

Offline puppylinux

  • Pastore tedesco
  • *****
  • Post: 1561
    • Mostra profilo
    • E-mail
conversione di tutti i pdf di una cartella in file di testo
« il: Gennaio 18, 2008, 12:56:46 pm »
da un post di Muggins:

- http://www.murga-linux.com/puppy/viewtopic.php?p=158179#158179

uno script (vedi allegato)

per trasformare tutti i pdf contenuti in una cartella in altrettanti file di testo:



N.B.

ho modificato il codice dello script in allegato per conservare il più possibile, nel file di testo prodotto, la formattazione del testo



codice originale:


Codice: [Seleziona]
#!/bin/sh

params=$#



if [ "$params" -eq 0 ];then

   directory=`pwd`

elif [ "$params" -eq 1 ];then

   directory="$@"

   cd $directory

   if [ "$directory" != `pwd` ];then

      directory=`pwd`

   fi

else

   echo "wrong number of arguments!"

   exit 1

fi



for file in $directory/*

do

   if [ -d "$file" ]; then

      cd "$file"

          pdfs2txt

          cd ..

     elif [ `head -c 4 "$file"` = "%PDF" ];then

      filename=${file%.pdf}         

      pdftotext -layout -raw -eol unix $file > "$filename.txt"

   



   fi



done



agendo sui parametri dell'ultima riga:



pdftotext -layout -raw -eol unix $file > "$filename.txt"

è possibile ottenere il testo grezzo (raw o il testo con la sua formattazione originaria (usando -layout senza l'opzione -raw

richiede pdftotext contenuto nelle xpdfutils
http://dokupuppylinux.info
dropbox 2GB di spazio gratuito per i tuoi file - http://db.tt/Vc6IeN4
rimpiazza.co.cc con .info per accedere ai programmi linkati sul mio sito

 

Iscriviti alla newsletter

Ricevi le notizie più importanti direttamente nella tua casella email (premi invio dopo l'indirizzo)