da un post di Muggins:
-
http://www.murga-linux.com/puppy/viewtopic.php?p=158179#158179uno script (vedi allegato)
per trasformare tutti i pdf contenuti in una cartella in altrettanti file di testo:
N.B.
ho modificato il codice dello script in allegato per conservare il più possibile, nel file di testo prodotto, la formattazione del testo
codice originale:
#!/bin/sh
params=$#
if [ "$params" -eq 0 ];then
directory=`pwd`
elif [ "$params" -eq 1 ];then
directory="$@"
cd $directory
if [ "$directory" != `pwd` ];then
directory=`pwd`
fi
else
echo "wrong number of arguments!"
exit 1
fi
for file in $directory/*
do
if [ -d "$file" ]; then
cd "$file"
pdfs2txt
cd ..
elif [ `head -c 4 "$file"` = "%PDF" ];then
filename=${file%.pdf}
pdftotext -layout -raw -eol unix $file > "$filename.txt"
fi
done
agendo sui parametri dell'ultima riga:
pdftotext -
layout -raw -eol unix $file > "$filename.txt"
è possibile ottenere il testo
grezzo (
raw o il testo con la sua formattazione originaria (usando
-layout senza l'opzione
-rawrichiede
pdftotext contenuto nelle
xpdfutils