Mám situaci, kdy potřebuji extrahovat obrázky ze spousty souborů PDF a zobrazit je na webu. Moje soubory PDF mají „běžné“ obrázky a také spoustu grafů.
Použil jsem pdf2xml a vytáhne obrázky ve formátech jpeg, ppm, pbm a vec. Vidím, že se „běžné“ obrázky extrahují (z větší části) jako jpeg/ppm/pbm, ale nevidím tam grafy – a tak předpokládám, že je pdf2xml ukládá jako soubory .vec.
Otázka tedy zní, jak dostanu své grafy? Použil jsem convert
který je dodáván s imagemagick pro převod .vec na jpeg/png atd., ale bez úspěchu.
Přijatá odpověď:
Nikdy jsem nezkoušel pdf2xml, ale při procházení jeho souborů na SourceForge jsem našel vec2svg-2.py, což vypadá jako skript Pythonu pro převod souborů .vec na .svg. Neměli byste mít žádné potíže s převodem SVG do jakéhokoli formátu, který potřebujete.
python vec2svg-2.py -i file.vec -o file.svg