www.liborzukal.cz

  Převod PDF a skenovaných dokumentů do Wordu

Překlady ] Kontakt ] Reference ] Blog ]

 

Při překladatelské práci se velmi často setkáváme s dokumenty v PDF a se skenovanými dokumenty. V tomto článku se pokusím ukázat, jak je možné tyto dokumenty převést na běžný text, který je poté možné dále editovat.

Skenovaný dokumentKdo to někdy zažil, tak jistě ví, o čem píšu. Zákazník nemá k dispozici text ve Wordu nebo jiném textovém editoru a pošle nám tedy místo toho PDF nebo oskenovaný dokument. Pokud nemá tento dokument složité formátování nebo jej stačí jednoduše přeložit bez dalších úprav, tak by to nebyla taková tragédie. I v takovém případě je však potřeba si text vytisknout a při jeho překládání potom sledovat jedním okem papír s textem a druhým okem monitor.

Mnohem horší situace ale nastává tehdy, když je potřeba zachovat výchozí formátování textu. To nás potom mohou čekat třeba i hodiny práce navíc, kdy se usilovně snažíme text správně naformátovat.

Ale nebylo by přece jenom možné se této nepříjemné práci nějak vyhnout a převádět pédéefka a skeny na textové dokumenty, které je možné dále editovat? Dobrou zprávou je to, že to možné je. Špatnou zprávou je však to, že výsledky zřejmě nikdy nebudou úplně stoprocentní.

V tomto článku se budu věnovat možnostem, které jsou poskytovány zdarma. Výsledky, kterých dosahují, jsou často na velmi dobré úrovni. Kromě toho je však dobré hned na úvod zmínit, že existují také placená řešení, jako je např. známý program Adobe Acrobat, kde mohou být výsledky dokonce ještě o něco lepší.

 

Jak převést PDF do Wordu

Nejprve se zaměříme na konverzi běžných PDF dokumentů. Pro převod bez zachování původního formátování můžeme použít některý z rozšířených prohlížečů PDF. Pokud máme zájem o udržení formátování včetně obrázků a tabulek, pak bude vhodnější dát přednost některé z pokročilejších online služeb.

 Foxit Reader/PDF-XChange Viewer

Označení textu v programu Foxit ReaderPokud není nezbytně nutné udržet výchozí formátování textu, tak můžeme jednoduše použít rozšířené prohlížeče PDF dokumentů Foxit Reader nebo PDF-XChange Viewer. Soubor si v jednom z těchto programů jednoduše otevřeme a označíme si myší text, který chceme zkopírovat. Poté si otevřeme nový dokument ve Wordu nebo jiném textovém editoru a tento text zde překopírujeme. Ovšem kromě obrázků, které tímto způsobem není možné přenášet.

Po překopírování pravděpodobně narazíme na problém s nevhodným zalomením řádků. To můžeme vyřešit tím, že si ve Wordu otevřeme dialog „Nahradit“ (klávesová zkratka CTRL+H). Pokud kopírujeme z programu Foxit Reader, tak zadáme, že chceme nahradit znaky zalomení řádku „^l“ (stříška, která je na anglické klávesnici nad číslicí 6, a písmenko „el“) jednoduchou mezerou „ “.

Podobně budeme postupovat při kopírování z programu PDF-XChange Viewer, kde si nahradíme znaky zalomení odstavce „^p“ (stříška, která je na anglické klávesnici nad číslicí 6, a písmenko „pé“) jednoduchou mezerou „ “. Nyní se nám text rozprostře na celou stránku a následně si jej podle potřeby rozčleníme do odstavců.

Online převod v PDF to Word Converter

Online převod PDF do WorduMnohem pokročilejší a sofistikovanější možnosti konverze PDF dokumentů do běžného textu nám nabízejí některé online služby. Na základě dlouhodobého testování jsem dospěl k tomu, že nejlepších výsledků dosahuje online služba PDF to Word Converter. Dokáže převést i mnohastránkové dokumenty. Poradí si dobře nejenom s obrázky, ale i s komplikovanými tabulkami a dalšími formátovacími prvky.

Jedná se o rozšířenou službu, která má ve svých podmínkách uvedeno, že informace uvedené v dokumentech jsou zachovávány jako soukromé. Zřejmě se tedy není třeba příliš obávat ani u dokumentů, které obsahují osobní nebo jinak citlivé údaje. Dokument se nahraje pomocí tlačítka „Upload a File to Convert“ a následně se zvolí požadovaný výstup. U kratších dokumentů bychom měli mít výstup za pár okamžiků, u delších dokumentů to může trvat až několik minut. Ale jistě stojí zato si počkat…

 

Jak převést skenované dokumenty do Wordu

Druhou oblastí, na kterou bych se v tomto článku chtěl zaměřit, je konverze skenovaných dokumentů. Tato metoda se často označuje anglickou zkratkou OCR (Optical Character Recognition – Optické rozpoznávání znaků).

Touto funkcí již bývá vybavena většina současných tiskáren se skenerem. Funguje to jednoduše tak, že se na skener tiskárny položí kniha nebo jiný vytištěný dokument. Skener detekuje text a automaticky z něj vytvoří textový dokument, který je možné dále editovat.

Překladatel se ovšem setkává s tím, že mu zákazník pošle oskenovaný dokument v elektronické podobě. Pro převod tohoto dokumentu do textové podoby je většinou nejsnazší použít nějaký desktopový program. Zřejmě nejznámějším z nich je program Adobe Acrobat, my se však v tomto článku zaměříme na řešení, která jsou k dispozici zdarma.

Při převodu skenovaných dokumentů je vždy třeba mít na paměti, že výsledky nebudou nikdy úplně dokonalé. Většinou můžeme předem zapomenout na to, že by se nám mohlo podařit udržet výchozí formátování textu, a nejspíše přijdeme také o obrázky, které byly jeho součástí. Vždy je také vhodné provést kontrolu převedeného dokumentu, protože program s velkou pravděpodobností špatně rozpozná některé znaky.

Převod skenovaných dokumentů ve Foxit Reader/PDF-XChange Viewer

Nástroj Výběr v programu PDF-XChange ViewerK převodu skenů do textové podoby je opět možné úspěšně použít programy Foxit Reader nebo PDF-XChange Viewer. Použijeme podobný postup. Skenovaný dokument si v některém z těchto programů jednoduše otevřeme a zvolíme si volbu Vybrat text/Select text, respektive Nástroj Výběr. Poté si myší označíme text, který chceme převést. Tento text poté překopírujeme do Wordu nebo jiného textovéhoeditoru.

Stejně jako v případě převodu textu z obyčejného pédéefka je následně vhodné nahradit znaky konce řádku „^l“ (při přenosu z Foxit Reader), respektive znaky konce odstavce „^p“ (při přenosu z PDF-XChange Viewer), obyčejnou mezerou „ “.

Převod skenovaných dokumentů pomocí služby onlineocr.net

Mnohem lepších výsledků je možné dosáhnout při využití internetové služby onlineocr.net. Je ale třeba uvést, že se jedná o placenou službu, která nabízí zdarma pouze několik úvodních stránek. Pokud však potřebujete provádět OCR jen velmi zřídka, pak to určitě může být skvělá alternativa. Výhodou je to, že vám zůstane do značné míry zachováno výchozí formátování textu včetně obrázků.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Libor Zukal

 

libor.zukal@gmail.com

mob.: 799 797 165 

Skype: libor.zukal

 

IČ: 76511766

Nejsem plátce DPH

 

 

I work with Trados Studio 2015