Kuidas saab PDF-vormingus teksti vormindamise säilitamisel kopeerida?

PDF, mis on kõikjal levinud dokumendivorming, on suurepärane dokumentide jagamiseks, säilitades samas fonte, pilte ja üldist paigutust. Kas on siiski lihtne säilitada see väga vormindamine, kui tekstist kopeeritakse ja kleepige?

Tänane küsimuste ja vastuste seanss saabub meiega kohtades, kus on SuperUser-Stack Exchange'i alajaotis, kogukondlikult juhitav Q&A veebisaitide rühmitus.

Küsimus

SuperUser-lugeja Colen otsib võimalust PDF-failidest teksti väljavõtmiseks, säilitades samal ajal vormingu:

Kui kopeerin teksti PDF-failist välja ja tekstiredaktorisse, on see mitmel moel kokku puutunud. Vormitud on näiteks rasvane ja kaldkiri; teksti lõikudes olevad pehme reavahetused teisendatakse kõvaks jooneks. sõnad üle kahe rea katkestavad, isegi kui nad ei peaks olema; ning ühe- ja kahekordsed jutumärgid asendatakse? märgid.

Ideaalis tahaksin, et ma saaksin PDF-failist teksti kopeerida ja HTML-koodideks ümber kujundada, “nutikas hinnapakkumisi” konverteerida “ja” ning reavahetused on tehtud korralikult. Kas on võimalik seda teha?

Kas Colenile (ja ülejäänud meile) on kiire ja lihtne viis saada teksti ilma vormindamist ohverdamata?

Vastus

SuperUser'i toetaja Frabjous pakub lahendust koos suure ettevaatusega annusega:

Esiteks peate mõistma, mida PDF on. PDF-failid on mõeldud trükitud lehekülje jäljendamiseks ja need on mõeldud ainult väljundvorminguks, mitte sisendvorminguks. PDF on põhimõtteliselt kaart, mis sisaldab täpse tähemärkide asukohta (üksikud tähed või kirjavahemärgid jne) või pilte. Enamikel juhtudel ei talletata PDF-i isegi teavet selle kohta, kus üks sõna lõpeb ja teine algab, palju vähem asju nagu pehmed vaheajad vs kõvakatked lõike lõikudes.

(Mõned hiljutised PDF-failid säilitavad selle teabe kohta mõned andmed, kuid see on uus tehnoloogia, ja te oleksite õnnelikud, et leida selliseid PDF-faile. Isegi kui sa seda tegid, ei pruugi teie PDF-vaataja sellest teada.)

Igatahes on teie tarkvara ülesanne rakendada mingisugust „tehisintellekti”, et eraldada ainult üksikute märkide asukohast, mis on sõna, mis on lõik ja nii edasi. Erinevad tarkvara teevad seda paremini kui teised, ja see sõltub ka sellest, kuidas PDF-fail tehti. Igal juhul ei tohiks te kunagi oodata täiuslikke tulemusi. Väljundi PDF-i omamine ei ole sama, mis algallikaga. Palju parem on seda saada, kui saate.

Teie probleemi tüübi standardlahendus on kasutada Adobe Acrobat Professionali (kallis, mitte tasuta lugeja) PDF-i teisendamiseks HTML-ks. Isegi see ei anna täiuslikke tulemusi.

On vaba tarkvara, mida saab kasutada PDF-failidest teksti väljavõtte tegemiseks mõnede vorminduste puutumata kujul, kuid jälle ei oota täiuslikke tulemusi. Vaadake näiteks kaliiberit (mis saab teisendada RTF-vormingusse), pdftohtml / pdfreflow või AbiWordi tekstiprotsessorit (kõik impordi- / ekspordi pluginad on lubatud). OpenOffice'i jaoks on olemas ka PDF-i impordi plugin.

Aga ärge oodake täiuslikkust ühegi nende tulemustega. Sa lähed siin vilja vastu. PDF lihtsalt ei ole mõeldud muudetavaks sisendvorminguks.

Kui teil on probleeme otsustada, milline tööriist alustada, on Caliber tõeline dokument Šveitsi armee nuga. Võite seda kasutada ka PDF-failide konverteerimiseks kasutamiseks teie ebook-lugejas ja oma ebook / dokumendikogu korraldamiseks.

Kas teil on midagi lisada selgitusele? Hääletage kommentaarides. Kas soovite lugeda rohkem vastuseid teistelt tech-savvy Stack Exchange'i kasutajatelt? Vaadake siin täielikku arutelu lõiku.