Har du et PDF-dokument, som du gerne vil udtrække al teksten ud af? Hvad med billedfiler i et scannet dokument, som du vil konvertere til redigerbar tekst? Dette er nogle af de mest almindelige problemer, jeg har set på arbejdspladsen, når jeg arbejder med filer.
I denne artikel vil jeg snakke om flere forskellige måder, du kan gøre ved at prøve at udtrække tekst fra en PDF eller fra et billede. Dine udvindingsresultater varierer afhængigt af typen og kvaliteten af teksten i PDF eller billede. Dine resultater varierer også afhængigt af det værktøj, du bruger, så det er bedst at afprøve så mange af mulighederne herunder som muligt for at få de bedste resultater.
Den enkleste og hurtigste måde at starte er at prøve en online PDF tekst udtræk service. Disse er normalt gratis og kan give dig præcis det, du leder efter, uden at skulle installere noget på din computer. Her er to, jeg har brugt med meget gode til fremragende resultater:
ExtractPDF er et gratis værktøj til at gribe billeder, tekst og skrifttyper ud af en PDF-fil. Den eneste begrænsning er, at den maksimale størrelse for PDF-filen er 10 MB. Det er lidt lille; så hvis du har en større fil, prøv nogle af de andre metoder nedenfor. Vælg din fil, og klik derefter på knappen Send fil . Resultaterne er normalt meget hurtige, og du bør se et eksempel på teksten, når du klikker på fanen Tekst.
Det er også en god ekstra fordel at det også uddrages billeder ud af PDF-filen, bare hvis du har brug for dem! Samlet set fungerer onlineværktøjet godt, men jeg har kørt ind i et par PDF-dokumenter, der giver mig sjov output. Teksten udvindes bare fint, men af en eller anden grund vil det have en linie pause efter hvert ord! Ikke et stort problem for en kort PDF-fil, men bestemt et problem for filer med masser af tekst. Hvis det sker for dig, skal du prøve det næste værktøj.
Online OCR plejede normalt at arbejde for de dokumenter, der ikke konverterede ordentligt med ExtractPDF, så det er en god idé at prøve begge tjenester for at se, hvilke der giver dig bedre output. Online OCR har også nogle pænere funktioner, der kan vise sig praktisk for alle med en stor PDF-fil, der kun skal konvertere tekst på et par sider i stedet for hele dokumentet.
Det første du vil gøre er at gå videre og oprette en gratis konto. Det er lidt irriterende, men hvis du ikke opretter den gratis konto, vil den kun delvis konvertere din PDF i stedet for hele dokumentet. Også i stedet for kun at kunne uploade kun et 5 MB dokument, kan du uploade op til 100 MB pr. Fil med en konto.
Først skal du vælge et sprog og derefter vælge den type outputformater, du vil have til den konverterede fil. Du har et par muligheder og du kan vælge mere end en, hvis du vil. Under Multipagedokument kan du vælge Sidetal og derefter kun vælge de sider, du vil konvertere. Derefter vælger du filen og klikker på Konverter !
Efter konvertering vil du blive bragt til afsnittet Dokumenter (hvis du er logget ind), hvor du kan se, hvor mange ledige gratis sider du har tilbage, og links til at downloade dine konverterede filer. Det lader til, at du kun har 25 sider gratis om dagen, så hvis du har brug for mere end det, skal du enten vente lidt eller købe flere sider.
Online OCR gjorde et fremragende arbejde med at konvertere mine PDF-filer, fordi det var i stand til at opretholde den faktiske layout af teksten. I min test tog jeg et Word-dokument, der brugte kugler, forskellige skrifttypestørrelser osv. Og konverterede det til en PDF. Så brugte jeg Online OCR til at konvertere det tilbage til Word-format, og det var omkring 95% det samme som originalen. Det er ret imponerende for mig.
Plus, hvis du søger at konvertere et billede til tekst, så kan Online OCR gøre det lige så nemt som at udvinde tekst fra PDF-filer.
Siden talte om billede til tekst OCR, lad mig nævne en anden god hjemmeside, der fungerer rigtig godt på billeder. Gratis online OCR var meget god og meget nøjagtig, når du ekstraherede tekst fra mine testbilleder. Jeg tog et par billeder fra min iPhone af sider fra bøger, brochurer osv., Og jeg var overrasket over, hvor godt det var i stand til at konvertere teksten.
Vælg din fil, og klik derefter på knappen Upload. På den næste skærm er der et par muligheder og et eksempel på billedet. Du kan beskære det, hvis du ikke vil OCR det hele. Klik derefter på OCR-knappen, og din konverterede tekst vises under billedeksemplet. Det har heller ikke nogen begrænsninger, hvilket er rigtig flot.
Ud over onlinetjenesterne er der to freeware PDF-konverterere, jeg vil nævne, hvis du har brug for software, der kører lokalt på din computer for at udføre konverteringerne. Med onlinetjenester har du altid brug for en internetforbindelse, og det er muligvis ikke muligt for alle. Jeg bemærkede dog, at kvaliteten af konverteringerne fra freeware-programmerne var signifikant værre end de af hjemmesiderne.
A-PDF Text Extractor er freeware, der gør et ret godt stykke arbejde med at udvinde tekst fra PDF-filer. Når du har downloadet det og installeret det, skal du klikke på knappen Åbn for at vælge din PDF-fil. Klik derefter på Uddrag tekst for at starte processen.
Det vil bede dig om et sted at gemme tekstuddatafilen, og så begynder den at udvinde. Du kan også klikke på knappen Option, som lader dig kun vælge bestemte sider, der skal udtrækkes og udtrækstypen. Den anden mulighed er interessant, fordi den ekstraherer teksten i forskellige layouter, og det er værd at prøve alle tre for at se, hvilke der giver dig det bedste output.
PDF2Text Pilot gør et godt stykke arbejde med uddragning af tekst. Det har ingen valgmuligheder; Du tilføjer blot filer eller mapper, konverter og håber på det bedste. Det fungerede godt på nogle PDF-filer, men for de fleste af dem var der mange problemer.
Klik blot på Tilføj filer, og klik derefter på Konverter . Når konverteringen er færdig, skal du klikke på Gennemse for at åbne filen. Din kilometertal vil variere ved hjælp af dette program, så forvent ikke meget.
Det er også værd at nævne, at hvis du er i et corporate miljø eller kan få hænderne på en kopi af Adobe Acrobat fra arbejde, så kan du virkelig få meget bedre resultater. Acrobat er naturligvis ikke gratis, men det har muligheder for at konvertere PDF til Word, Excel og HTML-format. Det gør også det bedste sted at opretholde strukturen i det originale dokument og konvertere kompliceret tekst.
En MDI-fil, der repræsenterer Microsoft Document Imaging, er et proprietært Microsoft-billedformat, der bruges til lagring af billeder af scannede dokumenter, der er oprettet ved hjælp af programmet Microsoft Office Document Imaging (MODI). Programmet blev inkluderet i Office XP, Office 2003 og Office 2007. D
Hvorfor er der så mange "Microsoft Visual C ++ Redistributables" installeret på min pc?
Hvis du nogensinde har rullet gennem din liste over installerede programmer i Windows, undrer du dig over, hvorfor der er så mange versioner af Microsoft Visual C ++ Redistributable der, er du ikke alene. Følg os, når vi kigger på, hvad disse ting er, og hvorfor der er så mange installeret på din pc.