Fra PDF dokument til redigerbar tekst!

lindkaer · Post by **lindkaer** » 16. Nov 2009 23:29

Jeg har en del indscannede gamle maskinskrevne dokumenter gemt i pdf format. Kan jeg på nogen måde bruge Open Office til at "læse" dem og "oversætte" dem til redigerbar tekst

Thiram · Post by **Thiram** » 17. Nov 2009 08:05

Måske kan du have glæde af denne udvidelse?

http://extensions.services.openoffice.o ... pdf+import

Mvh. Thiram

SME · Post by **SME** » 17. Nov 2009 10:21

Thiram henviser til SUN PDF Import udvidelsen, men denne kan du kun anvende, hvis teksten i PDF-filen er gemt som tekst.
Jeg tror dog, at siden indscannede dokumenter, står teksten som et billede. Derfor har du brug for et såkaldt OCR program ("Optical Character Recognition"). Har du MS Office installeret har du faktisk et program til det (Microsoft Office Document Imaging), men du har heldigvis et par gratis valgmuligheder.
Jeg må dog erkende, at jeg ikke har nogle erfaringer med nogle af programmerne, men her er hvad jeg fandt fra google.

Free Online OCR: Her kan du uploade dine PDF'er og få dem analyseret ganske gratis.
Free OCR: Et gratis program til OCR. Desværre kunne jeg ikke se noget på deres hjemmeside, men jeg fandt et sted hvor den muligvis kan downloades
Simple OCR: Endnu et gratis program.
Top OCR: Endnu et gratis program.

Jeg håber det hjælper dig meget!

/Stefan

lindkaer · Post by **lindkaer** » 18. Nov 2009 12:26

SME wrote:Thiram henviser til SUN PDF Import udvidelsen, men denne kan du kun anvende, hvis teksten i PDF-filen er gemt som tekst.
Jeg tror dog, at siden indscannede dokumenter, står teksten som et billede. Derfor har du brug for et såkaldt OCR program ("Optical Character Recognition"). Har du MS Office installeret har du faktisk et program til det (Microsoft Office Document Imaging), men du har heldigvis et par gratis valgmuligheder.
Jeg må dog erkende, at jeg ikke har nogle erfaringer med nogle af programmerne, men her er hvad jeg fandt fra google.

Free Online OCR: Her kan du uploade dine PDF'er og få dem analyseret ganske gratis.

Free OCR: Et gratis program til OCR. Desværre kunne jeg ikke se noget på deres hjemmeside, men jeg fandt et sted hvor den muligvis kan downloades

Simple OCR: Endnu et gratis program.

Top OCR: Endnu et gratis program.
Jeg håber det hjælper dig meget!

/Stefan

Først tak til Thiram og Stefan for hjælpen!

Som du rigtigt skriver, Stefan er mine gamle dokumenter gemt som PDF billeder, så man er afhængig af at have et OCR program til at læse teksten. Jeg troede, at et sådant program måske fandtes i Open office, men tak for dine forslag til andree løsninger, som jeg nu har haft lejlighed til at prøve.
Det viser sig, at det bedste af de foreslåede programmer til mit formål må siges at være "http://www.topocr.com/topocr.html", som dog ikke umiddelbart kan åbne PDF billeder. Men hvis man kopierer PDF dokumentbillederne ind i f.eks "Paint" og derfra gemmer dem som .jpg filer, kan de konverteres af "Top OCR" til redigerbar tekst med et glimrende resultat, som også får de specielle danske tegn æ,ø og å med, hvilket ikke var tilfældet med de andre programmer.
Nu må jeg så bare udforske mulighederne i programmet yderligere

Tak igen for hjælpen!

SME · Post by **SME** » 18. Nov 2009 13:20

Hej

Jeg er glad for at tingene virker.
Til PDF'er bruger jeg selv PDF-XChange Viewer, som er gratis og kan lidt mere end Acrobat Reader. Heriblandt kan man hurtigt eksportere hele pdf-filen til billeder (tiff, png, bmp etc.); du finder det under Filer - Eksportere.

/Stefan

Lodahl · Post by **Lodahl** » 18. Nov 2009 13:31

Hej,
Indskannede pdf-filer, hvor teksten ligger som et billede, kan ikke umiddelbart konverteres til tekst. Der skal som nævnt bruges et OCR program.

Der findes flere forskellige netløsninger, men desværre er de ikke gode til at læse danske karakterer æ, ø og å.

Hvis du har en skanner, så kan det være at du har fået leveret et OCR program med. Ellers er min erfaring desværre, at gode OCR programmer, der kan æ, ø og å, koster en mindre formue.

lindkaer · Post by **lindkaer** » 19. Nov 2009 12:42

Hej Stefan og Lodahl!
Tak for jeres hjælp

Stefan, jeg har brugt dit link til PDF-XChange Viewer, og således har jeg let fået mine PDF billeder konverteret til .jpg. Jeg er nu godt i gang via "Top OCR" at overføre dem til tekst, hvilket går fint, men lidt langsomt, da jeg (vist nok) kun kan overføre en side ad gangen.
Og, Lodahl jeg synes, at resultatet er ganske fint - med æ,ø og å - især når man tager i betragtning, at originaldokumenterne har en del håndskrevne rettelser og komentarer, som naturligvis forstyrrer "oversættelsen"!
Jeg har forsøgt med "Simple OCR" at konvertere nogle håndskrevne dokumenter, men det blev næsten grinagtigt mislykket