Fra PDF dokument til redigerbar tekst!

Brugerhjælp og support til tekstbehandling i LibreOffice Writer

Moderators: Lodahl, Ejnar

Post Reply
lindkaer
Posts: 3
Joined: 29. Jun 2007 00:02
Location: Hvidovre

Fra PDF dokument til redigerbar tekst!

Post by lindkaer »

Jeg har en del indscannede gamle maskinskrevne dokumenter gemt i pdf format. Kan jeg på nogen måde bruge Open Office til at "læse" dem og "oversætte" dem til redigerbar tekst :?: :roll:
Mvh
Lindkær
Thiram
Posts: 13
Joined: 19. Sep 2007 11:51
Location: Nordjylland

Post by Thiram »

Måske kan du have glæde af denne udvidelse?

http://extensions.services.openoffice.o ... pdf+import

Mvh. Thiram
SME
Posts: 163
Joined: 29. Sep 2008 11:05
Location: Silkeborg, Danmark
Contact:

Post by SME »

Thiram henviser til SUN PDF Import udvidelsen, men denne kan du kun anvende, hvis teksten i PDF-filen er gemt som tekst.
Jeg tror dog, at siden indscannede dokumenter, står teksten som et billede. Derfor har du brug for et såkaldt OCR program ("Optical Character Recognition"). Har du MS Office installeret har du faktisk et program til det (Microsoft Office Document Imaging), men du har heldigvis et par gratis valgmuligheder.
Jeg må dog erkende, at jeg ikke har nogle erfaringer med nogle af programmerne, men her er hvad jeg fandt fra google.
  • Free Online OCR: Her kan du uploade dine PDF'er og få dem analyseret ganske gratis.
  • Free OCR: Et gratis program til OCR. Desværre kunne jeg ikke se noget på deres hjemmeside, men jeg fandt et sted hvor den muligvis kan downloades
  • Simple OCR: Endnu et gratis program.
  • Top OCR: Endnu et gratis program.
Jeg håber det hjælper dig meget!

/Stefan
OOo 3.1 kører fint på Vista Home Premium.
lindkaer
Posts: 3
Joined: 29. Jun 2007 00:02
Location: Hvidovre

Fra PDF dokument til redigerbar tekst!

Post by lindkaer »

SME wrote:Thiram henviser til SUN PDF Import udvidelsen, men denne kan du kun anvende, hvis teksten i PDF-filen er gemt som tekst.
Jeg tror dog, at siden indscannede dokumenter, står teksten som et billede. Derfor har du brug for et såkaldt OCR program ("Optical Character Recognition"). Har du MS Office installeret har du faktisk et program til det (Microsoft Office Document Imaging), men du har heldigvis et par gratis valgmuligheder.
Jeg må dog erkende, at jeg ikke har nogle erfaringer med nogle af programmerne, men her er hvad jeg fandt fra google.
  • Free Online OCR: Her kan du uploade dine PDF'er og få dem analyseret ganske gratis.
  • Free OCR: Et gratis program til OCR. Desværre kunne jeg ikke se noget på deres hjemmeside, men jeg fandt et sted hvor den muligvis kan downloades
  • Simple OCR: Endnu et gratis program.
  • Top OCR: Endnu et gratis program.
Jeg håber det hjælper dig meget!

/Stefan

Først tak til Thiram og Stefan for hjælpen! :D
Som du rigtigt skriver, Stefan er mine gamle dokumenter gemt som PDF billeder, så man er afhængig af at have et OCR program til at læse teksten. Jeg troede, at et sådant program måske fandtes i Open office, men tak for dine forslag til andree løsninger, som jeg nu har haft lejlighed til at prøve.
Det viser sig, at det bedste af de foreslåede programmer til mit formål må siges at være "http://www.topocr.com/topocr.html", som dog ikke umiddelbart kan åbne PDF billeder. Men hvis man kopierer PDF dokumentbillederne ind i f.eks "Paint" og derfra gemmer dem som .jpg filer, kan de konverteres af "Top OCR" til redigerbar tekst med et glimrende resultat, som også får de specielle danske tegn æ,ø og å med, hvilket ikke var tilfældet med de andre programmer.
Nu må jeg så bare udforske mulighederne i programmet yderligere :wink:
Tak igen for hjælpen!
Mvh
Lindkær
SME
Posts: 163
Joined: 29. Sep 2008 11:05
Location: Silkeborg, Danmark
Contact:

Post by SME »

Hej

Jeg er glad for at tingene virker.
Til PDF'er bruger jeg selv PDF-XChange Viewer, som er gratis og kan lidt mere end Acrobat Reader. Heriblandt kan man hurtigt eksportere hele pdf-filen til billeder (tiff, png, bmp etc.); du finder det under Filer - Eksportere.

/Stefan
OOo 3.1 kører fint på Vista Home Premium.
Lodahl
Posts: 1961
Joined: 14. Sep 2005 08:27
Location: Storkøbenhavn
Contact:

Post by Lodahl »

Hej,
Indskannede pdf-filer, hvor teksten ligger som et billede, kan ikke umiddelbart konverteres til tekst. Der skal som nævnt bruges et OCR program.

Der findes flere forskellige netløsninger, men desværre er de ikke gode til at læse danske karakterer æ, ø og å.

Hvis du har en skanner, så kan det være at du har fået leveret et OCR program med. Ellers er min erfaring desværre, at gode OCR programmer, der kan æ, ø og å, koster en mindre formue.
Med venlig hilsen

Leif Lodahl
Blog: https://libreofficedk.blogspot.dk
LibreOffice: http://da.libreoffice.org
lindkaer
Posts: 3
Joined: 29. Jun 2007 00:02
Location: Hvidovre

Fra PDF dokument til redigerbar tekst!

Post by lindkaer »

Hej Stefan og Lodahl!
Tak for jeres hjælp :D
Stefan, jeg har brugt dit link til PDF-XChange Viewer, og således har jeg let fået mine PDF billeder konverteret til .jpg. Jeg er nu godt i gang via "Top OCR" at overføre dem til tekst, hvilket går fint, men lidt langsomt, da jeg (vist nok) kun kan overføre en side ad gangen.
Og, Lodahl jeg synes, at resultatet er ganske fint - med æ,ø og å - især når man tager i betragtning, at originaldokumenterne har en del håndskrevne rettelser og komentarer, som naturligvis forstyrrer "oversættelsen"!
Jeg har forsøgt med "Simple OCR" at konvertere nogle håndskrevne dokumenter, men det blev næsten grinagtigt mislykket :lol: :!:
Mvh
Lindkær
Post Reply