Pagina 1 van 1
Zoeken in PDF scans (OCR, etc)
Geplaatst: 17 okt 2019, 18:04
door Tomby
Heb recent op iBood een multi-functional gekocht met dubbelzijdige scanner en automatische document feeder. Dat maakt het nu ineens heel gemakkelijk om van alles en nog wat uit mijn administratie (facturen, contracten, etc...) te gaan scannen en digitaal te bewaren.
Echter, de pdf's zijn uiteraard gewoon 'afbeeldingen' en je kan dus achteraf ook geen search gaan doen in deze scans.
Is er een manier om achteraf OCR te gaan doen op deze pdf's, zodat die ook meta-data of iets dergelijks krijgen, waardoor je er dan toch kunt in gaan zoeken ? Liefst gratis
.
Re: Zoeken in PDF scans (OCR, etc)
Geplaatst: 17 okt 2019, 18:29
door heist_175
Able 2 extract
Re: Zoeken in PDF scans (OCR, etc)
Geplaatst: 17 okt 2019, 18:55
door raf1
Re: Zoeken in PDF scans (OCR, etc)
Geplaatst: 17 okt 2019, 20:36
door jutuiz
Scannen met NAPS.
Je kan ook scannen met je normaal programma. De Pdf's slepen naar NAPS en laten OCR'en.
Re: Zoeken in PDF scans (OCR, etc)
Geplaatst: 18 okt 2019, 13:59
door fred_be9300
Ik gebruik ook naps2, voor privé gebruik (alle rekeningen, medische documenten, administratie, etc).
Naps2 gebruikt ook tesseract4 , en sinds de laatste major release een snellere workflow, met OCR die in de achtergrond plaatsvindt. Handige tool.
Re: Zoeken in PDF scans (OCR, etc)
Geplaatst: 21 okt 2019, 09:39
door devilkin
Ik was aan het zien of je met NAPS2 ook batch OCR zou kunnen doen (ik heb reeds een paar honderden documenten ingescanned) - blijkbaar verwacht dat ding wel steevast dat je ook gaat scannen. Iemand ervaring met batch import/export?
Edit: profiel aangemaakt met WAI, geen scanner geselecteerd, werkt. Ding komt effe kreften dat ie geen scanner kan vinden, maar #care.
Re: Zoeken in PDF scans (OCR, etc)
Geplaatst: 21 okt 2019, 10:14
door fred_be9300
devilkin schreef:Ik was aan het zien of je met NAPS2 ook batch OCR zou kunnen doen
Er is ook een command line versie meegeinstalleerd. Ik heb die zelf ook ooit gebruikt om ocr te doen (jpg -> ocr'd pdf). Misschien interessant voor jou
Re: Zoeken in PDF scans (OCR, etc)
Geplaatst: 21 okt 2019, 14:20
door Tomby
Merci al voor de nuttige suggesties !
Ik merk echter dat ik nog wel enkele wensen heb, en vraag me af of hoe anderen dit doen:
1. Ivm PDF OCR. Krijg je dan een PDF die wedersamengesteld is, maar waarbij de originele scan dus niet meer in de pdf zit, of heb je dan een pdf die er uitziet als het origineel document maar waarbij de content dus wel searchable is (als meta-content of zo) ?
2. En hoe kan je dan gemakkelijkst zoeken over alle documenten heen ? Da's dan wellicht eer een OS en indexing vraag. Al mijn docs staan op een Synology.
3. Wat is de gemakkelijkste manier om doorheen een hoop pdfs te bladeren ? Telkens elke pdf gaan openen via double-click is niet bepaald snel als je dat vergelijkt met gewoon door de papieren versies te snuisteren. Ik kan natuurlijk eerst wel een merge doen in pdfsam van alle losse pdf's maar dat lijkt me nogal een omweg. Ideaal zou een soort Acrobat Reader zijn waarbij je een folder kunt openen en dan heel snel het volgende/vorige document openen, zoals je bvb ook door foto's browset.
Re: Zoeken in PDF scans (OCR, etc)
Geplaatst: 21 okt 2019, 14:33
door tb0ne
Re: Zoeken in PDF scans (OCR, etc)
Geplaatst: 21 okt 2019, 16:05
door Tomby
Thanks. Ja, misschien ben ik ineens een beetje te ambitieus.
Als ik zie hoe gemakkelijk ik iets terugvind in bvb OneNote (die automatisch OCR doet) of GMail, dan dacht ik dat het wel leuk zou zijn als dat ook het geval zou zijn op alles wat ik nu momenteel aan het inscannen ben. Het digitalizeren van mijn papierwerk gaat ook veel vlotter dan ik verwacht had (niet moeilijk met een printer die nu een pak papier scant aan 30 pages per minuut single-sided) dus wou ik toch al even nadenken over de voordelen van alles op mijn NAS te hebben.
Re: Zoeken in PDF scans (OCR, etc)
Geplaatst: 22 okt 2019, 13:32
door jutuiz
Een document management systeem is natuurlijk ook "the whole chabang". Dat wou ik zelf niet.
Ik heb me recent na een zoektocht van een week een Directory Opus licentie gekocht. Is een Windows Explorer vervanger die nog stamt uit de goede oude Amiga tijd.
Directory Opus heeft dual pane en een preview pane, voor elk mogelijk bestand, dus ook voor PDF'en. Zoekfunctie ook zeer uitgebreid. Laat toe om bvb. pdf te previewen en tegelijk te hernoemen ifv de inhoud.
Er zijn veel van die dual pane explorers, maar nog nooit kon er mijn één bekoren. Tot nu. Het is een zéér zéér goede tool.
Naast Naps en Fineprint weet ik nu al dat dit een blijvertje zal worden.