Zoeken in PDF scans (OCR, etc)

Windows, Android, iOS, Linux, Chrome OS, ...
Plaats reactie
Tomby
Elite Poster
Elite Poster
Berichten: 5759
Lid geworden op: 01 feb 2006, 12:36
Uitgedeelde bedankjes: 1057 keer
Bedankt: 435 keer

Heb recent op iBood een multi-functional gekocht met dubbelzijdige scanner en automatische document feeder. Dat maakt het nu ineens heel gemakkelijk om van alles en nog wat uit mijn administratie (facturen, contracten, etc...) te gaan scannen en digitaal te bewaren.
Echter, de pdf's zijn uiteraard gewoon 'afbeeldingen' en je kan dus achteraf ook geen search gaan doen in deze scans.

Is er een manier om achteraf OCR te gaan doen op deze pdf's, zodat die ook meta-data of iets dergelijks krijgen, waardoor je er dan toch kunt in gaan zoeken ? Liefst gratis :).
Gebruikersavatar
heist_175
Elite Poster
Elite Poster
Berichten: 13045
Lid geworden op: 07 okt 2010, 09:35
Locatie: Kempen
Uitgedeelde bedankjes: 433 keer
Bedankt: 856 keer

Able 2 extract
Gebruikersavatar
raf1
Elite Poster
Elite Poster
Berichten: 4954
Lid geworden op: 17 nov 2009, 22:39
Uitgedeelde bedankjes: 235 keer
Bedankt: 1542 keer

Gebruikersavatar
jutuiz
Premium Member
Premium Member
Berichten: 608
Lid geworden op: 23 okt 2016, 15:26
Locatie: West-Vlaanderen
Uitgedeelde bedankjes: 95 keer
Bedankt: 30 keer

Scannen met NAPS.
Je kan ook scannen met je normaal programma. De Pdf's slepen naar NAPS en laten OCR'en.
fred_be9300
Pro Member
Pro Member
Berichten: 244
Lid geworden op: 30 nov 2005, 20:42
Uitgedeelde bedankjes: 84 keer
Bedankt: 12 keer

Ik gebruik ook naps2, voor privé gebruik (alle rekeningen, medische documenten, administratie, etc).

Naps2 gebruikt ook tesseract4 , en sinds de laatste major release een snellere workflow, met OCR die in de achtergrond plaatsvindt. Handige tool.
Gebruikersavatar
devilkin
Elite Poster
Elite Poster
Berichten: 4884
Lid geworden op: 17 mei 2006, 20:10
Uitgedeelde bedankjes: 551 keer
Bedankt: 341 keer
Contacteer:

Ik was aan het zien of je met NAPS2 ook batch OCR zou kunnen doen (ik heb reeds een paar honderden documenten ingescanned) - blijkbaar verwacht dat ding wel steevast dat je ook gaat scannen. Iemand ervaring met batch import/export?

Edit: profiel aangemaakt met WAI, geen scanner geselecteerd, werkt. Ding komt effe kreften dat ie geen scanner kan vinden, maar #care.
Telenet All-Internet -- using CV8560E & OPNsense on PCEngines APU2E4
Proximus & Mobile Vikings -- Using OnePlus 8 Pro (ROM: Stock)
fred_be9300
Pro Member
Pro Member
Berichten: 244
Lid geworden op: 30 nov 2005, 20:42
Uitgedeelde bedankjes: 84 keer
Bedankt: 12 keer

devilkin schreef:Ik was aan het zien of je met NAPS2 ook batch OCR zou kunnen doen
Er is ook een command line versie meegeinstalleerd. Ik heb die zelf ook ooit gebruikt om ocr te doen (jpg -> ocr'd pdf). Misschien interessant voor jou
Tomby
Elite Poster
Elite Poster
Berichten: 5759
Lid geworden op: 01 feb 2006, 12:36
Uitgedeelde bedankjes: 1057 keer
Bedankt: 435 keer

Merci al voor de nuttige suggesties !
Ik merk echter dat ik nog wel enkele wensen heb, en vraag me af of hoe anderen dit doen:
1. Ivm PDF OCR. Krijg je dan een PDF die wedersamengesteld is, maar waarbij de originele scan dus niet meer in de pdf zit, of heb je dan een pdf die er uitziet als het origineel document maar waarbij de content dus wel searchable is (als meta-content of zo) ?
2. En hoe kan je dan gemakkelijkst zoeken over alle documenten heen ? Da's dan wellicht eer een OS en indexing vraag. Al mijn docs staan op een Synology.
3. Wat is de gemakkelijkste manier om doorheen een hoop pdfs te bladeren ? Telkens elke pdf gaan openen via double-click is niet bepaald snel als je dat vergelijkt met gewoon door de papieren versies te snuisteren. Ik kan natuurlijk eerst wel een merge doen in pdfsam van alle losse pdf's maar dat lijkt me nogal een omweg. Ideaal zou een soort Acrobat Reader zijn waarbij je een folder kunt openen en dan heel snel het volgende/vorige document openen, zoals je bvb ook door foto's browset.
tb0ne
Elite Poster
Elite Poster
Berichten: 1017
Lid geworden op: 24 aug 2012, 11:49
Uitgedeelde bedankjes: 28 keer
Bedankt: 84 keer

Je bent op zoek naar een document management systeem.
Bijvoorbeeld:
https://docs.mayan-edms.com/
https://ambar.cloud/
https://github.com/the-paperless-project/paperless
Tomby
Elite Poster
Elite Poster
Berichten: 5759
Lid geworden op: 01 feb 2006, 12:36
Uitgedeelde bedankjes: 1057 keer
Bedankt: 435 keer

tb0ne schreef:Je bent op zoek naar een document management systeem.
Bijvoorbeeld:
https://docs.mayan-edms.com/
https://ambar.cloud/
https://github.com/the-paperless-project/paperless
Thanks. Ja, misschien ben ik ineens een beetje te ambitieus.
Als ik zie hoe gemakkelijk ik iets terugvind in bvb OneNote (die automatisch OCR doet) of GMail, dan dacht ik dat het wel leuk zou zijn als dat ook het geval zou zijn op alles wat ik nu momenteel aan het inscannen ben. Het digitalizeren van mijn papierwerk gaat ook veel vlotter dan ik verwacht had (niet moeilijk met een printer die nu een pak papier scant aan 30 pages per minuut single-sided) dus wou ik toch al even nadenken over de voordelen van alles op mijn NAS te hebben.
Gebruikersavatar
jutuiz
Premium Member
Premium Member
Berichten: 608
Lid geworden op: 23 okt 2016, 15:26
Locatie: West-Vlaanderen
Uitgedeelde bedankjes: 95 keer
Bedankt: 30 keer

Een document management systeem is natuurlijk ook "the whole chabang". Dat wou ik zelf niet.

Ik heb me recent na een zoektocht van een week een Directory Opus licentie gekocht. Is een Windows Explorer vervanger die nog stamt uit de goede oude Amiga tijd.

Directory Opus heeft dual pane en een preview pane, voor elk mogelijk bestand, dus ook voor PDF'en. Zoekfunctie ook zeer uitgebreid. Laat toe om bvb. pdf te previewen en tegelijk te hernoemen ifv de inhoud.

Er zijn veel van die dual pane explorers, maar nog nooit kon er mijn één bekoren. Tot nu. Het is een zéér zéér goede tool.

Naast Naps en Fineprint weet ik nu al dat dit een blijvertje zal worden.
Plaats reactie

Terug naar “Software en apps”