Hallo Praveen,
Die leistungsstärkste Methode, um die Position eines Absatzes und andere Daten aus einem PDF-Dokument zu extrahieren, ist das iText 7 Add-on pdf2Data, das auch eine Online-Demo hat: https://pdf2data.online/
Vielleicht kann Ihnen diese Stack Overflow-Antwort von iText’s Alexey Subach helfen: https://stackoverflow.com/questions/55807256/how-can-i-get-the-position-of-the-specified-keyword-in-itext7
Während pdf2data der optimale Ansatz ist, können Sie grundlegende Extraktionen mit iText 7 Core unter Verwendung eines regulären Ausdrucks durchführen:
PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile));
ILocationExtractionStrategy strategy = new RegexBasedLocationExtractionStrategy("regulärer Ausdruck");
PdfCanvasProcessor canvasProcessor = new PdfCanvasProcessor(strategy);
canvasProcessor.processPageContent(pdfDocument.getPage(1));
pdfDocument.close();
strategy.getResultantLocations(); // enthält jetzt alle Positionen des übereinstimmenden Textes
Wenn Sie eine Antwort für Ihren spezifischen Fall möchten, ist es besser, eine detailliertere Frage auf Stack Overflow zu stellen, in der Sie angeben, was Sie versucht haben und wo Sie feststecken.
Wenn Sie eine kommerzielle Lizenz haben, haben Sie auch Zugang zum iText-Kundensupport über Jira.
Mit freundlichen Grüßen,
Kenneth Holvoet
iText Software
Benutzer müssen angemeldet sein, um Kommentare zu schreiben
Anmelden
Antworten
Bereits iText by Apryse verwenden?
Über iText by Apryse
Früher bekannt als iText, sind wir jetzt Teil von Apryse. Mit optimierter Technologie und einer umfassenden Suite von Tools vereinfacht Apryse selbst die komplexesten Projekte und bringt Sie weiter, s
Mit über 2,5 Millionen Bewertungen können wir Ihnen die spezifischen Details liefern, die Ihnen bei der informierten Softwarekaufentscheidung für Ihr Unternehmen helfen. Das Finden des richtigen Produkts ist wichtig, lassen Sie uns helfen.
oder fortfahren mit
LinkedIn
Google
Google (Geschäftlich)
Gmail.com-Adressen sind nicht erlaubt. Eine Geschäftsdomäne, die Google verwendet, ist erlaubt.