View Full Version : Extraer texto de un archivo PDF
jorval
July 29th, 2009, 11:43 PM
Hola amigos. ¿Cómo puedo extraer texto, una o dos páginas, de un documento PDF que tiene más de 600 páginas. Bajé PDFedit pero no entiendo como funciona. Alguna indicación para un método más fácil. Desde ya muy agradecido.
Hei Ku
July 29th, 2009, 11:56 PM
Podés probar con Okular, que es muy bueno.
Ojo que quizas en realidad esté todo como imagen. En ese caso no hay manera de copiar y pegar, salvo que lo pases primero por un OCR.
pablo.s
July 29th, 2009, 11:57 PM
Yo he utilizado con éxito
una utilidad que se llama
pdftotext que viene incluida
en el paquete poppler-utils.
Saludos.
guillermolisi
July 30th, 2009, 12:10 AM
Acabo de encontrar algo al respecto en este link (http://linux.derkeiler.com/Mailing-Lists/Debian/2008-03/msg00478.html) a una lista de e-mail sobre Debian donde sugieren usar una utilidad incluida en el paquete xpdf-utils, llamada pdftotext, que parece funcionar bien si el documento se genero por algun editor de texto. Si fue creado a partir de un papel digitalizado, parece que no sirve y ahi recomiendan aplicar un OCR.
En el mismo thread alguien sugiere usar Koffice que parece puede importar PDFs.
Otro dice que con GhostScript tambien se podria, particularmente los digitalizados o mixtos con imagenes.
jorval
July 30th, 2009, 03:10 AM
Muchas gracias por vuestras respuestas. Dos grandes dudas:
1.- ¿Cómo sé si el archivo PDF es imagen/digitalizado? y
2.- Busqué en Synaptic y tengo instalado el paquete poppler-utils que contiene pdftotext. Pero lo busqué en aplicaciones y no lo encontré para poder abrir el pdf con pdftotext?
Gracias nuevamente.
pablo.s
July 30th, 2009, 03:12 AM
Muchas gracias por vuestras respuestas. Dos grandes dudas:
1.- ¿Cómo sé si el archivo PDF es imagen/digitalizado? y
Si puedes seleccionar el texto
para copiar y pegar, es que NO
es imagen.
2.- Busqué en Synaptic y tengo instalado el paquete poppler-utils que contiene pdftotext. Pero lo busqué en aplicaciones y no lo encontré para poder abrir el pdf con pdftotext?
Gracias nuevamente.
Se usa asi: (en una terminal)
pdftotext nombredelPDF.pdf
aledruetta
July 30th, 2009, 03:33 AM
Hay un complemento de OpenOffice que te permite abrir los PDF con la aplicación Draw. Ahí hacés lo que querés con el PDF, es muy práctico. Se llama "Sun PDF Import Extension" y la instalás en Herramientas-->Administrador de extensiones-->obtener más extensiones aquí.
Espero que te sirva,
Alejandro.
jorval
July 30th, 2009, 04:11 AM
Pablo.s. Muchas gracias por tus indicaciones. El archivo lo puedo seleccionar solo con "seleccionar todo" pero no por partes con el mouse.
Puse la orden en la terminal y me dice Error, que el archivo no puede ser abierto. Verefiqué el archivo y yo, el propietario del archivo, tengo los permisos de lectura y escritura.
Aledruetta. Gracias por tu información. La encontré y mañana la probaré. Saludos.
jorval
July 30th, 2009, 06:00 PM
Mala suerte, de todos modos muchas gracias por la ayuda, algo aprendí.
El archivo pdf del que deseo extraer texto es de esos que son imágenes, no se puede selecionar, lo comprobé con otros archivos pdf
Respecto a SUN pdf...funciona con OOo 3.0 y yo aun tengo 2.4
Asunto terminado y ¿solucionado? Para mi sí.
guillermolisi
July 30th, 2009, 06:07 PM
Mala suerte, de todos modos muchas gracias por la ayuda, algo aprendí.
El archivo pdf del que deseo extraer texto es de esos que son imágenes, no se puede selecionar, lo comprobé con otros archivos pdf
Respecto a SUN pdf...funciona con OOo 3.0 y yo aun tengo 2.4
Asunto terminado y ¿solucionado? Para mi sí.
Proba con el OO 3 y de acuerdo a lo que resulte vemos si lo marcamos como solucionado o lo dejamos un tiempo mas por si hay algun otro aporte.
Un OCR no te serviria, dado que es todo imagen ?
jorval
July 30th, 2009, 08:44 PM
Guillermolisi. Aun no voy a cambiar a OOo 3 lo haré cuando actualice la versión de Ubuntu a la ¿10.04? OCR (Optical character recognition) no tenía idea que existían, veré de qué se trata, los mantendré informados. Gracias nuevamente.
Powered by vBulletin® Version 4.2.2 Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.