Obtener foto de un documento con OCR .NET

I’m fine with text, but I can’t get a photo from a document using OCR .NET. Do you have any examples?

@antfor

Para obtener una imagen de un documento utilizando OCR en .NET, puedes seguir el siguiente ejemplo que utiliza la biblioteca Aspose.OCR. Este ejemplo muestra cómo reconocer texto a partir de un archivo PDF, pero también puedes adaptarlo para trabajar con imágenes.

Aquí tienes un ejemplo de código que ilustra cómo reconocer texto de un PDF y cómo manejar la entrada de documentos:

using System;
using System.Collections.Generic;
using Aspose.OCR;

namespace Aspose.OCR.Examples
{
    public class RecognizePdf
    {
        public static void Run()
        {
            // Inicializa una instancia de AsposeOcr
            AsposeOcr api = new AsposeOcr();

            // Ruta del archivo PDF
            string fullPath = "ruta/a/tu/documento/multi_page_1.pdf";

            // Crea un objeto OcrInput y agrega el documento
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add(fullPath, startPage: 1, pagesCount: 1); // Cambia los parámetros según sea necesario

            // Reconoce la imagen
            List<RecognitionResult> results = api.Recognize(input, new RecognitionSettings { });

            // Imprime los resultados
            int pageCounter = 0;
            foreach (var result in results)
            {
                PrintRecognitionResult(result, pageCounter++);
            }

            Console.WriteLine("Reconocimiento de PDF ejecutado con éxito");
        }

        static void PrintRecognitionResult(RecognitionResult result, int page)
        {
            Console.WriteLine($"Página: {page}");
            Console.WriteLine($"Texto: {result.RecognitionText}");
            Console.WriteLine("\n----------------------------------------");
        }
    }
}

En este código, se inicializa una instancia de AsposeOcr, se especifica la ruta del archivo PDF y se agrega al objeto OcrInput. Luego, se llama al método Recognize para procesar el documento y se imprimen los resultados de reconocimiento.

Asegúrate de ajustar la ruta del archivo y los parámetros de las páginas según tus necesidades. Este enfoque te permitirá extraer texto de documentos PDF, y puedes modificarlo para trabajar con imágenes directamente si es necesario.

Si necesitas más ejemplos o información, puedes consultar la documentación de Aspose.OCR para .NET.

Fuentes:
[1]: RecognizePdf.cs

Este ejemplo es insuficiente, es con PDF y solo recupera textos, no la foto del documento

@antfor

¿Podrías compartir tus archivos de entrada y salida de muestra para nuestra referencia? Probaremos el escenario en nuestro entorno y lo abordaremos como corresponde.

ESP54.jpg (50,4 KB)

Por ejemplo este documento (es publico). ¿Cómo se podria obtener la fotografia?

@antfor

¿Quieres decir que quieres extraer sólo la fotografía de la persona de esta imagen?

Todo, los textos y la fotografía

Con los textos no hay problema

@antfor

We obtained attached output using below code snippet in our environment. You may please check it and share your feedback if its satisfactory:

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add(dataDir + "ESP54.jpg");
// Set recognition language
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Spa;
// Recognize image
var results = recognitionEngine.Recognize(input, recognitionSettings);
// Save searchable PDF
Aspose.OCR.AsposeOcr.SaveMultipageDocument(dataDir + "output.pdf", Aspose.OCR.SaveFormat.Pdf, results);

output.pdf (232.8 KB)

Entonces quiere decir que desde un JPG no se puede obtener la fotografía?. Que solo se puede desde un PDF?. Eso implicaría que el tiempo de reconocimiento es el doble. Todos los ejemplos de la ayuda se basan en reconocer textos, en ninguno explica como obtener una fotografía.

La cuestión es que en el debug puede verse lo que muestro en la imagen adjunta, pero no se si la fotografía está ahí dentro ni como sacarla.

image.png (6,3 KB)

@antfor

Por favor, confirme si nuestros conocimientos sobre sus requisitos son correctos. ¿Desea obtener la foto que marcamos en su imagen (ver imagen abajo)?
image.jpg (39.6 KB)

Yes, correct

@antfor

Hemos abierto los siguientes tickets nuevos en nuestro sistema interno de seguimiento de incidencias y les proporcionaremos soluciones según los términos mencionados en Free Support Policies.

ID de incidencia: OCRNET-1008

Puede obtener Paid Support Services si necesita soporte prioritario, además de acceso directo a nuestro equipo de gestión de Soporte de Pago.

Gracias. Finalmente no será necesario, decidimos no importar la fotografía.

@antfor

Gracias por sus comentarios. Seguiremos verificando la viabilidad y, si encontramos una solución, la implementaremos y se lo haremos saber.