【Aspose.PDF】 XPSファイルをPDFへと変換した際のOCR情報について

@naoto_mori

次のコード例を使用して、最新バージョンのAspose.PDF for .NET 22.3を使用してシナリオをテストしましたが、共有の問題は見つかりませんでした。 したがって、Aspose.PDF for.NET22.3を使用してください。出力PDFのテキストは検索可能であり、重複するコンテンツはありません。 参考までに、この投稿に出力PDFを添付しました。22.3.pdf (533.4 KB)

using (Stream stream = new FileStream(MyDir + "sample.xps", FileMode.Open))
{
    Aspose.Pdf.XpsLoadOptions opt = new Aspose.Pdf.XpsLoadOptions();
    var document = new Aspose.Pdf.Document(stream, opt);

    document.Save(MyDir + "22.3.pdf", Aspose.Pdf.SaveFormat.Pdf);
}

ご返信ありがとうございます。
こちらでもご提示いただいた処理の場合は正しく動作し、OCR情報が残っていることは確認できております。

では今添付させていただいたファイルに記載している処理を用いた場合はどうでしょうか?
OCR情報は消えてしまうと思いますのでご確認をお願いいたします。

XpsToPDF.zip (856 Bytes)

@naoto_mori

Adobe Readerを使用して、同じPDFファイルからテキストを検索できます。

失われたOCR情報を教えてください。

OCR情報の意味も教えてください。

あなたが直面しているOCRの問題を再現するために、段階的な詳細を共有していただければ幸いです。

遅くなってしまい申し訳ありません。

ODR情報が消えているというのは、以下のことを指しています。
以前も提示させていただきましたが、添付させていただいた「sample.zip」に入っております「sample1.pdf」の状態になっていることを指しています。
具体的には以下です。
①文字列選択がマウスのドラッグでできない
②文字列検索で文字が引っかからない

sample.zip (674.9 KB)

@naoto_mori

共有したPDFファイルは古いバージョンのAspose.PDFによって認識されます。
Aspose.PDF forJava 22.4の最新バージョンを使用してください。 このスレッドで共有コードの例を使用することにより、問題が修正されます。 テキストは検索可能です。

しばらく回答ができておらず、申し訳ありません。
「共有したPDFファイルは古いバージョンのAspose.PDFによって認識されます。」というのはどういうことでしょうか?

こちらが質問させていただいているのは「Aspose.PDFが認識する」かどうかではなく、
xpsファイルをAspose.PDFを用いてpdfファイルに変換するとOCR情報がなくなり、生成されたPDFに対して以下の①②の操作ができなくなるということです。
①文字列選択がマウスのドラッグでできない
②文字列検索で文字が引っかからない

以前修正されたという「Aspose.PDF for .NET 22.3」を提示していただき、それを用いて再度試してみましたが修正されていませんでした。

以前提示されていただいた以下のプログラムを用いて以下の「sample.zip」内のxpsファイルをpdfファイルに変換し、その生成されたPDFファイルに対して以下のことはできますか?
①クリック⇒ドラッグで文字を選択できますか?
②文字列が検索できますか?

sample.zip (674.9 KB)
XpsToPDF.zip (856 Bytes)

@naoto_mori

添付画像をご確認ください。 前回の投稿で共有されたPDFファイルは、古いバージョンのAspose.PDFfor.NETによって生成されました。 Aspose.PDF for.NET22.5の最新バージョンにアップグレードしてください。
image.png (177.4 KB)

sample.zip (197.1 KB)
しばらくの間連絡できておらず申し訳ありません。

以前連絡させていただいておりました件について再度検証を行いました。
確認したところ、正しく動作しているように思います。

しかし、一部PDFファイルにて正しく動作していないように思います。

添付させていただいたzipファイル内のサンプルプログラム、サンプルファイルを用いてお試しいただけますでしょうか?
・SampleProgram
⇒pdfファイルからxpsファイルを生成し、その後xpsファイルからpdfファイルを再生成します。
※ファイルサイズの関係上aspose.dll、ライセンスファイルは含めておりません

・sampleA.pdf
⇒上記プログラムの実行の際に本ファイルを用いてお試しください。

再現しない場合は、生成されたpdfファイルをお送りいただけますでしょうか?

以上です、よろしくお願いいたします。

sample.zip (197.1 KB)

@n_m

添付のコード スニペットと、API のバージョン 23.1 を使用して当社の環境で生成された PDF ファイルを確認してください。

Document pdfDocument = new Document(dataDir + "sampleA.pdf");
// Instantiate XPS Save options
Aspose.Pdf.XpsSaveOptions saveOptions = new Aspose.Pdf.XpsSaveOptions();

// Save the XPS document
pdfDocument.Save(dataDir + "PDFToXPS_out.xps", saveOptions);

pdfDocument = new Document(dataDir + "PDFToXPS_out.xps", new XpsLoadOptions());
pdfDocument.Save(dataDir + "XPStoPDF_out.pdf");

XPStoPDF_out.pdf (222.1 KB)

ご返信ありがとうございます。

いただいたファイルを確認しましたが、OCR情報がなくなっていると思います。
OCR情報がなくなっていると判断した理由
①文字列検索で検索にヒットしなくなっている点
②マウスで文字領域を選択できなくなっている点

上記2点元のファイルではできると思います。
Aspose様のライブラリを用いて生成されたPDFファイルにおいて
上記2点のことができなくなるのは不具合かと思っております。

不具合なのかそうでないのかの回答をお願いいたします。

以上です、よろしくお願いいたします。

@n_m

私たちの理解によると、検索可能なスキャン PDF ドキュメントを XPS に変換してから、XPS をもう一度 PDF に変換する必要があります。また、最終出力も検索可能であることが期待されます。私たちの理解が正しいか確認してください。 IDを共有します。

ご返信ありがとうございます。
提示していただいた内容の理解で間違いありません。

提示させていただいたサンプルのPDFファイルに対してPDF⇒XPS⇒PDFと変換した際に、
最終出力において検索ができなくなっているかと思います。

以上です、よろしくお願いいたします。

@n_m

問題追跡システムに調査チケットを記録しており、すぐに ID を共有します。

@n_m

内部の問題追跡システムで次の新しいチケットをオープンし、Free Support Policies に記載されている条件に従って修正を配信します。

Issue ID(s): PDFNET-53723

優先的にサポートが必要な場合は、Paid Support Services を取得できます。また、有料サポート管理チームに直接アクセスすることもできます。

PDFNET-53723 ---- Status : Open
上記について不具合ということで修正を進めていただいていると思いますが、
今状況はどうなっているでしょうか?

修正時期など決まっておりますでしょうか?

以上です、よろしくお願いいたします。

@n_m

このチケットは機能リクエストに似ており、残念ながらまだ実装されていません。ある程度の時間が必要です。解決と実装に向けて進展があり次第、このフォーラム スレッドで最新情報をお知らせします。しばらくお時間をください。

ご不便をおかけしてしまい申し訳ございません。