We're sorry Aspose doesn't work properply without JavaScript enabled.

Free Support Forum - aspose.com

【Aspose.PDF】 XPSファイルをPDFへと変換した際のOCR情報について

@naoto_mori

次のコード例を使用して、最新バージョンのAspose.PDF for .NET 22.3を使用してシナリオをテストしましたが、共有の問題は見つかりませんでした。 したがって、Aspose.PDF for.NET22.3を使用してください。出力PDFのテキストは検索可能であり、重複するコンテンツはありません。 参考までに、この投稿に出力PDFを添付しました。22.3.pdf (533.4 KB)

using (Stream stream = new FileStream(MyDir + "sample.xps", FileMode.Open))
{
    Aspose.Pdf.XpsLoadOptions opt = new Aspose.Pdf.XpsLoadOptions();
    var document = new Aspose.Pdf.Document(stream, opt);

    document.Save(MyDir + "22.3.pdf", Aspose.Pdf.SaveFormat.Pdf);
}

ご返信ありがとうございます。
こちらでもご提示いただいた処理の場合は正しく動作し、OCR情報が残っていることは確認できております。

では今添付させていただいたファイルに記載している処理を用いた場合はどうでしょうか?
OCR情報は消えてしまうと思いますのでご確認をお願いいたします。

XpsToPDF.zip (856 Bytes)

@naoto_mori

Adobe Readerを使用して、同じPDFファイルからテキストを検索できます。

失われたOCR情報を教えてください。

OCR情報の意味も教えてください。

あなたが直面しているOCRの問題を再現するために、段階的な詳細を共有していただければ幸いです。

遅くなってしまい申し訳ありません。

ODR情報が消えているというのは、以下のことを指しています。
以前も提示させていただきましたが、添付させていただいた「sample.zip」に入っております「sample1.pdf」の状態になっていることを指しています。
具体的には以下です。
①文字列選択がマウスのドラッグでできない
②文字列検索で文字が引っかからない

sample.zip (674.9 KB)

@naoto_mori

共有したPDFファイルは古いバージョンのAspose.PDFによって認識されます。
Aspose.PDF forJava 22.4の最新バージョンを使用してください。 このスレッドで共有コードの例を使用することにより、問題が修正されます。 テキストは検索可能です。

しばらく回答ができておらず、申し訳ありません。
「共有したPDFファイルは古いバージョンのAspose.PDFによって認識されます。」というのはどういうことでしょうか?

こちらが質問させていただいているのは「Aspose.PDFが認識する」かどうかではなく、
xpsファイルをAspose.PDFを用いてpdfファイルに変換するとOCR情報がなくなり、生成されたPDFに対して以下の①②の操作ができなくなるということです。
①文字列選択がマウスのドラッグでできない
②文字列検索で文字が引っかからない

以前修正されたという「Aspose.PDF for .NET 22.3」を提示していただき、それを用いて再度試してみましたが修正されていませんでした。

以前提示されていただいた以下のプログラムを用いて以下の「sample.zip」内のxpsファイルをpdfファイルに変換し、その生成されたPDFファイルに対して以下のことはできますか?
①クリック⇒ドラッグで文字を選択できますか?
②文字列が検索できますか?

sample.zip (674.9 KB)
XpsToPDF.zip (856 Bytes)

@naoto_mori

添付画像をご確認ください。 前回の投稿で共有されたPDFファイルは、古いバージョンのAspose.PDFfor.NETによって生成されました。 Aspose.PDF for.NET22.5の最新バージョンにアップグレードしてください。
image.png (177.4 KB)