Aspose.PDF for .NET でPDFからテキストを抽出するときにUnicodeの正規化を行うオプション設定はありますか？

ysho · May 18, 2023, 12:26pm

以下のコードでPDFからテキストを抽出してファイルに保存しようとしているのですが、
Unicodeの表記揺れが発生します。テキスト抽出時に正規化を行うオプション設定はありますか？
また、例えば①のような丸付き数字は正規化しないなどのオプション設定はありますか？

   // PDFからテキストを抽出
    StringBuilder sb = new StringBuilder();
    string extractedText = "";
    foreach (Aspose.Pdf.Page pdfPage in pdfDocument.Pages)
    {
        using (MemoryStream textStream = new MemoryStream())
        {
            // テキストデバイスを作成する
            TextDevice textDevice = new TextDevice();

            // さまざまなオプションを設定する
            TextExtractionOptions options = new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Flatten);
            textDevice.ExtractionOptions = options;

            // ページを変換してテキストをストリームに保存します
            textDevice.Process(pdfPage, textStream);

            // メモリストリームを閉じる
            textStream.Close();

            // メモリストリームからテキストを取得する
            extractedText = Encoding.Unicode.GetString(textStream.ToArray());
        }
        sb.Append(extractedText);
    }

    // 抽出したテキストをファイルに保存
    File.WriteAllText(txtFileOutput.Text + "\\" + fileName.Replace(".pdf", "") + ".txt", sb.ToString());

asad.ali · May 18, 2023, 9:41pm

@ysho

次のような Text Extraction Options.Text Formatting Mode のさまざまなモードを試すことができます。

var textExtractionOptions = new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.MemorySaving);

var textAbsorber = new TextAbsorber(textExtractionOptions, textSearchOptions);

ただし、問題をさらに調査し、それに応じて対処できるよう、参考用のサンプル PDF と .zip 形式で抽出したテキストファイルを共有してください。

ysho · May 18, 2023, 11:57pm

ご返信ありがとうございます。

発生している事象ですが、例えば「ファンドの⽬的・特⾊」というテキストを抽出すると
「目」、「色」の16進コードが「U+2F6C」、「U+2F8A」で抽出されてしまいます。
こちらが求めているコードは「U+76EE」、「U+8272」になります。
sampleのPDFと抽出したテキストファイルを添付しますので、解決方法を教えていただけますでしょうか？
sample.zip (1.1 メガバイト)

asad.ali · May 19, 2023, 12:13am

@ysho

内部の問題追跡システムで次の新しいチケットをオープンし、Free Support Policies に記載されている条件に従って修正を提供します。

問題 ID: PDFNET-54635

優先的にサポートが必要な場合は、Paid Support Services を取得して、有料サポート管理チームに直接アクセスできます。