以下のコードでPDFからテキストを抽出してファイルに保存しようとしているのですが、
Unicodeの表記揺れが発生します。テキスト抽出時に正規化を行うオプション設定はありますか?
また、例えば①のような丸付き数字は正規化しないなどのオプション設定はありますか?
// PDFからテキストを抽出
StringBuilder sb = new StringBuilder();
string extractedText = "";
foreach (Aspose.Pdf.Page pdfPage in pdfDocument.Pages)
{
using (MemoryStream textStream = new MemoryStream())
{
// テキストデバイスを作成する
TextDevice textDevice = new TextDevice();
// さまざまなオプションを設定する
TextExtractionOptions options = new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Flatten);
textDevice.ExtractionOptions = options;
// ページを変換してテキストをストリームに保存します
textDevice.Process(pdfPage, textStream);
// メモリストリームを閉じる
textStream.Close();
// メモリストリームからテキストを取得する
extractedText = Encoding.Unicode.GetString(textStream.ToArray());
}
sb.Append(extractedText);
}
// 抽出したテキストをファイルに保存
File.WriteAllText(txtFileOutput.Text + "\\" + fileName.Replace(".pdf", "") + ".txt", sb.ToString());