При преобразовании некоторых HTML файлов в DOCX некорректно определяется кодировка (хотя она указана в charset).
var document = new Document(source, new LoadOptions());
При такой реализации LoadOptions.Encoding определяется неверно
Используется Aspose.Words 20.03.0 от 28.11.2020
Хотелось бы узнать, может в новых версиях данная проблема ушла или есть другие пути решения
@Oleg123456
Здравствуйте, Олег,
Вы не могли бы приаттачить пример HTML-файла и результат его преобразования в DOCX, для которых наблюдается проблема? Мы проверим преобразование на последней версии Aspose.Words for .NET и сообщим о результатах.
out.docx (228.2 KB)
in.zip (66.9 KB)
@Oleg123456,
Я попробовал преобразовать HTML в DOCX, используя Aspose.Words for .NET 22.3. Проблемы с кодировкой не наблюдается:
var document = new Document(@"in.html")
document.Save(@"out.docx");
out.docx (27.7 KB)
out.docx, который Вы приаттачили, имеет формат FlatOpc. Преобразование в этот формат также проходит без проблем:
out.22.3.xml.zip (23.8 KB)