We're sorry Aspose doesn't work properply without JavaScript enabled.

Free Support Forum - aspose.com

Некорректно определяется кодировка у HTML файлов

При преобразовании некоторых HTML файлов в DOCX некорректно определяется кодировка (хотя она указана в charset).

var document = new Document(source, new LoadOptions());
При такой реализации LoadOptions.Encoding определяется неверно

Используется Aspose.Words 20.03.0 от 28.11.2020
Хотелось бы узнать, может в новых версиях данная проблема ушла или есть другие пути решения

@Oleg123456

Здравствуйте, Олег,

Вы не могли бы приаттачить пример HTML-файла и результат его преобразования в DOCX, для которых наблюдается проблема? Мы проверим преобразование на последней версии Aspose.Words for .NET и сообщим о результатах.

out.docx (228.2 KB)
in.zip (66.9 KB)

@Oleg123456,

Я попробовал преобразовать HTML в DOCX, используя Aspose.Words for .NET 22.3. Проблемы с кодировкой не наблюдается:

var document = new Document(@"in.html")
document.Save(@"out.docx");

out.docx (27.7 KB)

out.docx, который Вы приаттачили, имеет формат FlatOpc. Преобразование в этот формат также проходит без проблем:

out.22.3.xml.zip (23.8 KB)

Большое спасибо за ответ