Страница 1 из 1

Удаление из html кода пустых абзацев и/или пустых тегов

Добавлено: 10 янв 2021, 13:20
InfernalRain
Здравствуйте.
Помогите, пожалуйста, справиться (с казалось бы простой) задачей - удалить из контента пустые теги абзацев.
При парсинге контента отсюда
_https://www.medikforum.ru/beauty/112183-sedina- ... 0-let.html
в контент попадают пустые абзацы.
Пример из теста импорта ленты: http://joxi.ru/n2Yk1R6TbWlw9r
В исходном коде это выглядит так: http://joxi.ru/DmBNG13FJKnvom, http://joxi.ru/82QYapGuwJ0K02

Я пробовал конструкции:

Код: Выделить всё

<p[^>]*?>\s</p>

Код: Выделить всё

<p[^>]*?>\s+</p>

Код: Выделить всё

<p[^>]*?>\s*</p>
Но они не удаляют пустые абзацы

Re: Удаление из html кода пустых абзацев и/или пустых тегов

Добавлено: 11 янв 2021, 19:42
nikola111
Попробуйте убрать обработкой
|<p dir="ltr" style="text-align:justify;"> </p>|is

Re: Удаление из html кода пустых абзацев и/или пустых тегов

Добавлено: 12 янв 2021, 15:45
InfernalRain
nikola111 писал(а):
11 янв 2021, 19:42
Попробуйте убрать обработкой
|<p dir="ltr" style="text-align:justify;"> </p>|is
На мой взгялд это слишком "примитивный", т.е. не универсальный вариант использования.
Здесь мы указываем явный, применимый только к одной странице, шаблон обработки.
А потребность чистить код от пустых тегов есть и данная обработка ее не решает.

В применении к указанной странице он тоже, увы, не работает.