Дубли страниц для разных рубрик

В этой ветке создаем темы по настройке лент WPGrabber.

Модератор: Admin

Ответить
Аватара пользователя
onpat
Активный участник
Сообщения: 30
Зарегистрирован: 11 апр 2020, 17:48
Поблагодарили: 1 раз

Дубли страниц для разных рубрик

Сообщение onpat » 17 апр 2020, 17:05

Каждую ленту WPGrabber настраиваю на отдельную рубрику.
В ленте есть настройка "Сохранять записи только уникальными (не повторяющимися) заголовками" и это работает, но только для отдельно этой ленты.
Но на сайте доноре множество статей, которые принадлежат разным рубрикам. Получается, что каждая лента их дублирует, добавляя к ссылке порядковый номер, типа article.html, article-2.html, article-3.html и т.д.
В идеале, хорошо бы было, если бы WPGrabber встречая одинаковую запись, которая уже есть на сайте, а не только в этой ленте, просто добавлял существующую статью в новую рубрику, а не создавал новую.
Но этого, как я понял, не предусмотрено.
Может это как-то решается сторонними плагинами?

Аватара пользователя
Admin
Администратор
Сообщения: 578
Зарегистрирован: 22 ноя 2015, 12:18
Откуда: СССР
Благодарил (а): 48 раз
Поблагодарили: 20 раз
Контактная информация:

Re: Дубли страниц для разных рубрик

Сообщение Admin » 18 апр 2020, 08:53

Это очень трудноосуществимая идея. Попробуйте подыскать сторонний плагин для осуществления данной задачи.
Главная часть любого оружия, есть голова его владельца. Заказ лент WPGrabber

Аватара пользователя
onpat
Активный участник
Сообщения: 30
Зарегистрирован: 11 апр 2020, 17:48
Поблагодарили: 1 раз

Re: Дубли страниц для разных рубрик

Сообщение onpat » 18 апр 2020, 14:29

Admin писал(а):
18 апр 2020, 08:53
Это очень трудноосуществимая идея. Попробуйте подыскать сторонний плагин для осуществления данной задачи.
Вот ищу, что можно приспособить, пока не нашёл.
А вот с точки зрения разработчика плагина, как мне кажется, это вполне осуществимая задача.
Лента запоминает уже спаршенные материалы, пишет в БД или в файл. Можно было бы добавить настройку, по желанию пользователя, чтобы все ленты писали не каждая в свою таблицу или файл, а все в общую. И к этой информации добавлялась рубрика, куда статья записана.
Тогда, если запись уже существует, но у неё другая рубрика, то лента просто добавит свою рубрику к этой записи.
Как то так я себе это представляю.

Аватара пользователя
onpat
Активный участник
Сообщения: 30
Зарегистрирован: 11 апр 2020, 17:48
Поблагодарили: 1 раз

Re: Дубли страниц для разных рубрик

Сообщение onpat » 18 апр 2020, 14:39

Правда тогда нужно допиливать функцию "Удалить записи" в ленте.
Если у записи только одна рубрика, которая настроена в этой ленте, то удалять всю запись, если несколько рубрик, то удалять только свою рубрику из записи.

Аватара пользователя
onpat
Активный участник
Сообщения: 30
Зарегистрирован: 11 апр 2020, 17:48
Поблагодарили: 1 раз

Re: Дубли страниц для разных рубрик

Сообщение onpat » 18 апр 2020, 14:58

onpat писал(а):
18 апр 2020, 14:29
Вот ищу, что можно приспособить, пока не нашёл...
Не нашёл ни чего достойного. А так конечно поставил плагин Trash Duplicate
Он показывает дубли записей и там же можно их удалять. Так-то удобный, можно и массово удалять, но делать нужно в ручную, так как прежде чем удалить дубликат, нужно добавить эту рубрику к уже существующей записи.
Кроме того, нужно в ленте включать настройку "Пропускать ранее не загруженные (ошибочные) ссылки"
Так как, если не включить эту настройку, лента пытается снова загрузить эту статью, потом видит, что в данной рубрике такая запись уже есть и делает откат, не сохраняет эту запись вторично. Но в следующий раз опять пытается грузить и опять делает откат.
Тут тоже не продуманность плагина, можно было бы делать проверку, есть ли такая запись в рубрике до того как грузить статью и пытаться её сохранить.

Аватара пользователя
onpat
Активный участник
Сообщения: 30
Зарегистрирован: 11 апр 2020, 17:48
Поблагодарили: 1 раз

Re: Дубли страниц для разных рубрик

Сообщение onpat » 20 апр 2020, 05:32

onpat писал(а):
18 апр 2020, 14:29
А вот с точки зрения разработчика плагина, как мне кажется, это вполне осуществимая задача.
Я вот подумал, а чего велосипед-то изобретать? Ведь, при сохранении записи, лента видит, что запись с таким заголовком уже есть в данной категории и делает откат.
Почему бы ей не увидеть, что запись с таким заголовком есть в другой категории и не сделать откат, предварительно добавив свою категорию к уже имеющейся записи?

Аватара пользователя
onpat
Активный участник
Сообщения: 30
Зарегистрирован: 11 апр 2020, 17:48
Поблагодарили: 1 раз

Re: Дубли страниц для разных рубрик

Сообщение onpat » 04 май 2020, 11:36

Так-то, сейчас мне друг написал простенький скрипт на php, который проверяет дубли, удаляет новые записи, а в первый пост прописывает рубрики из удалённых постов. Поставил его на крон.
Скрипт шустрый, 700 дублей удаляет буквально за несколько секунд. Правда, если в корзину удаляет, если поставить в настройках мимо корзины, то будет на много дольше удалять. Проще средствами wordpress настроить автоматическую чистку корзины, хотя бы раз в неделю.

И всё же, это хоть и удобный, но "костыль". Правильнее было бы, если бы граббер не дублировал посты.
Если роботы поисковиков часто обходят сайт, то постоянно будут натыкаться на дубли, что будет в минус сайту.
Я уже не говорю о фрагментации БД, когда туда то пишутся записи, то удаляются. Тут тоже костыль пришлось ставить в виде плагина дефрагментации и оптимизации БД.

Аватара пользователя
Admin
Администратор
Сообщения: 578
Зарегистрирован: 22 ноя 2015, 12:18
Откуда: СССР
Благодарил (а): 48 раз
Поблагодарили: 20 раз
Контактная информация:

Re: Дубли страниц для разных рубрик

Сообщение Admin » 04 май 2020, 15:50

Можете выслать данный скрипт нам на эл. почту [email protected]? Мы посмотрим, как можно внедрить его в сам плагин WPGrabber.
Главная часть любого оружия, есть голова его владельца. Заказ лент WPGrabber

Аватара пользователя
onpat
Активный участник
Сообщения: 30
Зарегистрирован: 11 апр 2020, 17:48
Поблагодарили: 1 раз

Re: Дубли страниц для разных рубрик

Сообщение onpat » 04 май 2020, 19:21

onpat писал(а):
20 апр 2020, 05:32
Ведь, при сохранении записи, лента видит, что запись с таким заголовком уже есть в данной категории и делает откат.
Почему бы ей не увидеть, что запись с таким заголовком есть в другой категории и не сделать откат, предварительно добавив свою категорию к уже имеющейся записи?
Скрипт вам отправил.
Вот только не пойму, как, и главное, зачем внедрять его в граббер.

Аватара пользователя
onpat
Активный участник
Сообщения: 30
Зарегистрирован: 11 апр 2020, 17:48
Поблагодарили: 1 раз

Re: Дубли страниц для разных рубрик

Сообщение onpat » 04 май 2020, 19:29

Весь смысл как раз в том, чтобы не удалять записи, а не сохранять их вообще.
Что реализовать в самом граббере не сложно.

Аватара пользователя
Admin
Администратор
Сообщения: 578
Зарегистрирован: 22 ноя 2015, 12:18
Откуда: СССР
Благодарил (а): 48 раз
Поблагодарили: 20 раз
Контактная информация:

Re: Дубли страниц для разных рубрик

Сообщение Admin » 08 май 2020, 16:43

Я имею ввиду совместить Ваш скрипт с нашим, чтобы устранить парсинг дублей.
Главная часть любого оружия, есть голова его владельца. Заказ лент WPGrabber

Ответить