|
|
Знаете ли Вы, что ... | |
...инструкция по установке аватара описана в Правилах форума. | |
<< Предыдущий совет - Случайный совет - Следующий совет >> |
WWW.UZ Национальная информационно-поисковая система WWW.UZ. Раздел UZINFOCOM |
Ответить |
|
Опции темы | Опции просмотра |
16.10.2009 14:42 | #1 | ||
Анализируя собранные индексатором ссылки наткнулся на большой кусок базы, где основную часть составляли клоны.
Вот пример ссылки http://light.anons.uz/article/economics/page_7/jslib/article/other/962/ - явно ошибка движка, где ссылки (внизу страницы) ведут на подобные страницы : http://light.anons.uz/article/economics/page_7/jslib/article/other/962/article/economics/528/ http://light.anons.uz/article/economics/page_7/jslib/article/other/962/article/economics/523/ http://light.anons.uz/article/economics/page_7/jslib/article/other/962/article/economics/521/ То есть к текущему URL добавляется еще кусочек article/economics/***/. В результате ссылки получаются такими. Кто может подсказать, как регулярными выражениями вырезать повторяющиеся переменные и оставлять только последнюю пару переменная=значение. P.S. Пока просто забанил сайт anons.uz
__________________
Свет рождает тени ... Последний раз редактировалось Ruslan Aliev; 16.10.2009 в 14:46. |
|||
|
Ответить |
16.10.2009 15:23 | #2 |
можно ограничиться количеством слешей для исследования в урлах. Например, существует мнение, что yahoo делает именно так. На счет google мнения однозначного нет. Исключения можно делать разве что на случаи, если на какой-то очень глубокий с большим количеством слешей урл ведет множество ссылок с других сайтов.
|
|
|
Ответить |
16.10.2009 15:38 | #3 | |
Цитата:
Исключение УРЛов с большим количеством слешей в принципе подходит, но ведь переменные можно передавать и другим способом, в принципе можно писать их через & и также повторять по нескольку раз. Мне нужно именно определять двукратное (и больше) наличие одной и той же переменной и вырезать такие пары.
__________________
Свет рождает тени ... |
||
|
Ответить |
16.10.2009 23:33 | #4 | |
|
Цитата:
И в любом случае сравнивать с базой придётся, ведь одна и та же страничка может вызываться совершенно разными Get-параметрами.
__________________
Я за правильное оформление текста на форуме. Последний раз редактировалось Ruslan Juldashev; 16.10.2009 в 23:46. |
|
|
Ответить |
17.10.2009 00:12 | #6 |
ЕС
|
__________________
ZiyoNet.uz - Образовательный портал с элементами соцсети. |
|
Ответить |
21.10.2009 16:05 | #7 |
Просто ограничил количество слешей в УРЛ.
Код:
# Для сайта anons.uz (http://light.anons.uz/article/economics/page_7/jslib/article/other/962/) ReverseAlias regex ^(.*anons\.uz)(\/.*?\/.*?\/).* $1$2 Вообще я был бы рад, если веб-мастеры почаще использовали rel=nofollow в ссылках на сортировку, фильтрацию и т.п. На форумах такие атрибуты лучше ставить на ссылки типа "Ответить", "Личное сообщение", "Искать все посты", "Древовидный". Обычно все эти страницы попадают в так называемые "Клоны"
__________________
Свет рождает тени ... Последний раз редактировалось Ruslan Aliev; 21.10.2009 в 16:09. |
|
|
Ответить |
Реклама и уведомления | |
21.10.2009 16:05 | #8 |
Я вот теперь думаю что делать вот с такими ссылками
"http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price%3A200%24+-+400%24&filter=on&delete_f=brand&IBLOCK_ID=28&SECT ION_ID=566&PAGEN_3=4" "http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price%3A200%24+-+400%24&filter=on&delete_f=taymer_e7&SECTION_ID=56 6&IBLOCK_ID=28&PAGEN_3=4" "http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price%3A200%24+-+400%24&filter=on&delete_f=kolkonf_e4&IBLOCK_ID=28 &SECTION_ID=566&PAGEN_4=5&PAGEN_3=4" "http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price:200$ - 400$&filter=on&delete_f=kolkonf_e4&SECTION_ID=566& IBLOCK_ID=28&PAGEN_3=4&PAGEN_4=4" "http://www.yarmarka.uz/catalog/telefoniya-svyaz/23-474.html?fil=315:трубка/база [10]&filter=on&delete_f=cpikerfon_r&SECTION_ID=474&IBL OCK_ID=23&PAGEN_3=4" "http://www.yarmarka.uz/catalog/foto-video-optika/17-574-32585.html&amp;amp;IBLOCK_ID=17?SECTION_ID=464 " "http://www.yarmarka.uz/catalog/foto-video-optika/17-465-36279.html?SECTION_ID=464" "http://www.yarmarka.uz/catalog/foto-video-optika/17-574-6904.html&amp;IBLOCK_ID=17?SECTION_ID=464" "http://www.yarmarka.uz/catalog/foto-video-optika/17-466-44555.html?SECTION_ID=464" Их у меня уже около 10 тыс проиндексированных и столько же в очереди, и их количество постоянно растет, пока просто поставил такие правила: Код:
# Для сайта yarmarka.uz. Disallow regex .*yarmarka\.uz(.*)fil= Disallow regex .*yarmarka\.uz(.*)amp; Disallow regex .*yarmarka\.uz(.*)SECTION_ID Disallow regex .*yarmarka\.uz(.*)BLOCK_ID
__________________
Свет рождает тени ... Последний раз редактировалось Ruslan Aliev; 21.10.2009 в 16:10. |
|
|
Ответить |
|