PDA

Просмотр полной версии : SEO сайтов в Узнете и Поисковик НИПС WWW.UZ


Ruslan Aliev
16.10.2009, 14:42
Анализируя собранные индексатором ссылки наткнулся на большой кусок базы, где основную часть составляли клоны.
Вот пример ссылки http://light.anons.uz/article/economics/page_7/jslib/article/other/962/ (http://light.anons.uz/article/economics/page_7/jslib/article/other/962/) - явно ошибка движка, где ссылки (внизу страницы) ведут на подобные страницы :
http://light.anons.uz/article/economics/page_7/jslib/article/other/962/article/economics/528/
http://light.anons.uz/article/economics/page_7/jslib/article/other/962/article/economics/523/
http://light.anons.uz/article/economics/page_7/jslib/article/other/962/article/economics/521/

То есть к текущему URL добавляется еще кусочек article/economics/***/. В результате ссылки получаются такими.


Кто может подсказать, как регулярными выражениями вырезать повторяющиеся переменные и оставлять только последнюю пару переменная=значение.


P.S. Пока просто забанил сайт anons.uz

Georgick
16.10.2009, 15:23
можно ограничиться количеством слешей для исследования в урлах. Например, существует мнение, что yahoo делает именно так. На счет google мнения однозначного нет. Исключения можно делать разве что на случаи, если на какой-то очень глубокий с большим количеством слешей урл ведет множество ссылок с других сайтов.

Ruslan Aliev
16.10.2009, 15:38
можно ограничиться количеством слешей для исследования в урлах. Например, существует мнение, что yahoo делает именно так. На счет google мнения однозначного нет. Исключения можно делать разве что на случаи, если на какой-то очень глубокий с большим количеством слешей урл ведет множество ссылок с других сайтов.
Это требует анализа всей базы, а значит написанию демонов + дополнительная нагрузка на сервер. Нужно чтобы определение шло на лету.

Исключение УРЛов с большим количеством слешей в принципе подходит, но ведь переменные можно передавать и другим способом, в принципе можно писать их через & и также повторять по нескольку раз.

Мне нужно именно определять двукратное (и больше) наличие одной и той же переменной и вырезать такие пары.

Ruslan Juldashev
16.10.2009, 23:33
Исключение УРЛов с большим количеством слешей в принципе подходит, но ведь переменные можно передавать и другим способом, в принципе можно писать их через & и также повторять по нескольку раз.

Мне нужно именно определять двукратное (и больше) наличие одной и той же переменной и вырезать такие пары.
Если я вас правильно понял (а у меня есть подозрения, что понял неправильно как всегда), то можно регуляркой разбить урл на массив и сравнить переменные. В php это функция split. Дубли переменных удалить и сравнить с имеющимися адресами в базе. Вот только если в случае с anons.uz это будет работать, совершенно нет гарантии, что оно будет работать везде. Вы ведь не знаете как у них rewrit-ы прописаны, может там эти дубли непременно нужны?

И в любом случае сравнивать с базой придётся, ведь одна и та же страничка может вызываться совершенно разными Get-параметрами.

Georgick
16.10.2009, 23:46
Мне нужно именно определять двукратное (и больше) наличие одной и той же переменной и вырезать такие пары.

если переменная на входе неизвестна, то одна строчка Regex тут никак не поможет, нет ведь шаблона для поиска вхождения. Если же переменная известна, то regex решает проблему

Evgeniy Sklyarevskiy
17.10.2009, 00:12
можно ограничиться количеством слешей для исследования в урлах.
Предлагаю не торопиться с этим — в Дойре пока много слешей в адресах... над этим работают... :-0)

Ruslan Aliev
21.10.2009, 16:05
Просто ограничил количество слешей в УРЛ.
# Для сайта anons.uz (http://light.anons.uz/article/economics/page_7/jslib/article/other/962/)
ReverseAlias regex ^(.*anons\.uz)(\/.*?\/.*?\/).* $1$2



Вообще я был бы рад, если веб-мастеры почаще использовали rel=nofollow в ссылках на сортировку, фильтрацию и т.п.
На форумах такие атрибуты лучше ставить на ссылки типа "Ответить", "Личное сообщение", "Искать все посты", "Древовидный".
Обычно все эти страницы попадают в так называемые "Клоны"

Ruslan Aliev
21.10.2009, 16:05
Я вот теперь думаю что делать вот с такими ссылками

"http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price%3A200%24+-+400%24&filter=on&delete_f=brand&IBLOCK_ID=28&SECTION_ID=566&PAGEN_3=4"
"http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price%3A200%24+-+400%24&filter=on&delete_f=taymer_e7&SECTION_ID=566&IBLOCK_ID=28&PAGEN_3=4"
"http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price%3A200%24+-+400%24&filter=on&delete_f=kolkonf_e4&IBLOCK_ID=28&SECTION_ID=566&PAGEN_4=5&PAGEN_3=4"
"http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price:200$ - 400$&filter=on&delete_f=kolkonf_e4&SECTION_ID=566&IBLOCK_ID=28&PAGEN_3=4&PAGEN_4=4"
"http://www.yarmarka.uz/catalog/telefoniya-svyaz/23-474.html?fil=315:трубка/база [10]&filter=on&delete_f=cpikerfon_r&SECTION_ID=474&IBLOCK_ID=23&PAGEN_3=4"
"http://www.yarmarka.uz/catalog/foto-video-optika/17-574-32585.html&IBLOCK_ID=17?SECTION_ID=464"
"http://www.yarmarka.uz/catalog/foto-video-optika/17-465-36279.html?SECTION_ID=464"
"http://www.yarmarka.uz/catalog/foto-video-optika/17-574-6904.html&IBLOCK_ID=17?SECTION_ID=464"
"http://www.yarmarka.uz/catalog/foto-video-optika/17-466-44555.html?SECTION_ID=464"


Их у меня уже около 10 тыс проиндексированных и столько же в очереди, и их количество постоянно растет, пока просто поставил такие правила:


# Для сайта yarmarka.uz.
Disallow regex .*yarmarka\.uz(.*)fil=
Disallow regex .*yarmarka\.uz(.*)amp;
Disallow regex .*yarmarka\.uz(.*)SECTION_ID
Disallow regex .*yarmarka\.uz(.*)BLOCK_ID

azim
21.10.2009, 16:49
анти-битрикс заговор...

Ruslan Aliev
21.10.2009, 17:35
http://blog.uzinfocom.uz/2009/10/21/poiskovaya-sistema-wwwuz/

Ruslan Aliev
22.10.2009, 11:46
fotki.uz


"http://www.fotki.uz/view/297647964351/3431488776384"
"http://www.fotki.uz/view/862847964401/4760488776901"
"http://www.fotki.uz/view/679747964151/2935488776465"
"http://www.fotki.uz/view/777947964124/1180488776442"
"http://www.fotki.uz/view/148547964277/4357488776181"
"http://www.fotki.uz/view/836047964569/2185488776818"
"http://www.fotki.uz/view/824647964384/6242488776914"
"http://www.fotki.uz/view/473047964670/1077488776965"


Все ссылки ведут на одну и ту же страницу. Логики пока никакой не обнаружил, по видимому просто создаются алиасы для страниц на каждую сессию.

Или вот такие:

"http://www.fotki.uz/gallery/category/382938828706"
"http://www.fotki.uz/gallery/category/17026852872"
"http://www.fotki.uz/gallery/category/24786852276"
"http://www.fotki.uz/gallery/category/971715988444"
"http://www.fotki.uz/gallery/category/986831976567"
"http://www.fotki.uz/gallery/category/994350248498"
"http://www.fotki.uz/gallery/category/707329692769"
"http://www.fotki.uz/gallery/category/332252532221"
"http://www.fotki.uz/gallery/category/621434260974"
"http://www.fotki.uz/gallery/category/306511420794"
"http://www.fotki.uz/gallery/category/249234260702"


Пока поставил правила которые, к сожалению просто исключат из индексации большую часть сайта.
# fotki.uz http://www.fotki.uz/view/297647964351/3431488776384
# http://www.fotki.uz/gallery/category/994350248498
ReverseAlias regex (.*fotki\.uz.*\/)[0-9]{12,14}\/[0-9]{12,14}\/ $1
ReverseAlias regex (.*fotki\.uz.*\/)[0-9]{12,14}\/ $1

Ruslan Aliev
22.10.2009, 11:49
Также краткая статистика по количеству страниц-клонов на сайтах, для размышлений:

"forum.stavka.uz";11333
"www.yarmarka.uz";10252
"forum.linux.uz";9121
"www.property.uz";4345
"www.chamber.uz";3828
"brandnews.uz";3537
"cs.pg.uz";3154
"www.travels.uz";2311
"region.uz";2288
"chamber.uz";2273
"bealpha.com";2239
"www.stavka.uz";2022
"www.brandnews.uz";1946
"forza.uz";1671
"www.bir.uz";1270
"www.region.uz";1256

Evgeniy Sklyarevskiy
22.10.2009, 13:54
"http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price%3A200%24+-+400%24&filter=on&delete_f=brand&IBLOCK_ID=28&SECT ION_ID=566&PAGEN_3=4"
на странице с таким урлом можно уже ничего не размещать — достаточно почитать урл ;-0)

Golden Pages of Uzbekistan
22.10.2009, 23:31
http://blog.uzinfocom.uz/2009/10/21/poiskovaya-sistema-wwwuz/
На статью, добавлен комментарий.
Надеюсь, без обид!

Ruslan Aliev
23.10.2009, 10:13
Сайт www.uztravel.uz

"http://www.uztravel.uz/external_tourism/countries/island /Sweden/Australia/avstriya/island /tadjikistan/russia/perersburg.html"
"http://www.uztravel.uz/external_tourism/countries/island /Sweden/Australia/avstriya/island /tadjikistan/russia/island /reykjavik.html"
"http://www.uztravel.uz/external_tourism/countries/island /Armenia/indonesia/Nederlanden/rotterdam.html"
"http://www.uztravel.uz/external_tourism/countries/island /Armenia/uzbekistan/spain/chehia/usa/Sweden/stockholm.html"
"http://www.uztravel.uz/external_tourism/countries/island /Armenia/uzbekistan/spain/chehia/usa/usa/chikago.html"
"http://www.uztravel.uz/external_tourism/countries/island /Armenia/uzbekistan/spain/chehia/usa/bulgaria/sofia.html"
"http://www.uztravel.uz/external_tourism/countries/island /usa/great-britain/Argentina/turkey/usa/russia/uzbekistan/island /reykjavik.html"
"http://www.uztravel.uz/external_tourism/countries/island /usa/great-britain/Argentina/turkey/usa/russia/uzbekistan/island /china/beyjing.html"
"http://www.uztravel.uz/external_tourism/countries/island /usa/great-britain/Argentina/turkey/usa/russia/uzbekistan/island /bulgaria/sofia.html"
"http://www.uztravel.uz/external_tourism/countries/island /Armenia/bulgaria/Australia/uzbekistan/france/Swith/bern.html"



B вот таких ссылок около 50 тыс.



# Для сайта uztravel.
# "http://www.uztravel.uz/external_tourism/countries/island /Sweden/Australia/avstriya/island /tadjikistan/russia
Disallow regex uztravel\.uz(.*)/countries/island(.*)

Ruslan Aliev
23.10.2009, 10:14
http://blog.uzinfocom.uz/2009/10/21/poiskovaya-sistema-wwwuz/
На статью, добавлен комментарий.
Надеюсь, без обид!
Здоровая критика всегда приветствуется.
Можно обсудить ваше мнение и здесь, или в новой теме.

Evgeniy Sklyarevskiy
23.10.2009, 10:59
На статью, добавлен комментарий.
1. странная запятая... ввела меня в ступор...
2. не нашел там никакого комментария
3. зачем комментировать там, если обсуждается здесь?

Golden Pages of Uzbekistan
23.10.2009, 11:20
На статью, добавлен комментарий.
1. странная запятая... ввела меня в ступор...
2. не нашел там никакого комментария
3. зачем комментировать там, если обсуждается здесь?
Уже есть, комментарий прошел модерацию, спасибо что опубликовали!
Прокомментировано там, поскольку статья и был опубликована тама, так сказать по адресу.

Ruslan Aliev
25.10.2009, 09:19
Сайт www.uztravel.uz (http://www.uztravel.uz)

"http://www.uztravel.uz/external_tourism/countries/island /Sweden/Australia/avstriya/island /tadjikistan/russia/perersburg.html"
"http://www.uztravel.uz/external_tourism/countries/island /Sweden/Australia/avstriya/island /tadjikistan/russia/island /reykjavik.html"
"http://www.uztravel.uz/external_tourism/countries/island /Armenia/indonesia/Nederlanden/rotterdam.html"
"http://www.uztravel.uz/external_tourism/countries/island /Armenia/uzbekistan/spain/chehia/usa/Sweden/stockholm.html"
"http://www.uztravel.uz/external_tourism/countries/island /Armenia/uzbekistan/spain/chehia/usa/usa/chikago.html"
"http://www.uztravel.uz/external_tourism/countries/island /Armenia/uzbekistan/spain/chehia/usa/bulgaria/sofia.html"
"http://www.uztravel.uz/external_tourism/countries/island /usa/great-britain/Argentina/turkey/usa/russia/uzbekistan/island /reykjavik.html"
"http://www.uztravel.uz/external_tourism/countries/island /usa/great-britain/Argentina/turkey/usa/russia/uzbekistan/island /china/beyjing.html"
"http://www.uztravel.uz/external_tourism/countries/island /usa/great-britain/Argentina/turkey/usa/russia/uzbekistan/island /bulgaria/sofia.html"
"http://www.uztravel.uz/external_tourism/countries/island /Armenia/bulgaria/Australia/uzbekistan/france/Swith/bern.html"

B вот таких ссылок около 50 тыс.



# Для сайта uztravel.
# "http://www.uztravel.uz/external_tourism/countries/island /Sweden/Australia/avstriya/island /tadjikistan/russia
Disallow regex uztravel\.uz(.*)/countries/island(.*)

Что-то не правильно я выставил в правиле, набралось уже почти 6 млн. ссылок. Решил вообще убрать сайт из индексации.