Моё меню Общее меню Сообщество Правила форума Все прочитано
Вернуться   uForum.uz > ИКТ и телеком > Веб-ресурсы и доменные имена > Каталоги и поисковики > WWW.UZ
Сообщения за день Поиск
Знаете ли Вы, что ...
...инструкция по установке аватара описана в Правилах форума.
<< Предыдущий совет - Случайный совет - Следующий совет >>

WWW.UZ Национальная информационно-поисковая система WWW.UZ. Раздел UZINFOCOM


Ответить

 
Опции темы Опции просмотра
Старый 16.10.2009 14:42   #1  
Аватар для Ruslan Aliev
Оффлайн
AKA:Рустамыч
Сообщений: 2,598
+ 475  792/462
– 45  44/28

KazakhstanОтправить сообщение для Ruslan Aliev с помощью Skype™Мой КругАккаунт на Twitter
SEO сайтов в Узнете и Поисковик НИПС WWW.UZ

Анализируя собранные индексатором ссылки наткнулся на большой кусок базы, где основную часть составляли клоны.
Вот пример ссылки http://light.anons.uz/article/economics/page_7/jslib/article/other/962/ - явно ошибка движка, где ссылки (внизу страницы) ведут на подобные страницы :
http://light.anons.uz/article/economics/page_7/jslib/article/other/962/article/economics/528/
http://light.anons.uz/article/economics/page_7/jslib/article/other/962/article/economics/523/
http://light.anons.uz/article/economics/page_7/jslib/article/other/962/article/economics/521/

То есть к текущему URL добавляется еще кусочек article/economics/***/. В результате ссылки получаются такими.


Кто может подсказать, как регулярными выражениями вырезать повторяющиеся переменные и оставлять только последнюю пару переменная=значение.


P.S. Пока просто забанил сайт anons.uz
__________________
Свет рождает тени ...

Последний раз редактировалось Ruslan Aliev; 16.10.2009 в 14:46.
Ответить 
Старый 16.10.2009 15:23   #2  
Аватар для Georgick
Оффлайн
Navitas
Team Leader
Сообщений: 1,026
+ 488  582/279
– 1  8/8

UzbekistanОтправить сообщение для Georgick с помощью ICQОтправить сообщение для Georgick с помощью Skype™LiveJournal
можно ограничиться количеством слешей для исследования в урлах. Например, существует мнение, что yahoo делает именно так. На счет google мнения однозначного нет. Исключения можно делать разве что на случаи, если на какой-то очень глубокий с большим количеством слешей урл ведет множество ссылок с других сайтов.
Ответить 
Старый 16.10.2009 15:38   #3  
Аватар для Ruslan Aliev
Оффлайн
AKA:Рустамыч
Сообщений: 2,598
+ 475  792/462
– 45  44/28

KazakhstanОтправить сообщение для Ruslan Aliev с помощью Skype™Мой КругАккаунт на Twitter
Цитата:
Сообщение от Georgick Посмотреть сообщение
можно ограничиться количеством слешей для исследования в урлах. Например, существует мнение, что yahoo делает именно так. На счет google мнения однозначного нет. Исключения можно делать разве что на случаи, если на какой-то очень глубокий с большим количеством слешей урл ведет множество ссылок с других сайтов.
Это требует анализа всей базы, а значит написанию демонов + дополнительная нагрузка на сервер. Нужно чтобы определение шло на лету.

Исключение УРЛов с большим количеством слешей в принципе подходит, но ведь переменные можно передавать и другим способом, в принципе можно писать их через & и также повторять по нескольку раз.

Мне нужно именно определять двукратное (и больше) наличие одной и той же переменной и вырезать такие пары.
__________________
Свет рождает тени ...
Ответить 
Старый 16.10.2009 23:33   #4  
Real ID Group uParty Member
Аватар для Ruslan Juldashev
Оффлайн
Веб-разработчик
AKA:monitoringe
Сообщений: 3,550
+ 664  1,588/953
– 8  3/2

UzbekistanОтправить сообщение для Ruslan Juldashev с помощью Skype™LiveJournalМой КругАккаунт на TwitterМой мир
Цитата:
Сообщение от Rustam Valiev Посмотреть сообщение
Исключение УРЛов с большим количеством слешей в принципе подходит, но ведь переменные можно передавать и другим способом, в принципе можно писать их через & и также повторять по нескольку раз.

Мне нужно именно определять двукратное (и больше) наличие одной и той же переменной и вырезать такие пары.
Если я вас правильно понял (а у меня есть подозрения, что понял неправильно как всегда), то можно регуляркой разбить урл на массив и сравнить переменные. В php это функция split. Дубли переменных удалить и сравнить с имеющимися адресами в базе. Вот только если в случае с anons.uz это будет работать, совершенно нет гарантии, что оно будет работать везде. Вы ведь не знаете как у них rewrit-ы прописаны, может там эти дубли непременно нужны?

И в любом случае сравнивать с базой придётся, ведь одна и та же страничка может вызываться совершенно разными Get-параметрами.
__________________
Я за правильное оформление текста на форуме.

Последний раз редактировалось Ruslan Juldashev; 16.10.2009 в 23:46.
Ответить 
Старый 16.10.2009 23:46   #5  
Аватар для Georgick
Оффлайн
Navitas
Team Leader
Сообщений: 1,026
+ 488  582/279
– 1  8/8

UzbekistanОтправить сообщение для Georgick с помощью ICQОтправить сообщение для Georgick с помощью Skype™LiveJournal
Цитата:
Сообщение от Rustam Valiev Посмотреть сообщение
Мне нужно именно определять двукратное (и больше) наличие одной и той же переменной и вырезать такие пары.
если переменная на входе неизвестна, то одна строчка Regex тут никак не поможет, нет ведь шаблона для поиска вхождения. Если же переменная известна, то regex решает проблему
Ответить 
Старый 17.10.2009 00:12   #6  
Real ID Group Ultimate uParty Member ЕС
Аватар для Evgeniy Sklyarevskiy
Оффлайн
UZINFOCOM
Сотрудник ZiyoNET
AKA:ЕС, barbaris, arbuz
Сообщений: 32,709
+ 10,568  16,236/8,377
– 50  472/298

UzbekistanLiveJournalАккаунт на TwitterFacebook
Оффтоп:
Цитата:
Сообщение от Georgick Посмотреть сообщение
можно ограничиться количеством слешей для исследования в урлах.
Предлагаю не торопиться с этим — в Дойре пока много слешей в адресах... над этим работают... :-0)
Ответить 
Старый 21.10.2009 16:05   #7  
Аватар для Ruslan Aliev
Оффлайн
AKA:Рустамыч
Сообщений: 2,598
+ 475  792/462
– 45  44/28

KazakhstanОтправить сообщение для Ruslan Aliev с помощью Skype™Мой КругАккаунт на Twitter
Просто ограничил количество слешей в УРЛ.
Код:
# Для сайта anons.uz (http://light.anons.uz/article/economics/page_7/jslib/article/other/962/)
ReverseAlias regex ^(.*anons\.uz)(\/.*?\/.*?\/).* $1$2


Вообще я был бы рад, если веб-мастеры почаще использовали rel=nofollow в ссылках на сортировку, фильтрацию и т.п.
На форумах такие атрибуты лучше ставить на ссылки типа "Ответить", "Личное сообщение", "Искать все посты", "Древовидный".
Обычно все эти страницы попадают в так называемые "Клоны"
__________________
Свет рождает тени ...

Последний раз редактировалось Ruslan Aliev; 21.10.2009 в 16:09.
Ответить 
Реклама и уведомления
Старый 21.10.2009 16:05   #8  
Аватар для Ruslan Aliev
Оффлайн
AKA:Рустамыч
Сообщений: 2,598
+ 475  792/462
– 45  44/28

KazakhstanОтправить сообщение для Ruslan Aliev с помощью Skype™Мой КругАккаунт на Twitter
Я вот теперь думаю что делать вот с такими ссылками

"http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price%3A200%24+-+400%24&filter=on&delete_f=brand&IBLOCK_ID=28&SECT ION_ID=566&PAGEN_3=4"
"http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price%3A200%24+-+400%24&filter=on&delete_f=taymer_e7&SECTION_ID=56 6&IBLOCK_ID=28&PAGEN_3=4"
"http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price%3A200%24+-+400%24&filter=on&delete_f=kolkonf_e4&IBLOCK_ID=28 &SECTION_ID=566&PAGEN_4=5&PAGEN_3=4"
"http://www.yarmarka.uz/catalog/krupnaya-bitovaya/28-566.html?fil=price:200$ - 400$&filter=on&delete_f=kolkonf_e4&SECTION_ID=566& IBLOCK_ID=28&PAGEN_3=4&PAGEN_4=4"
"http://www.yarmarka.uz/catalog/telefoniya-svyaz/23-474.html?fil=315:трубка/база [10]&filter=on&delete_f=cpikerfon_r&SECTION_ID=474&IBL OCK_ID=23&PAGEN_3=4"
"http://www.yarmarka.uz/catalog/foto-video-optika/17-574-32585.html&amp;amp;amp;IBLOCK_ID=17?SECTION_ID=464 "
"http://www.yarmarka.uz/catalog/foto-video-optika/17-465-36279.html?SECTION_ID=464"
"http://www.yarmarka.uz/catalog/foto-video-optika/17-574-6904.html&amp;amp;IBLOCK_ID=17?SECTION_ID=464"
"http://www.yarmarka.uz/catalog/foto-video-optika/17-466-44555.html?SECTION_ID=464"


Их у меня уже около 10 тыс проиндексированных и столько же в очереди, и их количество постоянно растет, пока просто поставил такие правила:

Код:
# Для сайта yarmarka.uz.
Disallow regex .*yarmarka\.uz(.*)fil=
Disallow regex .*yarmarka\.uz(.*)amp;
Disallow regex .*yarmarka\.uz(.*)SECTION_ID
Disallow regex .*yarmarka\.uz(.*)BLOCK_ID
__________________
Свет рождает тени ...

Последний раз редактировалось Ruslan Aliev; 21.10.2009 в 16:10.
Ответить 
Старый 21.10.2009 16:49   #9  
Known ID Group
Аватар для azim
Оффлайн
Сообщений: 9,212
+ 2,913  8,527/3,734
– 627  201/161

Zimbabwe
Оффтоп:
анти-битрикс заговор...
__________________
маленкий прищавый очкастый парнышка озлоблиный на вес мир изза свойей внешности
Ответить 
Старый 21.10.2009 17:35   #10  
Аватар для Ruslan Aliev
Оффлайн
AKA:Рустамыч
Сообщений: 2,598
+ 475  792/462
– 45  44/28

KazakhstanОтправить сообщение для Ruslan Aliev с помощью Skype™Мой КругАккаунт на Twitter
http://blog.uzinfocom.uz/2009/10/21/...sistema-wwwuz/
__________________
Свет рождает тени ...
Ответить 
Ответить




Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd. Перевод: zCarot
Advertisement System V2.5 By Branden
OOO «Единый интегратор UZINFOCOM»


Новые 24 часа Кто на форуме Новички Поиск Кабинет Все прочитано Вверх