PDA

Просмотр полной версии : Считается ли статистика с субдоменов?


Ilkhom Idiyev
11.06.2009, 11:26
Собственно, сабж. Есть сайт site.uz. Есть куча субдоменов - perviy.site.uz , vtoroy.site.uz и т.д. На всех стоит код счетчика. Статистика собирается только с site.uz?
Вопрос возник в связи с большим расхождением результатов google analytics и www.uz

Ruslan Aliev
11.06.2009, 12:48
Собственно, сабж. Есть сайт site.uz. Есть куча субдоменов - perviy.site.uz , vtoroy.site.uz и т.д. На всех стоит код счетчика. Статистика собирается только с site.uz?
Вопрос возник в связи с большим расхождением результатов google analytics и www.uz (http://www.uz)
Эта тема обсуждалась на этом форуме и не раз.
Воспользуйтесь системой поиска по форуму.

Ilkhom Idiyev
11.06.2009, 14:21
Да вы можете размещать счетчик на доменах третьего уровня своего проекта.
Но при этом надо учитывать, что статистика будет собираться для всех проектов как для одного сайта. И разделить ее потом не получится.
Если вас это не устраивает, то надо регистрировать субдомен как отдельный сайт и получать на него свой счетчик.

хорошо, тогда еще вопрос. Он вроде тоже задавался, но я не смог найти тему.
Как вы идентифицируете хост - по ip или по cookie?

Ilkhom Idiyev
11.06.2009, 14:23
А вот позиция в Топ-рейтинге зависит от количества хостов.
Хост, в понимании системы Топ-рейтинга, - это один IP адрес. Т.е. количество хостов - это количество IP адресов зафиксированных на этом сайте счетчиком.
все, нашел :)

Как мне известно, все дайлап пользователи (одного провайдера) имеют один (ну может несколько) внешних ip адресов. Исходя из вышесказанного возникает вопрос. Значит ли это, что всех пользователей с коммутированным подключением к интернету и клиентов интернет кафе вы считаете за один хост и исходя из этого формируете свой Топ?

Djalolatdin Rakhimov
11.06.2009, 18:00
А вот позиция в Топ-рейтинге зависит от количества хостов.
Хост, в понимании системы Топ-рейтинга, - это один IP адрес. Т.е. количество хостов - это количество IP адресов зафиксированных на этом сайте счетчиком.все, нашел :)

Как мне известно, все дайлап пользователи (одного провайдера) имеют один (ну может несколько) внешних ip адресов. Исходя из вышесказанного возникает вопрос. Значит ли это, что всех пользователей с коммутированным подключением к интернету и клиентов интернет кафе вы считаете за один хост и исходя из этого формируете свой Топ?

В статистике хостов мы считает именно хосты, а не пользователей. Если у Вас есть реальный механизм определения количества пользователей, то просто рады будем реализовать его. Даже заплачу.

Ilkhom Idiyev
12.06.2009, 22:01
В статистике хостов мы считает именно хосты, а не пользователей. Если у Вас есть реальный механизм определения количества пользователей, то просто рады будем реализовать его. Даже заплачу.

Механизм точного определения количества людей, посетивших сайт реализовать невозможно. Но есть действенные способы, которые с довольно хорошей точностью могут подсчитать посетителей. Я думаю это лучше, чем абстрактное понятие "хосты", которое может за рубежом и дает хорошее представление о посещаемости ресурса, у нас не целесообразно, в связи с подавляющим количеством диалапщиков и людей, пользующихся сетью в интернет-кафе.

Djalolatdin Rakhimov
13.06.2009, 01:47
Но есть действенные способы, которые с довольно хорошей точностью могут подсчитать посетителей.

Я и говорю, повторяясь: Если у Вас есть реальный механизм определения количества пользователей, то просто рады будем реализовать его. Даже заплачу.

Evgeniy Sklyarevskiy
13.06.2009, 17:44
В статистике хостов мы считает именно хосты, а не пользователей.
А через какое минимальное время повторный заход с тем же IP плюсуется как новый хост?
Или это закрытая информация для избежания накруток?

Aleksey Kim
13.06.2009, 19:04
А через какое минимальное время повторный заход с тем же IP плюсуется как новый хост?
Или это закрытая информация для избежания накруток?
Наверно, для общего количества хостов один IP адрес засчитывается лишь раз, а для общего количества за сутки — 24 часа?

Djalolatdin Rakhimov
14.06.2009, 20:54
В статистике хостов мы считает именно хосты, а не пользователей.
А через какое минимальное время повторный заход с тем же IP плюсуется как новый хост?
Или это закрытая информация для избежания накруток?

С начала новых суток отсчет начинается заново.

Evgeniy Sklyarevskiy
15.06.2009, 00:10
В статистике хостов мы считает именно хосты, а не пользователей.
А через какое минимальное время повторный заход с тем же IP плюсуется как новый хост?
Или это закрытая информация для избежания накруток?

С начала новых суток отсчет начинается заново.

Спасибо за ответ. Наверное, любой выбранный интервал имел бы свои плюсы и минусы. Тут самое главное, что у всех участников считается по одному алгоритму, поэтому соревнование честное.

Ну, можно только выдумать ситуацию, что у какого-то сайта все посетители диалапшики с частыми разрывам, и один и тот же человек заходит с разным ИП, а у другого сайте все посетители корпоративщики и заходят под ИП своей сети. Но вряд ли такое деление имеет место, в среднем у всех должно быть одинаково.

Djalolatdin Rakhimov
15.06.2009, 01:05
Ну, можно только выдумать ситуацию, что у какого-то сайта все посетители диалапшики с частыми разрывам, и один и тот же человек заходит с разным ИП, а у другого сайте все посетители корпоративщики и заходят под ИП своей сети. Но вряд ли такое деление имеет место, в среднем у всех должно быть одинаково.

Опять же: мы можем считать только ip-адреса, а никак не конкретных пользователей.

Ilkhom Idiyev
15.06.2009, 17:59
Я и говорю, повторяясь: Если у Вас есть реальный механизм определения количества пользователей, то просто рады будем реализовать его. Даже заплачу.

думаю, этот механизм не сложен, и все сервисы статистика используют его.

Считаем посетителей.
* Генерируем большое случайное число. Заносим его в куки браузера сроком до конца текущего дня (23:59). Важно при установки куки указать домен без www и корневую директории '/'.


Думаю, у вас в БД имеется таблица с хитами, имеющая примерно такие поля:
id | siteId | time | url | ip | userAgent
добавим еще одно поле
id | siteId | time | url | ip | userAgent | visitorId

visitorId - это и есть то случайное число, которые мы занесли в куки.
Каждый показ страницы мы добавляем запись в эту таблицу. Если в куки пользователя установлена visitorId , то заносим это значение, если нет - то генерируем новое, заносим в таблицу и сохраняем в куки (см "*").
Теперь можно спокойно подсчитать посетителей - количество уникальных значений visitorId.

Система против накруток.
Во-первых, если у пользователя отключены куки, то не считаем его за посетителя, т.к. это скорее всего бот. Над этим еще нужно подумать, потому что некоторые отключают куки. Можно, к примеру их тоже считать за посетителей по уникальности ip+userAgent, отбрасывая при этом поисковых ботов.

Понимаю, обойти такую систему легко, достаточно отчищать куки и обновлять страницу, тогда система будет считать вас за нового посетителя. Но и идентифицировать накрутчиков достаточно легко:
1. Накрутчик скорее всего владелец сайта (или один из владельцев).
2. Накрутчик скорее всего не будет менять userAgent и ip.

Исходя и 1 и 2 можно построить такую систему:
1. Сохраняем ip зарегистрировавшего сайт в каталоге и всех, кто смотрит статистику (посещает страницу http://www.uz/catalogue/toprating/topid/{siteId} )
2. Извлекать записи из таблицы с хитами, у которых одинаковые ip и userAgent, но разные visitorId за день. Если таких записей больше n и временные промежутки между созданием записи - t, то это накрутка. Если ip этих записей равно хотя бы одному ip из пункта 1, то это однозначно накрутчик.

Если хорошо продумать значения n и t, то можно вычислять процент вероятности накрутки. Если еще немного поразмышлять и добавить в систему новые параметры вероятности можно довести все до автоматики (скажем, автоматически удалять потенциальные накрутки с вероятностью > 80%).

PS: написал на скорую руку, особо не продумывая. Если ваши специалисты хорошенько поразмышляют, проведут исследования и проанализирует существующую статистику, то можно создать достаточно качественный и точный инструмент.

Ilkhom Idiyev
15.06.2009, 18:12
информация для размышления (http://www.liveinternet.ru/help/stat/mismatches.html) :
Посетители:

LiveInternet - уникальный посетитель определяется по выдаваемой браузеру
специальной метке (cookie). Если браузер не принимает cookies,
то в учете посетителей он не участвует, от такого браузера
будут засчитываться только просмотры (и переходы).

В RamblerTop100 посетители определяются так же по cookies, но в
том случае, если браузер не принимает cookies, то посетитель
тоже считается, но уже по IP-адресу; в общем, при прочих равных
условиях "посетителей" по Rambler будет немного больше, чем по
LiveInternet. В отчете "Подробная статистика" Rambler выводит такой
показатель "В том числе посетителей с cookie", вот как раз это
значение и должно совпадать с количеством посетителей по LiveInternet.

TopMail ведет учет посетителей так же, как и LiveInternet - по cookies,
если браузер не принимает cookie, то он как посетитель не учитывается.
(Обратите внимание, что это нововведение TopMail, раньше TopMail не вел
учет посетителей по cookies)

SpyLOG ведет учет посетителей приблизительно так же, как и
RamblerTop100: тоже по cookies, но с какими-то дополнительными
ухищрениями в случае отсутствия в браузере поддержки cookies;
то есть посетителей по SpyLOG должно показываться больше, чем
по LiveInternet.

Hotlog, вероятно, называет посетителями то же, что и LiveInternet. К
сожалению, точного определения на сайте Hotlog нет.

Djalolatdin Rakhimov
16.06.2009, 15:06
PS: написал на скорую руку, особо не продумывая. Если ваши специалисты хорошенько поразмышляют, проведут исследования и проанализирует существующую статистику, то можно создать достаточно качественный и точный инструмент.

Ильхом, спасибо. Я попрошу наших специалистов прокомментировать Ваше предложение.

Ruslan Aliev
16.06.2009, 16:47
Я и говорю, повторяясь: Если у Вас есть реальный механизм определения количества пользователей, то просто рады будем реализовать его. Даже заплачу.

думаю, этот механизм не сложен, и все сервисы статистика используют его.

Считаем посетителей.
* Генерируем большое случайное число. Заносим его в куки браузера сроком до конца текущего дня (23:59). Важно при установки куки указать домен без www и корневую директории '/'.


Думаю, у вас в БД имеется таблица с хитами, имеющая примерно такие поля:
id | siteId | time | url | ip | userAgent
добавим еще одно поле
id | siteId | time | url | ip | userAgent | visitorId

visitorId - это и есть то случайное число, которые мы занесли в куки.
Каждый показ страницы мы добавляем запись в эту таблицу. Если в куки пользователя установлена visitorId , то заносим это значение, если нет - то генерируем новое, заносим в таблицу и сохраняем в куки (см "*").
Теперь можно спокойно подсчитать посетителей - количество уникальных значений visitorId.

Да это понятно. Примерно так и делаем.


Система против накруток.
Во-первых, если у пользователя отключены куки, то не считаем его за посетителя, т.к. это скорее всего бот. Над этим еще нужно подумать, потому что некоторые отключают куки. Можно, к примеру их тоже считать за посетителей по уникальности ip+userAgent, отбрасывая при этом поисковых ботов.

А если добавить еще и разрешение монитора и версию javascript то можно даже сделать точнее. Другое ело что все эти параметры можно менять и подделывать.

Понимаю, обойти такую систему легко, достаточно отчищать куки и обновлять страницу, тогда система будет считать вас за нового посетителя. Но и идентифицировать накрутчиков достаточно легко:
1. Накрутчик скорее всего владелец сайта (или один из владельцев).
2. Накрутчик скорее всего не будет менять userAgent и ip.

Исходя их моего опыта, владельцы узбекских сайтов использующие накрутки, делают это умело и профессионально. Скорее всего будет использваться специальная система, услуги которой будут оплачены.


Исходя и 1 и 2 можно построить такую систему:
1. Сохраняем ip зарегистрировавшего сайт в каталоге и всех, кто смотрит статистику (посещает страницу http://www.uz/catalogue/toprating/topid/{siteId} )
2. Извлекать записи из таблицы с хитами, у которых одинаковые ip и userAgent, но разные visitorId за день. Если таких записей больше n и временные промежутки между созданием записи - t, то это накрутка. Если ip этих записей равно хотя бы одному ip из пункта 1, то это однозначно накрутчик.

Если хорошо продумать значения n и t, то можно вычислять процент вероятности накрутки. Если еще немного поразмышлять и добавить в систему новые параметры вероятности можно довести все до автоматики (скажем, автоматически удалять потенциальные накрутки с вероятностью > 80%).

В том то и дело, что когда речь идет о вероятностях то доверять этому уже как то трудно.


PS: написал на скорую руку, особо не продумывая. Если ваши специалисты хорошенько поразмышляют, проведут исследования и проанализирует существующую статистику, то можно создать достаточно качественный и точный инструмент.
Ильхом спасибо. Единственное что могу сказать что об этом думали и пока не нашли 100% способа определить количество пользователей.
Тот способ, который вы предлагаете, требует переделки существующей ситсемы. Это огромный объем работ. Особенно если учесть, что нужно сделать плавный переход от одной системы (без учета кук) к другой (с учетом). Можно учитывать количество "пользователей" и на существующей системы (скажем пользователь это IP + UserAgent) - но это легко подделывается.

Ко всему выше сказанному могу добавить, что уже запланировано создание новой системы, где будут учитываться "пользователи". Сроки сказать не могу.

Ilkhom Idiyev
16.06.2009, 22:23
все ясно. Будем ждать тогда новой системы :).

Еще хотелось бы сказать, не нужно слишком заморачиваться с проблемой накрутки, переходящей в паранойю. Накрутить можно все и везде, главное желание. Не думаю, что аналогичные западные и европейские сервисы используют супер-навороченную систему от накруток. Тут все зависит от уровня интеллекта самих пользователей. Просто сами посетители должны понять, что это не нужное дело, от него ровным счетом никакой пользы. Хороший сайт итак будут посещать, без каких либо мест в топах. А у ненужного и некачественного сайта, будь он в самых верхах топов какое-то время, все равно не вырастет посещаемость, возможно лишь на какой-то маленький период и только..

Evgeniy Sklyarevskiy
16.06.2009, 22:44
Хороший сайт итак будут посещать, без каких либо мест в топах. А у ненужного и некачественного сайта, будь он в самых верхах топов какое-то время, все равно не вырастет посещаемость, возможно лишь на какой-то маленький период и только..

А посетители и не ориентируются на счетчики — это больше для рекламодателей (и то, недалеких), которым можно проехать по ушам и завысить цену, показав большие цифры. Когда к нам придет цивилизация, то рекламщики будут платить не за показы (посещения), а ориентируясь на ТИЦ или PR, которые в тыщи раз труднее накрутить чем посещения. Ну, или если за показы, как SIR, то по своим данным, не взирая на сторонние счетчики.
Надо относиться к ним как к пузомерке-развлекухе...

Ilkhom Idiyev
17.06.2009, 21:31
Я хотел сказать не посетители, а создатели сайтов ))

Ruslan Aliev
19.06.2009, 09:15
Я хотел сказать не посетители, а создатели сайтов ))
А ЕС и есть создатель многих сайтов, теперь понятно зачем он ставил наши счетчики.