Mj12bot что за бот
Перейти к содержимому

Mj12bot что за бот

  • автор:

Mj12bot что за бот

17 августа 2020

Нагрузку на сайт нередко делают не посетители, а разные поисковые боты. Когда-то проблемы были даже от робота Google, но сейчас он научился снижать аппетиты при появлении ошибок или существенном повышении времени ответа. Яндекс тоже поумерил аппетиты и настраивается через Вебмастер.

Но «голодные» боты ещё остались. Один из таких — AhrefsBot. На наше счастье, многие боты, которые сами не умеют регулировать свой аппетит, подчиняются robots.txt в корне сайта, директиве Crawl-Delay . Она выставляет задержку между парсингом следующей страницы в секундах. Одной секунды для многих проектов вполне достаточно (86400 страниц). Если мало — можно использовать дробные значения.

User-agent: * Crawl-Delay: 1

UPD: для особо непослушных ботов можно и пожёстче через Nginx.

Создаём в /etc/nginx конфиг block-bots.conf :

if ($http_user_agent ~* SemrushBot|MJ12bot|AhrefsBot|DotBot|PetalBot|LinkpadBot|SputnikBot|statdom.ru|MegaIndex.ru|WebDataStats|Jooblebot|BackupLand|NetcraftSurveyAgent|openstat.ru)

И подключаем в каждый блок server каждого конфига:

server < include block-bots.conf;

Комментарии RSS по email OK

Roman 17 авг. 2020 г., 12:16:59

У меня в практике была другая проблема. Магазин генерировал из связок товар+город уникальные страницы для сео продвижения. Кажда страница кешировалась. Так вот кеш мог вырастать до нескольков десятков гигабайт во время индексации гуглом. Админ наш подбамбливал периодически от этого =) .

scorp13 18 авг. 2020 г., 12:06:06

Поисковые боты еще куда ни шло, но это "сервисные" боты (ahrefsbot, mj12bot, semrush, similarweb — много их), которые по-сути для сайта никакой пользы не несут, а нагрузку действительно могут создать увеличить существенно, пусть даже на короткое время. Я обычно nginx'ом отдаю им 444.

Majestic-12 - что за зверь?

ежедневные посещения, страниц 100 смотрит постоянно Робот MJ12bot (http://majestic12.co.uk/bot.php) User-Agent MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+) Зверь со своим RANK :) Кто знает что за система?

Блог (http://seom.info/) | Ты уже SEO профессионал? (http://www.key-collector.ru/) Развиваем семантику более 8 лет! ()

На сайте с 13.06.2006
7 августа 2006, 21:53

MyOST:
ежедневные посещения, страниц 100 смотрит постоянно

Зверь со своим RANK :)

Кто знает что за система?

Идея этой поисковой системы - использовать ресурсы пользователей (в данном случае имеется ввиду интернет-траффик и процессорное время), чтобы добавлять информацию с сайтов в поисковый индекс. Пользователям предлагается скачать небольшую програмку (фактически - паука), которая и будет заниматься индексированием сайтов.

Почему некоторые блокируют «якобы плохих ботов»?

Начал изучать, гуглить, так как иногда проскакивают боты, которые мне не известны, и наткнулся на статью, типа "блокируем плохих ботов".

Вопрос, их блокируют чтобы они не нагружали сервер? Или есть еще какой-то смысл?
Ну допустим какой-то сервис, узнает или посчитает все свои факторы, и даст значение моему сайту по типу траста и тд,

И все? Вроде ничего страшного, какой еще смысл?

  • Вопрос задан 23 дек. 2022
  • 170 просмотров

что за Бот?

Может быть, вы добрались до этой страницы, нажав на ссылку, оставленную MJ12bot в ваших лог-файлов. Ниже вы можете увидеть некоторые из наиболее Часто задаваемых Вопросов относительно MJ12bot.

Что такое MJ12bot делаете на свой сайт (ы)?

Мы spider Web для того, чтобы построить поиска с быстрое и эффективное загружаемое распределенная поисковому роботу, что позволяет людям с широкополосной связи, чтобы помочь внести, как мы надеемся, станет крупнейший поисковик в мире. Производство полный текст поисковой системы на Majestic-12 в настоящее время находится на стадии исследований, которая частично финансируется коммерциализации результатов исследований в MajesticSEO.com.
То, что происходит с пополз данных?

Пополз данных (в настоящее время только веб-графов связей) добавляется к крупнейшим публичным обратных ссылок поисковой индекс, что мы поддерживаем как специальный инструмент, называемый Site Explorer. Все вебмастера могут получить полный свободный данные об обратных ссылок на подтверждающие право собственности на свое место - узнать о вашей собственной обратные ссылки из огромный обратные ссылки индекс.
Как я могу заблокировать MJ12bot?

MJ12bot придерживается robots.txt стандарт. Если вы хотите, чтобы бот для предотвращения сайта от пополз затем добавить следующий текст к вашему robots.txt:

User-agent: MJ12bot
Disallow: /

Пожалуйста, не тратьте время, пытаясь блокировать бот через IP в htaccess - мы не используйте последовательный блоков IP, так что ваши усилия будут напрасны. Также, пожалуйста, убедитесь, что бот может фактически получить robots.txt сам - если он не может, то он будет считать (это отраслевой практике), что его хорошо возможность сканирования вашего сайта.

Если у вас есть основания полагать, что MJ12bot НЕ слушаешься robots.txt команды, то, пожалуйста, дайте нам знать по электронной почте: bot@majestic12.co.uk. Предоставьте, пожалуйста, ссылку на ваш сайт и журнал записей, показывающие бот пытается загрузить страницы, это было и не нужно.
То, что не-стандартные функции robots.txt MJ12bot поддерживает?

Наши текущие гусеничных поддерживает следующие нестандартные расширения robots.txt:

Crawl-Delay до 20 секунд (более высокие значения будут округлены до предельно наш бот поддерживает)
Переадресация (в пределах одного сайта) при попытке fetch robots.txt
Простое сопоставление в Запретить директив, совместимый с Yahoo подстановки спецификация
Разрешить директивы могут переопределить Запретить, если они являются более конкретными (больше в длину)
Определенные сбои, чтобы взять robots.txt таких, как 403 Forbidden, будет рассматриваться как одеяло Директива disallow

Почему в robots.txt блок не работает на MJ12bot?

Мы заинтересованы в том, чтобы увидеть какие-либо сообщения о потенциальных violitions из robots.txt по MJ12bot.

Существует ряд ложных срабатываний поднял - это может быть полезным контрольный список при настройке веб-сервера:

Off сайт перенаправляет запрос на robots.txt - MJ12Bot образом перенаправления, но только на один домен. Идеальный для robots.txt чтобы быть в наличии "/robots.txt"как указано в стандарте.
Несколько доменов, работающие на том же сервере. Современные веб-серверов, таких как Apache может войти доступ в ряде областей в одном файле - это может вызвать путаницу при попытке посмотреть, что веб-сервер был доступен в чем дело. Вы, возможно, пожелает рассмотреть вопрос о включении информации о домене, чтобы журнал доступа, или расщепление журналов доступа для каждого домена
Robots.txt из синхронизации с разработчиком копирования. У нас были жалобы, что MJ12Bot имеет ослушались robots.txt - только чтобы узнать, что у разработчиков была тестирования против развития-сервера, который не в синхронизации с живой версии

Исторически сложилось так, что был период, когда MJ12Bot User-Agent был поддельный. Плохо боты часто используются поддельные агенты пользователя, которые легко подделать. В обсуждении подделка V1.08 MJ12Bot - архивные здесь. Majestic-12-поэтому интересно услышать о каких-либо отчетов robots.txt нарушение, С тем, чтобы проверить, если MJ12bot-наши или не нужен нам регистрации запросов, показывая, IP-адрес бота, запрос на robots.txt и последующие запросы, вы считаете, являются нарушением.
Как я могу замедлить MJ12bot?

Вы можете легко замедлить обуви, добавляя следующие строки в ваш robots.txt файл:

User-Agent: MJ12bot
Crawl-Delay: 5

Crawl-Delay должен быть целым числом и оно означает количество секунд ожидания между запросами. MJ12bot будет сделать до 20 секунд задержка между запросами на ваш сайт - заметьте, однако, что, хотя вряд ли, это еще возможно, ваш сайт может быть выполз из нескольких MJ12bots в то же время. Оформить высокой Crawl-Delay должно свести к минимуму воздействие на ваш сайт. Это Crawl-Delay параметр также будет активной, если она была использована для * (wildcard).

Если наш бот распознает, что вы использовали Crawl-Delay для любой другой обуви, то она будет автоматически сканировать медленнее, хотя MJ12bot специально не попросили это сделать.
Каковы текущие версии MJ12bot?

Текущие версии MJ12bot:

v1.4.x серии - самая распространенная: v1.4.2 и v1.4.3 (новый с Апреля 2012 года)

Если вы не были удовлетворены информации выше, то не стесняйтесь, обращайтесь к нам: bot@majestic12.co.uk

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *