Что такое поисковый движок
Перейти к содержимому

Что такое поисковый движок

  • автор:

Поисковая машина

Поисковая машина (поиско́вый движо́к) — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.

Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, т.е. уместность результата), полнота индекса, учёт морфологии языка.

Классификация

По области поиска (условно)

Локальные

Предназначены для поиска информации по какой-либо части всемирной сети, например по одному или нескольким сайтам, либо по локальной сети.

Глобальные

Предназначены для поиска информации по всей сети Интернет либо по значительной её части. Представителями таких поисковых машин являются поисковые системы Google, Яндекс и т. п. Поисковые машины осуществляют поиск информации различного типа, например текстов, видео, изображений, географических объектов, персональных данных и др. При этом файлы, с которыми может работать поисковая машина, могут быть как текстового формата (например .html, .htm, .txt, .doc, .rtf…), так и графического (.gif, .png, .svg…) или мультимедийного (видео и звук). Пока наиболее распространённым является именно поиск по текстовым документам.

Поисковый запрос

Исходной информацией для поиска является поисковый запрос.

Функции

Поисковые машины выполняют несколько функций:

Поиск ссылок

Поиск ссылок на страницы и другие документы сайтов.

Автоматический

Поисковая машина ищет ссылки со страниц сайтов.

Ручной режим

Пользователи сами добавляют в базу данных поисковой машины ссылки на страницы своих сайтов

Индексация документов сайтов

Извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины

Поиск по базе данных проиндексированных документов

Может состоять из нескольких этапов

Нахождение документов, соответствующих поисковому запросу
Ранжирование документов в соответствии с их релевантностью поисковым запросам
Кластеризация документов

Примечания

См. также

Ask.com (Ask Jeeves, механизм Teoma) • Blekko • Cuil (закрыт) • DuckDuckGo • Exalead • Gigablast • Google • Bing (Live Search/MSN Search) • Yahoo! Search (Inktomi • AltaVista • Alltheweb) • Яндекс

AskNet.ru • Brainboost • Clusty • Dogpile • FarSEER • exactus.ru • Excite • HotBot • Info.com • Ixquick • Krozilo • Mamma • Metacrawler • MetaLib • Нигма • Myriad Search • SideStep • Surfwax • Turbo10 • WebCrawler • GlobalFileSearch

DataparkSearch • Egothor • Gonzui • Grub • Ht://dig • locust • Isearch • Lucene • Lemur Toolkit & Indri Search Engine • mnoGoSearch • Namazu • Nutch • OpenFTS • Sciencenet (научная, на технологии YaCy) • Wikia Search • Sphinx • SWISH-E • Terrier Search Engine • Xapian • YaCy • Zettair

AGAKIDS (Россия) • Ask Kids (Великобритания) • Frag Finn (Германия) • Kids AOL (США) • Kids Yahoo! (США) • Quintura Дети (Россия) • Семейный Яндекс (Россия) • Гогуль (Россия)

  • Информационный поиск
  • Информационные системы

Wikimedia Foundation . 2010 .

  • Северный фронт
  • Эфиопы (мифология)

Полезное

Смотреть что такое «Поисковая машина» в других словарях:

  • Поисковая машина — (searching engine): веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex). Источник: ИНТЕРНЕТ РЕСУРСЫ. ТРЕБОВАНИЯ ДОСТУПНОСТИ ДЛЯ ИНВАЛИДОВ ПО ЗРЕНИЮ. ГОСТ Р 52872 2007 (утв. Приказом Ростехрегулирования от… … Официальная терминология
  • поисковая машина — Веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex). [ГОСТ Р 52872 2007] Тематики информационные технологии в целом EN searching engine … Справочник технического переводчика
  • Поисковая система — в Интернет специальный веб сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Поисковая система состоит из трех компонент: 1 поискового робота; 2 индекса системы; и 3 программы,… … Финансовый словарь
  • Поисковая метамашина — в Internet поисковая машина, которая: отсылает запрос на поиск в несколько поисковых систем; и генерирует из полученных ответов сводку (на одной странице). По английски: Meta search engine Синонимы: Мета гусеница Синонимы английские: Metacrawler… … Финансовый словарь
  • Поисковая система — Эта статья должна быть полностью переписана. На странице обсуждения могут быть пояснения. Поисковая система программно аппаратный комплекс с веб интерфейсом, предоставляющий возможност … Википедия
  • Поисковая система — – (англ. search engine, синонимы: искалка, поисковый сервер, поисковая машина) – Инструмент для поиска информации в Интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент,… … Энциклопедический словарь СМИ
  • Апорт (поисковая система) — У этого термина существуют и другие значения, см. Апорт. Апорт … Википедия
  • Интернет-поисковая система — Поисковая система веб сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp серверах, товары в… … Википедия
  • Интернет-поисковая служба — Поисковая система веб сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp серверах, товары в… … Википедия
  • Информационно-поисковая система — Поисковая система веб сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp серверах, товары в… … Википедия
  • Обратная связь: Техподдержка, Реклама на сайте
  • �� Путешествия

Экспорт словарей на сайты, сделанные на PHP,
WordPress, MODx.

  • Пометить текст и поделитьсяИскать в этом же словареИскать синонимы
  • Искать во всех словарях
  • Искать в переводах
  • Искать в ИнтернетеИскать в этой же категории

Поисковый движок

Поисковая система представляет собой программный комплекс, который предназначен для проведения веб — поиска . Они осуществляют систематический поиск во всемирной паутине конкретной информации, указанной в текстовом поисковом запросе . Результаты поиска обычно представлены в виде строки результатов, часто называемых страницами результатов поисковых систем (SERP). Информация может представлять собой смесь ссылок на веб-страницы , изображения, видео, инфографику , статьи, исследовательские работы и другие типы файлы. Некоторые поисковые системы также добывают данные, доступные в базах данных или открытых каталогах. В отличие от веб — каталоги , которые поддерживаются только человеческими редакторами, поисковые системы также поддерживают в режиме реального времени информацию, запустив алгоритм на веб — искателя . Интернет-контент, который не может быть найден поисковой системой в Интернете, обычно называется глубокой паутиной .

Система поиска опубликованной информации, предназначенная для преодоления все возрастающих трудностей поиска информации в постоянно растущих централизованных указателях научной работы, была описана в 1945 году Ванневаром Бушем , который написал в The Atlantic Monthly статью под названием « Как мы можем думать » [1 ], в которой он представил библиотеки исследований со связанными аннотациями, мало чем отличающиеся от современных гиперссылок . [2] Анализ ссылок в конечном итоге станет важным компонентом поисковых систем с помощью таких алгоритмов, как Hyper Search и PageRank . [3] [4]

Первые поисковые машины интернет предшествуют дебют Сети в декабре 1990 года: Кто пользователь дата поиска вернуться к 1982 году, [5] и Knowbot Информационной службы мульти-поиск сети пользователя впервые был реализован в 1989 году [6] Первый хорошо документирован поисковой системой, которая осуществляла поиск файлов содержимого, а именно файлов FTP , была Archie , дебютировавшая 10 сентября 1990 года [7].

До сентября 1993 года всемирная паутина полностью индексировалась вручную. Был список веб-серверов, отредактированный Тимом Бернерс-Ли и размещенный на веб-сервере ЦЕРН . Один моментальный снимок списка 1992 года сохранился [8], но по мере того, как все больше и больше веб-серверов выходили в сеть, центральный список больше не успевал. На сайте NCSA были анонсированы новые серверы под заголовком «Что нового!» [9]

Первым инструментом, используемым для поиска контента (в отличие от пользователей) в Интернете, был Archie . [10] Название означает «архив» без буквы «v». [11] Он был создан Аланом Эмтиджем [11] [12] [13] [14] студентом факультета информатики в Университете Макгилла в Монреале, Квебек , Канада. . Программа загрузила списки каталогов всех файлов, расположенных на общедоступных анонимных сайтах FTP ( протокол передачи файлов ), создав базу данных имен файлов с возможностью поиска ; однако поисковая система Archie не индексировали содержимое этих сайтов, поскольку объем данных был настолько ограничен, что их можно было легко найти вручную.

Подъем Gopher (создан в 1991 году Марком McCahill в Университете штата Миннесота ) привели к двум новым поисковых программ, Veronica и Jughead . Как и Арчи, они искали имена и заголовки файлов, хранящиеся в индексных системах Gopher. Вероника ( V ERy Е ASY R odent- O riented Н и др шириной Я NDEX к C omputerized A rchives) при условии , поиск по ключевым словам большинства названий меню Gopher в целых списков Gopher. Jughead ( J onzy в U niversal G Офер Н ierarchy Е xcavation й Д жаемый) является инструментом для получения информации меню от конкретного Gopher серверов. Хотя название поисковой системы « Archie Search Engine » не было отсылкой к серии комиксов об Арчи , « Вероника » и « Джагхед » — персонажи этого сериала, отсылающие, таким образом, к своему предшественнику.

Поисковая система: как работает и что нужно знать

Поисковая система (ПС) — это набор алгоритмов, позволяющих проводить поиск в интернете. Характерная особенность ПС — мгновенное нахождение информации по конкретной фразе или определенному слову. Благодаря процессу индексирования она способна сканировать и затем извлекать данные из миллионов документов. И все это — за считанные миллисекунды.

Присоединяйтесь к нашему Telegram-каналу!

  • Теперь Вы можете читать последние новости из мира интернет-маркетинга в мессенджере Telegram на своём мобильном телефоне.
  • Для этого вам необходимо подписаться на наш канал.

История поисковых систем

Первой ПС принято считать W3Catalog — она появилась в 1993 году. W3Catalog представлял из себя не классическую поисковую машину (ПМ), а скорее обычный каталог, содержащий списки сайтов / адресов. Полноценная ПМ в интернете появилась в 1994 году: и это была вовсе не Google, а Aliweb 🙂

W3Catalog доступен и в 2022 году. Пример сайтов — в разделе Media and Entertainment

Aliweb первой в мире начала обрабатывать контент сайтов: сканировать, индексировать его, перемещая в собственный индекс.

Так выглядел Aliweb в 1995 году

Но даже у Aliweb еще не было краулеров в привычном для нас понимании, т. е. для автоматического сканирования всех новых страниц. Информацию о новых сайтах добавляли сами вебмастеры: они указывали названия и ключевые слова для каждой страницы в общую базу данных (БД), которую позже и сканировал Aliweb.

Читайте также:
Асессоры Яндекса и Google: кто они, чем занимаются и как стать одним из них

За несколько десятилетий было создано свыше тысячи разнообразных ПС. Лишь десятки из них сумели дойти до наших дней и остаются работоспособными сегодня. Самыми популярными поисковыми системами в России уже долгие годы остается Google и «Яндекс».

Самые популярные ПС в мире. Динамика с 2014 по 2021 годы

Как устроены поисковые системы

Если проводить аналогию с нецифровым миром, ПС — это картотека в библиотеке, где у каждой книги есть свой уникальный номер. По этому номеру ее можно найти в каталоге.

Упрощенный алгоритм работы таков:

  1. Пользователь указывает поисковый запрос.
  2. ПС анализирует весь ранее собранный индекс и находит документы, которые ему максимально релевантны.
  3. Наиболее релевантные документы сортируются: от наиболее близких поисковому запросу к наименее.
  4. Результаты выводятся на странице поисковой выдачи.

Что такое краулер поисковой системы

Краулер — это специальная программа, используемая ПС для перехода по URL, которые он обнаруживает на веб-странице. Затем краулер помечает такие ссылки специальным образом.

Благодаря найденным URL поисковый робот находит все новые и новые страницы (о которых ПС не знала ранее)

Последовательность работы ПС: этапы обработки документа

Поисковая система состоит из трех компонентов:

  • Краулер ( о нем написано в разделе выше.
  • Программа-веб-индексатор . Требуется для анализа контента. Индексатор делит веб-страницу на фрагменты, при этом каждая ПС задействует собственные алгоритмы (например, языковые: семантические, орфографические, морфологические). После такого разделения происходит анализ контента страницы.

Важный момент: веб-индексатор анализирует все элементы страницы, включая контент, по отдельности.

Далее поговорим о том, как индексирование документов помогает функционировать поисковым системам.

Зачем поисковым системам нужен индекс

Индекс по своей сути — это просто база данных, необходимая для ускорения поискового процесса: извлечения данных о документах, обработки и представлении результатов поиска пользователю. Любые данные из индексной БД «вынимаются» за миллисекунды, ведь в индексе ПС уже хранится информация обо всех страницах в интернете.

Индексация — извлечение важных для ПС данных и дальнейшая их конвертация в понятные поисковой системе форматы

Кэш поисковой системы нужен для ускорения экстракции данных (по аналогии, например, с разархивированием архива в WinRar) с ранее посещенных веб-страниц.

ПС хранят индекс не просто так: они обращаются к нему в дальнейшем, при работе с запросами. Так что хранить эту базу данных где-то, в любом случае, нужно.

Читайте также:
Индексация в поисковых системах: что это простыми словами

Как поисковые системы хранят индекс на своей стороне

Google хранит документы фрагментарно или полностью на своих серверах. Само хранение происходит в кэше (это отдельная память, обладающая высокой скоростью доступа). Другие поисковики хранят только определенные фразы или каждое слово и связывают его с документом в дальнейшем.

Как ПС обновляют свой индекс и базы данных

В среде SEO-специалистов обновления индекса систем называются апдейтами выдачи. У каждой поисковой системы такие апдейты происходят по-разному. Google добавляет новые документы в свой индекс ежедневно, причем несколько раз в сутки. «Яндекс» действует по-другому — новые страницы попадают в индекс произвольно (апдейт происходит 2 раза в неделю, например).

Самыми важными факторами является суммарная релевантность ключевой фразы и подобранного документа, проработанность индекса и особенности морфологических параметров языка пользователя.

Виды поисковых систем

Выделим три классификации:

  1. По особенностям использования индекса.
  2. По типу индекса.
  3. По области поиска.

I По особенностям использования индекса

Безиндексные ПС

Это мультипотоковые системы, которые функционируют через крупные поисковые системы. Безиндексные системы просто агрегатируют их результаты поиска и проводят собственную сортировку.

Примеры: Bing (Microsoft Bing), AskNet, Quintura, Ixuick, MetaCrawler.

«Нигма» — самая известная российская метапоисковая система (ныне не существует)

Классические поисковые машины

Еще говорят «поисковый движок», «поисковые машины с индексом». Пауки ПС сканируют все страницы в интернете, затем формируют собственный индекс (базы данных) с информацией о веб-документах. Поиск по БД в случае классической поисковой машины, условно, состоит из трех этапов:

  1. Нахождение наиболее релевантного поисковой фразе документа.
  2. Ранжирование остальных документов исходя из их суммарной релевантности.
  3. Кластеризация документов.

Кроме этих функций, маркер классической ПМ — разные методы поиска ссылок в ручном и автоматическом режимах. В первом случае их добавляют в поисковую машину сами вебмастеры, во втором — краулеры сканируют сеть самостоятельно.

Google имеет черты гибридной ПС

Примеры: Google и «Яндекс».

Гибридные ПС

Относятся к классическим поисковым машинам, однако с неким допущением можно выделить их и в отдельную категорию.

Индекс здесь собирается не только за счет сканирования краулером ПС, но и благодаря пользовательским источникам данных: реестрам документов, каталогам, справочникам.

Примеры: Yahoo, «Яндекс», Google.

«Яндекс» — поисковая машина гибридного типа

Читайте также:
Отличия SEO под Яндекс и Google

Каталожные поисковые системы

Это пользовательские БД, где все данные добавляются вручную. Качество результатов поиска в таких ПС в теории должно быть заметно выше, чем в автогенерируемых системах.

Они могут выглядеть как рубрикатор заданной иерархии с большим количеством категорий и подкатегорий. Для каждого сайта указывается описание контента, заголовок и ссылка на страницу.

ПС Open Directory Project (также известная как dmoz). Больше не существует

Примеры : Russia on the Net, AtRus, Yahoo!, Directory (сейчас некоторые уже не существуют).

II По типу индекса

В 2022 году массово распространены два типа ПС: с инвертированным индексом и с индексом, имеющим предопределенное расположение ключевых слов. Разница между ними легко прослеживается.

Инвертированный индекс (ИИ)

Для слов в наборе документов указаны все страницы в реестре, где они упоминались. В свою очередь, сам ИИ может быть двух видов:

  1. Лист документов для каждого слова.
  2. Лист документов для каждого слова + позиция слова в каждом веб-документе.
Индекс с предопределенным расположением ключевых слов (устаревший)

Все фразы упорядочены и отсортированы уже изначально по иерархическому принципу. В настоящий момент не известно ни одной крупной поисковой машины с этим типом индекса.

III По области поиска

Локальная ПС

Отдельностоящее ПО либо веб-приложение, которое разворачивается на компьютере пользователя и позволяет искать информацию, например, на жестком диске или в в пределах домашней сети.

Spotlight для операционной системы Mac OS — локальная поисковая система

Примеры: Tracker, Copernic Desktop Search.

Глобальная ПС

Веб-сайт / веб-приложение / сервис для поиска документов во всем интернете (или, например, в пределах конкретной доменной зоны).

«Спутник» — национальная поисковая система. Ныне закрыта

Примеры: Google, Bing, Yandex, Baidu.

При этом они могут содержать в себе элементы локальных поисковых систем: например, поиск в определенной доменной зоне или поддержка китайского языка по умолчанию, как Baidu. Есть также национальные ПС, созданные для использования в конкретной стране — наши «Спутник» и «Поиск Mail.ru».

Также существуют поисковые системы для поиска информации только в определенных каналах. Например:

  • на новостных сайтах;
  • внутри FTP-хранилищ.
  • в RSS-каналах;
  • в библиотечных ресурсах;
  • в интернет-магазинах;
  • в юзнете.

Юзнет — это глобальная компьютерная сеть для интернет-дискуссий и публикации файлов, состоит из набора групп новостей, организованных по темам. Пользователи размещают статьи или сообщения в этих группах новостей. Затем эти материалы публикуются уже на других платформах.

Что нужно знать о поисковых системах вебмастеру и пользователю

Поисковая система — это сложный набор алгоритмов, которые работают внутри единой компьютерной программы.

Чтобы новая страница сайта отображалась в результатах поиска, она должна попасть в индекс. Краулеры ПС автоматически обходят все страницы в интернете, добавляя их в специальную базу данных. Обрабатывается также и содержимое страниц.

Читайте также:
Факторы ранжирования Google и Яндекс: что это и как работает

Поисковая выдача зависит от суммарной релевантности документа по отношению к запросу. У каждой ПС свои методы определения релевантности, и подробно о них узнать нельзя. Известно лишь об общих принципах оценки:

  1. Семантический анализ слов в запросе, включая слова в поисковых фразах вместе и по отдельности.
  2. Идентифицирование типа запроса.
  3. Интерпретация орфографических ошибок.
  4. Определение синонимичности запроса.
  5. Сопоставление поисковой фразы с особенностями языковой модели.
  6. Определение актуальности информации.
  7. Определение региональности запроса.

Поисковая машина

Поисковая машина (движок) – это программная часть поисковой системы, которая используется для сбора, обработки и представления данных пользователю. Именно эта часть составляет основу поисковых систем, которая отличает одну систему от другой.

Составляющие элементы

Поисковая машина состоит из трех основных элементов, которые в совокупности с аппаратной частью и интерфейсом пользователя ПС делают возможной ее работу.

Поисковый робот. Также может называться ботом, пауком или краулером. Его задача – постоянно обходить все известные ему сайты в поисках ссылок на новые, еще неизвестные ему страницы. Проверяя таким образом Всемирную Паутину, робот выполняет две важнейшие функции: вносит в кеш поисковой системы вновь созданные веб-документы, а также регистрирует и переносит на сервера ПС изменения на уже известных ему страницах. Он фиксирует также элементы, необходимые для корректного ранжирования сайтов – в частности, обратные ссылки и ссылки внутри одного сайта. Существует разновидность паука, которую обычно называют «быстробот» – это робот, обходящий ограниченное количество быстро обновляющихся сайтов (к примеру новостных), чтобы поисковая система показывала в выдаче самые свежие документы.

Алгоритм ранжирования. Алгоритм ранжирования – это формула, которая учитывает огромное количество параметров запроса и известных поисковой системе сайтов с тем, чтобы формировать максимально полезную пользователю органическую выдачу в зависимости от его интересов. В современных поисковых машинах алгоритм является самообучающимся – то есть он способен учитывать изменяющиеся факторы и самостоятельно присваивать им больший или меньший вес.

Похожие темы: нет

Друзья, теперь вы можете поддержать SEOnews https://pay.cloudtips.ru/p/8828f772
Ваши донаты помогут нам развивать издание и дальше радовать вас полезным контентом.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *