Поисковые системы. Что такое поисковая система?

В библиотечной аналогии это работает следующим образом: недостаточно знать, в каких книгах встречается похожее предложение. Важно найти соответствующую страницу с текстом. Затем вы можете использовать эту информацию.

Поисковые системы

Поисковые системы (ПС) уже давно стали неотъемлемой частью Интернета и нашей повседневной жизни. Сейчас это огромные и сложные машины, которые являются не только инструментом для поиска информации, но и очень интересной областью для бизнеса.

Поисковые системы

Многие пользователи поисковых сервисов никогда не задумывались о принципах их работы, о том, как они обрабатывают запросы пользователей, как построены и функционируют эти системы. Данный материал призван помочь всем, кто занимается оптимизацией и продвижением сайтов, понять структуру и основные функции поисковых систем.

Функции и понятие ПС

Поисковая система — это программно-аппаратный комплекс, выполняющий функцию поиска в Интернете и отвечающий на запрос пользователя, обычно в виде текстовой фразы (точнее поискового запроса), и генерирующий реферативный список источников информации, выполненный по релевантности. Наиболее распространенные и крупные поисковые системы — Google, Bing, Yahoo и Baidu; в Рунете — Яндекс, Mail.Ru и Rambler.

Давайте подробнее рассмотрим релевантность поискового запроса на примере Яндекса.

Запрос должен быть сформулирован пользователем как можно проще и лаконичнее в полном соответствии с предметом его поиска. Например, мы хотим найти в поисковой системе информацию: «как выбрать автомобиль для себя». Для этого открываем главную страницу и вводим поисковый запрос «как выбрать автомобиль». Тогда наша деятельность сводится к переходу по ссылкам на источники информации в Интернете.

Но даже если мы это сделаем, мы можем не получить нужную информацию. Если вы получили такой отрицательный результат, вам просто нужно перефразировать свой запрос, либо в поисковой базе нет полезной информации для данного типа запроса (это может произойти при «узких» параметрах запроса, например, «как выбрать автомобиль в Туле»).

Важнейшая задача любой поисковой системы — предоставлять именно ту информацию, которая нужна людям. Однако практически невозможно научить пользователей делать «правильные» запросы к поисковым системам, то есть предложения, соответствующие принципам их работы.

По этой причине разработчики поисковых систем разрабатывают принципы и алгоритмы, позволяющие пользователям находить интересующую их информацию. Это означает, что система должна «думать» как человек, который ищет в интернете нужную ему информацию.

Когда он вводит свой запрос в поисковую систему, он хочет найти то, что ищет, как можно быстрее.

В ходе ранжирования, поисковые системы должны точно угадать желание пользователя

Чтобы получить правильные ответы на такие вопросы, разработчики поисковых систем постоянно совершенствуют принципы и алгоритмы ранжирования, добавляют к ним новые возможности и функции и всячески пытаются сделать систему быстрее.

Основные характеристики поисковых систем

Полнота.

Полнота является важной характеристикой поиска — это соотношение между количеством найденных по запросу информационных документов и общим количеством релевантных документов в Интернете. Например, если у вас есть 100 страниц, содержащих термин «Как выбрать автомобиль», а количество страниц, содержащих тот же термин, составляет всего 60, полнота поиска будет равна 0,6. Чем полнее сам поиск, тем больше вероятность того, что пользователь найдет именно тот документ, который ему нужен, если он вообще существует.

Точность.

Еще одна важная функция поисковой системы — точность. Он определяет степень, в которой страницы во Всемирной паутине отвечают на запрос пользователя. Например, если по ключевому слову «Как выбрать автомобиль» найдено сто документов, половина из которых содержит этот термин, а остальные только слова («Как выбрать автомагнитолу и установить ее в автомобиль»), то точность поиска равна 50/100 = 0,5.

Чем точнее поиск, тем быстрее пользователь найдет нужную информацию, тем меньше «мусора» будет среди результатов и тем меньше документов, не соответствующих смыслу запроса.

Актуальность.

Это важный компонент поиска, который характеризуется временем, которое проходит с момента публикации информации в Интернете до ее включения в индексную базу данных поисковой системы.

Например, на следующий день после публикации информации о запуске нового iPad многие пользователи обратились к поиску с соответствующими типами запросов. В большинстве случаев новостная информация уже находится в результатах поиска, даже если с момента ее публикации прошло совсем немного времени. Это связано с «быстрой базой данных» основных поисковых систем, которая обновляется несколько раз в день.

Скорость поиска.

Такая функция, как скорость поиска, тесно связана с тем, что называется «несущей способностью». К поисковым системам ежесекундно обращается огромное количество людей, что требует резкого сокращения времени, необходимого для обработки одного запроса. Интересы поисковой системы и пользователя совпадают: Посетитель хочет получить результаты как можно быстрее, а поисковая система должна обработать его запрос как можно быстрее, чтобы не замедлять обработку последующих запросов.

Наглядность.

Визуальное представление результатов является ключевым элементом удобства поиска. Для многих запросов поисковая система находит тысячи запросов за один поиск.

Aliweb была первой в мире компанией, которая обрабатывала содержимое веб-сайта: она искала его, индексировала и переносила в свой собственный индекс.

История поисковых систем

Но даже Aliweb еще не имел краулеров в обычном смысле этого слова, то есть для автоматического переползания всех новых страниц. Информация о новых сайтах была добавлена самими администраторами сайтов: Они ввели названия и ключевые слова для каждой страницы в базу данных, которую затем просмотрел Aliweb.

W3Catalog доступен и в 2022 году. Пример сайтов — в разделе Media and Entertainment

Рецензенты Яндекса и Google: кто они, что делают и как стать рецензентом

Так выглядел Aliweb в 1995 году

За несколько десятилетий было создано более тысячи различных ПС, из которых лишь десяток сохранились и функционируют до сих пор. В течение многих лет самыми популярными поисковыми системами в России были Google и Яндекс.

По аналогии с нецифровым миром, ПС — это картотека в библиотеке, где каждая книга имеет свой уникальный номер. По этому номеру его можно найти в каталоге.

  Вантовые мосты. Вантовый мост что это такое?

Упрощенный алгоритм выглядит следующим образом:

Самые популярные ПС в мире. Динамика с 2014 по 2021 годы

Как устроены поисковые системы

Краулер — это специальная программа, используемая КС для перехода по URL-адресам, которые она обнаруживает на веб-странице. Затем краулер помечает эти ссылки особым образом.

Краулер состоит из трех элементов:

  1. Пользователь указывает поисковый запрос.
  2. ПС анализирует весь ранее собранный индекс и находит документы, которые ему максимально релевантны.
  3. Наиболее релевантные документы сортируются: от наиболее близких поисковому запросу к наименее.
  4. Результаты выводятся на странице поисковой выдачи.

Что такое краулер поисковой системы

Один важный момент: веб-индексатор анализирует все элементы страницы, включая контент, по очереди.

Благодаря найденным URL поисковый робот находит все новые и новые страницы (о которых ПС не знала ранее)

Последовательность работы ПС: этапы обработки документа

Далее поговорим о том, как индексирование документов поддерживает работу поисковых систем.

  • Краулер ( о нем написано в разделе выше.
  • Программа-веб-индексатор. Требуется для анализа контента. Индексатор делит веб-страницу на фрагменты, при этом каждая ПС задействует собственные алгоритмы (например, языковые: семантические, орфографические, морфологические). После такого разделения происходит анализ контента страницы.

Индекс — это, по сути, просто база данных, необходимая для ускорения процесса поиска: Извлечение данных о документах, обработка данных и представление результатов поиска пользователю. Все данные из индексной базы данных «извлекаются» за миллисекунды, поскольку в индексе краулера уже хранится информация обо всех страницах в Интернете.

Индексирование — извлечение важных данных для краулеров и последующее преобразование их в удобные для поисковых систем форматы.

Зачем поисковым системам нужен индекс

Кэш поисковой системы необходим для более быстрого извлечения данных (аналогично распаковке файла в WinRar) с ранее посещенных веб-страниц.

Индекс не хранится краулером бесплатно, но доступен ему позже при выполнении запросов. Поэтому эта база данных в любом случае должна где-то храниться.

Индексация поисковых систем: что это такое, простыми словами

Google хранит документы частично или полностью на своих серверах. Само хранилище находится в кэше (отдельное хранилище с высокой скоростью доступа). Другие поисковые системы сохраняют только определенные фразы или отдельные слова и позже связывают их с документом.

В кругах SEO обновление системных индексов называется обновлением вывода. Каждая поисковая система выполняет эти обновления по-разному. Google добавляет новые документы в свой индекс несколько раз в день. «Яндекс» действует иначе — новые страницы произвольно добавляются в де

Как поисковые системы хранят индекс на своей стороне

Поисковые системы различаются в зависимости от того, как они работают и где используются. По данным LiveInternet.ru, в 2012 году 53,8% российских пользователей предпочитали Яндекс, 34,2% Google, 9,4% Mail.ru и 1,2% Rambler.

Как ПС обновляют свой индекс и базы данных

Каждая поисковая система имеет свой собственный алгоритм поиска, который анализирует релевантность веб-сайтов, чтобы выдать результаты, наиболее соответствующие поисковому запросу пользователя.

В зависимости от области поиска поисковые системы можно разделить на глобальные и локальные.

Содержание статьи:

  • Что такое поисковые системы и как они работают
  • Типы поисковых систем по способу работы
    • Индексные поисковые системы
    • Каталоговые системы поиска
    • Метапоисковые системы
    • Специализированные поисковые системы
    • Основные возможности языка запросов поисковой системы Google и Yandex

    Глобальные поисковые системы предназначены для поиска во всем Интернете или в большой его части, в то время как локальные поисковые системы осуществляют поиск в определенной части Интернета, например, на одном или нескольких сайтах или в локальной сети. Часто локальные поисковые системы собирают информацию об одном национальном домене, например yandex.ru .

    Существуют также локальные поисковые системы, которые вы можете установить на свой компьютер, например Copernic Desktop Search для Microsoft Windows, Spotlight для Mac OS X и Tracker для Linux. Они облегчают жизнь пользователям, имеющим большое количество несекретных файлов.

    Алгоритм создания эффективного запроса выглядит следующим образом:

    Давайте вместе разрабатывать новые бизнес-решения, делиться идеями и освещать успешные примеры.

    Поисковая система — это специальная программа, которая автоматизирует поиск информации в Интернете. Индексирование делает этот процесс очень быстрым, и в результате ранжирования пользователь получает отсортированный список источников, содержащих нужную ему информацию.

    Поиск информации в Интернете был бы крайне затруднен без поисковой системы. Без специальных алгоритмов было бы невозможно провести поиск в триллионах страниц, которые расположены хаотично, без какого-либо порядка или структуры. Для этого и существуют поисковые системы. Они создают четкую иерархию в системе и делают интернет доступным и удобным.

    Советы по эффективному поиску информации

    По данным Яндекс.Радар, самыми популярными поисковыми системами в России являются Яндекс (61,7%) и Google (37,0%), а совокупная доля Mail.ru и Rambler составляет не более 1%.

    • Сформулируйте задачу поиска. Для получения необходимой информации, в первую очередь, нужно понять, на какой именно вопрос вы ищете ответ.
    • Ограничьте область поиска. Выдача результатов может различаться в зависимости от региона, поэтому нужно добавить в запрос тот город, регион или страну, результаты по которым вас интересуют.
    • Подберите ключевые слова, то есть слова и фразы, относящиеся к теме поиска. Ключевые слова делят на высоко-, средне- и низкочастотные, это зависит от частоты запроса и определяется на основе статистики поисковой системы.
    • Сформируйте запрос. Важные слова поместите в начало запроса, для более эффективного поиска используйте язык запросов.

    Поисковая система

    Если посмотреть на глобальную статистику, то Google лидирует с 84,8%, а Яндекс находится на 6 месте с 1,06%.

    Доля рынка наиболее используемых поисковых систем в мире в сентябре 2022 года Источник.

    Принципы работы каждой поисковой системы примерно одинаковы и могут быть разделены на несколько этапов.

    Чтобы поисковая система нашла нужный термин в большом количестве сайтов, эти сайты должны быть ей известны, т.е. они должны быть прочитаны и сохранены.

    Самые популярные поисковые системы в России по данным Яндекс.радар на сентябрь 2022 года

    Это как в библиотеке: если вы не знаете, какие книги стоят на полках, и никогда не смотрели на них, шанс быстро найти нужное место равен нулю.

    Статистика использования поисковых систем в мире по состоянию на сентябрь 2022 г

    Если у вас есть машина, нет возможности найти нужную книгу в нужном месте.

    Принципы работы поисковых систем

    В библиотечной аналогии это работает следующим образом: недостаточно знать, в каких книгах встречается похожее предложение. Важно найти соответствующую страницу с текстом. Затем вы можете использовать эту информацию.

    Составление списка страниц

    Поиск термина или слова путем пролистывания книги или поиска по всему сайту является громоздким. Однако если у вас есть предметный указатель, например, используемый в технической литературе, руководствах или справочниках по оборудованию, вы сможете легко найти любой термин.

    Предметный указатель расположен в алфавитном порядке и указывает страницы, на которых встречаются термины.

    Тот же принцип применим и к поисковой индексации.

    Индексация

    Индексирующий робот получает информацию о странице от краулера и упорядочивает ее. Он удаляет лишние элементы, выделяет слова и отмечает, где эти слова были найдены. Отображается подробный список адресов страниц и содержащихся в них слов.

    Поиск и ранжирование — это самая близкая и значимая для пользователей часть процесса. Хотя предыдущие шаги являются автоматическими и действительно подготовительными, именно здесь появляется видимый результат — результаты поиска, для которого и создаются поисковые системы.

    Когда человек вводит текст в поисковую строку, машина с помощью алгоритмов выбирает все страницы, относящиеся к этому запросу. Поскольку их много, приходится сортировать их, расставлять по порядку и выбирать наиболее релевантные страницы. То есть наиболее правильные и актуальные.

    Пример типичного предметного указателя — аналог индексации в поисковике

    Этот процесс называется ранжированием. Он проходит несколько этапов, на которых фильтрация становится все более сложной, а список ресурсов — все более ограниченным. Невозможно точно определить, какие алгоритмы влияют на ранжирование, потому что все поисковые системы используют собственные формулы, которые постоянно обновляются и развиваются.

    Результаты поисковых систем различны:

    Поисковые системы делятся на четыре категории в зависимости от того, как они обрабатывают данные:

    Ранжирование и поисковая выдача

    Существуют и другие специализированные службы, которые можно использовать для поиска информации. Некоторые из них более полезны для поиска книг и фотографий, другие обеспечивают большую конфиденциальность и не требуют данных пользователя.

    Основные принципы и функции этой поисковой системы:

    Google Search извлекает информацию из веб-страниц, медиафайлов, отсканированных документов, общедоступных баз данных, содержимого, добавленного в службы Google (например, Google Мой бизнес и Google Maps), и других источников.

    Весь процесс поиска и извлечения информации можно разделить на 3 основных этапа:

    • в разных поисковиках, так как используются различные критерии фильтрации;
    • в разных регионах, так как в запросах учитывается местонахождение пользователя;
    • на разных устройствах — в десктопной и мобильной версии;
    • по одинаковым запросам у разных пользователей, так как учитывается индивидуальная история поиска.

    Виды поисковых систем

    Google может найти ссылку на ваш сайт на других сайтах, вы также можете запросить ручное сканирование сайта, и веб

    1. Системы на основе поисковых роботов — краулеров. Принципы работы такой системы описаны выше и большинство популярных поисковых систем работает по этой технологии. Задача поисковика — обойти и просканировать сеть, чтобы создать структурированный архив веб-документов и список слов. А целью является создание ранжированного списка ресурсов. Примеры: Google, «Яндекс», Baidu (крупнейшая китайская поисковая система).
    2. Системы, управляемые человеком. Каталог сайтов полностью формируется вручную. Владелец сайта отправляет описание веб-мастеру и указывает категорию каталога, в которую его нужно включить. Сайт проверяет человек и включает в список, если он проходит модерацию. Это гарантирует более качественный контент, чем в первом варианте, но значительно замедляет ранжирование и обновление данных. Примеры: каталог Yahoo, dmoz
    3. Гибридные системы. Сочетание автоматических поисковых роботов и процессов, управляемых человеком. Например, восстановление в каталоге удаленного сайта, нарушившего правила. Владелец страницы в этом случае вносит исправления и отправляет запрос в поддержку. Решение о повторном включении ресурса в поисковую систему принимает эксперт. Примеры: MSN. Сюда же условно можно отнести Google, «Яндекс» и другие популярные поисковики, функционал которых не исключает ручную корректировку каталогов.
    4. Метакраулеры. В отличие от поисковых систем, метакраулеры сами не сканируют веб-страницы для создания списков. Вместо этого они позволяют отправлять запросы нескольким поисковым системам одновременно. Примеры: dogpile, DuckDuckGo

    Для правильного вывода разрабатываются специальные алгоритмы. Бессмысленно пытаться адаптировать свой сайт к каждому отдельному алгоритму, так как над ними работают, тестируют и экспериментируют каждый день (по словам разработчиков).

    Как работает поисковая система Гугл

    Как работает поисковая система Гугл

    По сути, алгоритмы отвечают за следующее:

    Анализ слов и фраз — определение значения слов, поиск орфографических ошибок в запросе, вычисление коллоквиализмов. Он также учитывает тип запроса (ищет ли человек обзор, новости или видео) и релевантность информации.

    Пример: Мы ищем слово «утренние славы». Google автоматически определяет, что запрос, вероятно, составлен неправильно и что мы ищем информацию о рэпере Morganstern. Он отображает исправленную версию и дает информацию об этом человеке — в первую очередь видео, биографию и сайты, на которых доступна его музыка, а ниже — статьи (поскольку Моргенштерн — артист, пользователь, вероятно, ищет его музыку и песни, а также видео).

    1. Сканирование страниц и файлов. Сначала Гугл собирает информацию — ищет новые страницы и добавляет их в свою базу. Это делается при помощи специальных роботов — Googlebot. Таких роботов несколько — одни сканируют содержимое веб-страницы, другие индексируют картинки, третьи сканируют страницы и файлы для мобильной выдачи. Роботы умеют определять оригинальные страницы, дубликаты, канонические страницы и их копии.

    Важные принципы и особенности:

    Основной принцип тот же, что и у Google — сканирование, индексация, публикация результатов. Но есть и некоторые особенности. Поэтому у Яндекса есть свой вебмастер, куда нужно добавить сайт для индексации. Для продвижения сайта в СНГ лучше использовать Яндекс, так как он способен распознавать словоформы с учетом морфологии русского языка. Он также позволяет ограничить поиск определенным регионом (полезно для продвижения местных предприятий).

    1. Индексирование. Роботы обрабатывают содержимое каждой страницы — текст, медиафайлы, теги (title, description) атрибуты для картинок (title, alt). Можно скрыть страницу от индексирования при помощи тега «nofollow» или «noindex» либо прописав рекомендации в файле Robots.txt.

    Помимо русского языка, Яндекс также распознает украинский, белорусский, татарский, казахский, английский, немецкий, турецкий и французский языки.

    Яндекс уступает Google в том, что на Android и iOS уже предустановлен поиск Google, а русский поисковик нужно скачивать отдельно, что делают далеко не все, поэтому Яндекс в основном используется с ПК.

    1. Выдача результатов в поиске. Алгоритмы (которые постоянно меняются и дорабатываются) выдают пользователю результаты, наиболее подходящие его запросам на основе информации, собранной ранее. На этот процесс влияют сотни факторов, например: поведенческие факторы, скорость загрузки страниц, оптимизация для мобильных устройств, уникальность контента, удобство навигации по сайту, местоположение, надежность сайта, дизайн.

    Из очевидных недостатков Яндекса — иногда кажется, что основную массу клиентов и посетителей Яндекс намеренно переводит на свои собственные сервисы, такие как Яндекс.Дзен, Яндекс.Маркет, Яндекс.Новости и другие, создавая все новые и новые сервисы и отводя им все больше места в поиске.

    Выдача результатов в Google поиске

    Помимо веб-страниц, Яндекс также распознает изображения, документы PDF, блоги и форумы RSS, а также файлы в форматах RTF, .doc, .xls и .ppt.

    С 2007 по 2021 год разработчики Яндекса создали около 24 алгоритмов, здесь упомянуты лишь некоторые из них:

    До 2016 года алгоритмы не учитывали содержание документа, а в основном основывались на стандартных факторах, таких как количество ключевых слов, поведение пользователей и объем контента. В 2016 году Яндекс объявил об алгоритме «Палех», который осуществляет поиск страниц на основе смыслов, а не ключевых слов. В 2017 году появился продвинутый алгоритм «Королев», который сопоставлял смысл запроса и страницы сайтов. Также в 2017 году появился знаменитый алгоритм Baden-Baden, который научился определять переоптимизированный текст, изменив подход к созданию контента для сайтов (веб-мастера сосредоточились на качестве текста, а не на количестве ключевых слов). В конце 2020 года Яндекс анонсировал новый алгоритм YATI с более продвинутым смысловым поиском (за счет использования нейронных сетей), который, по утверждению его разработчиков, приведет к рекордному улучшению качества ранжирования за последние 10 лет.

    В дополнение к алгоритмам ранжирования было разработано около 25 антиспам-фильтров, включая фильтры для манипулирования поведенческими факторами, clickjacking (размещение на страницах невидимых элементов, на которые пользователи кликают, не зная об этом), навязчивой рекламы, навязчивых уведомлений, отсутствующих значений на страницах.

    Как работает поисковая система Яндекс

    Как работает поисковая система Яндекс

    Две поисковые системы, Google и Яндекс, возглавляют рейтинги. В марте 2021 года доли этих поисковых систем выглядят следующим образом:

    Далее следуют Search.Mail.ru (1,5%), Rambler (0,1%) и Bing (0,1%).

    В Европе лидирует Google (92,92%), за ним следуют Bing (3,48%) и Яндекс (1,48%).

    В США на первом месте находятся Google (88,1%), Bing (6,16%) и Yahoo! (2,96%).

    Удастся ли кому-то или чему-то поколебать монополию Google? В 2020 году лидер поисковых систем потерпел 2 крупных поражения:

    С 2009 года по сегодняшний день поисковые системы стремительно развивались, с завидной регулярностью меняя и совершенствуя свои поисковые алгоритмы, чтобы результаты поиска содержали контент, максимально отвечающий потребностям пользователей. Так что если 10 лет назад вы могли «кормить» поисковых роботов гипер-оптимизированными статьями с ключевыми словами или покупать ссылки, чтобы попасть в топ поиска, то сегодня такие сайты больше не светятся (вернее, светятся под фильтрами).

    Как работает поисковая система Яндекс

    Развитие и рынок поисковых систем

    Самый популярный поисковик в России

    Самый популярный поисковик в Европе

    Самый популярный поисковик в США

    1. В СМИ заговорили о том, что Apple может создать свою поисковую систему и стать прямым конкурентом. Пока это лишь разговоры, но технологические возможности у самой дорогой компании в мире точно есть. Более того, в конце 2014 года в Apple уже рассматривали вариант прекращения сотрудничества с Google и могут вернуться к этому снова. Впрочем, Apple хорошо и с Google — только за использование своего поисковика на iOS, как установленного по умолчанию, Apple получает от Google 9 миллиардов долларов ежегодно.
    2. Куда более серьезная угроза — иск к Google от Минюста США из-за монополии на рынке поисковиков и требование продать Chrome, а также часть рекламного бизнеса. Последний раз такая громкая история была в 1998 году, когда был подан аналогичный антимонопольный иск против компании Microsoft. Такие судебные разбирательства могут длиться годами и пока сложно сказать, как именно это закончится для Google. Компании Microsoft пришлось выплачивать многомиллионные штрафы и пойти на условия суда, например, требование делиться своим API со сторонними разработчиками. То разбирательство повлияло на решение Билла Гейтса уйти из компании в 2000 году, он также заявил, что если бы не иски, Microsoft бы лидировал на рынке мобильный операционных систем, и все бы использовали Windows Mobile вместо iOS и Android. Посмотрим, чем закончится суд для Google.
    3. В мировом масштабе монополию может пошатнуть поисковик Дакдакгоу (DuckDuckGo), который позиционирует себя как конфиденциальная поисковая система (кстати, используется по умолчанию в браузерах Tor). Причина этому — большое количество скандалов, связанных с утечкой данных в американских сервисах (например, обвинения в адрес Facebook или взлом Gmail). Google периодически обвиняли в сливе данных и нарушении неприкосновенности частной жизни еще с 2005 года.
    4. В российском масштабе — закон о предустановке российского ПО на ввозимые в Россию смартфоны, планшеты, компьютеры и смарт-тв для продажи. Закон вступает в силу 1 апреля 2021 года.

    Заключение

Оцените статью
Дорога Знаний
Добавить комментарий