Поиск в Интернете

Поиск в Интернете (searching system) — программно-аппаратный комплекс для производства автоматического поиска информации в сети Интернет по заданным алгоритмам и критериям. Поисковые системы имеют многоуровневую организацию и в основе своей состоят из пяти блоков:
Spider (паук) производит планомерное обследование Интернета и скачивает адреса всех попавшихся на его пути Web-сайтов, страниц и глобальных ссылок;
Crawler (Web-crawler, сборщик) — перемещается по всем локальным гиперссылкам, найденным на страницах пауком, скачивает страницы и анализирует их в поисках перекрестных ссылок. Его основные задачи: сканирование Интернет-ресурсов в поисках страниц, содержащих заданную информацию, изменений на страницах и определение дальнейшего пути следования по сети. Аналогичное наименование присваивается программам-роботам, которые строят индексы путем последовательного перехода по гиперссылкам с одной Web-страницы на другую. Они позволяют в автоматическом режиме извлекать различные данные с Web-сайтов, в частности, сведения об их адресах, метатеги, обычный текст со страниц, размеры страниц, даты последнего обновления, списки ссылок, расположенных на Web-страницах. Такие программы выполняют функции паука, а иногда и индексатора.
Indexer (индексатор) анализирует Web-страницы, скаченные пауком и сборщиком, определяет их тематическую принадлежность, актуальность и популярность у пользователей. Индексатор разбивает страницу на части и анализирует основные ее структурные элементы (заголовки, текст, ссылки). После анализа он индексирует ресурсы ключевыми словами, структурирует их и строит базы данных в виде, удобном для использования и поиска.
Database — база данных, являющаяся хранилищем скаченных и обработанных индексатором страниц, снабженная соответствующим поисковым аппаратом, обеспечивающим доступ к содержащимся в ней данным;
SE (Search(ing) Engine, Results engine) — поисковая машина: принимает запросы пользователей, анализирует их, извлекает результаты поиска из БД с использованием ключевых слов и предоставляет пользователю интерфейс для просмотра этих результатов и уточнения поискового предписания.
Комплексы программного обеспечения поисковых систем имеют разную сложность и назначение, в том числе для «домашнего» использования, а также создания средних и крупных серверов. В них реализуются различные критерии поиска, методы анализа контентов, принципы индексирования и предоставления найденных данных. В тематически ориентированных поисковых системах может применяться ограниченная глубина индексации, индексация страниц в пределах сайта или тех сайтов, которые заданы списком. Наиболее популярными в России крупными поисковыми службами и системами Интернета являются:
Google — глобальная поисковая система в Интернете, индексирует документы, выполненные в виде HTML-файлов и форматах PDF, RTF, PS, DOC. Поиск производится с использованием логических операторов («+», «OR» и «-»). По умолчанию все термины в запросе объединяются оператором «AND».
Yandex (Яндекс) — российская поисковая служба и система. Актуализация БД производится еженедельно. Индексирование документов выполняется в форматах в HTTP, PDF, DOC. Yandex использует морфологический и семантический анализ терминов при анализе документов и запросов. Детализированный запрос можно создавать с использованием языка запросов. Сервисные функции включают также передачу новостей, сведений об Интернет-магазинах (включая и книжные), рекламы.
Rambler (Рамблер) — российская поисковая система, использует обычную и расширенную формы ввода запроса. Механизмы поиска и выдачи данных учитывают местоположение ключевых слов, популярность ресурсов (по их посещаемости и количеству внешних ссылок на каждую страницу).
Aport (Апорт) — профессиональный российский справочник Интернет-ресурсов (в том числе и зарубежных), имеет многоуровневую иерархическую организацию. Ссылки снабжены аннотациями, отражающими содержание ресурсов, их географическое местоположение, индекс цитирования. Отличительная особенность Апорта — высокая эффективность поиска MP3-файлов, он является популярной поисковой системой аудиозаписей.
AltaVista — одна из старейших поисковых систем Интернета (в эксплуатации с 1995 года), в ней впервые был апробирован и внедрен язык запросов (знаки «+», «-», усечение «*», кавычки для поиска точно по фразе, булевые операторы и оператор расстояния — «NEAR»).
Yahoo! — международная поисковая система, поглотившая поисковые системы AltaVista и FastSearch; является одним из основных конкурентов системы Google. Ее отличительной особенностью является корректное представление данных на 36 языках мира, включая и русский.
В Интернете существует более тысячи разнородных поисковых систем, работающих в различных тематических областях. Примерами могут служить:
Copernic Agent — метапоисковая система-агент, работающая по методу «опроса свидетелей», которая отправляет запросы одновременно нескольким поисковым системам, выбирая наиболее рейтинговые ссылки, удаляя дубли и выдавая пользователю ранжированные по рейтингу ссылки. Результаты поиска могут быть также отсортированы по доменам, географическим регионам, времени последнего изменения и статусу;
MySimon — интеллектуальная система-агент, которая производит поиск товаров в сотнях онлайновых магазинов, и сравнивает цены миллионов товаров;
Mp3-Wolf — поисковый агент, производящий сканирование Интернета с целью нахождения заданных музыкальных произведений. В процессе работы он использует различные найденные ранее и содержащиеся в его базе поисковые системы и сайты, работает в режиме реального времени, способен находить, сортировать и анализировать десятки тысяч музыкальных файлов в час;
WebSite-Watcher — программа для отслеживания изменений в сайтах, поддерживает работу RSS, имеет гибкие настройки.
Статья находится в рубриках
Яндекс.Метрика