Поиск профессиональной информации в интернете. Софт и сервисы для профессионального поиска

Поиск профессиональной информации в интернете. Софт и сервисы для профессионального поиска
Поиск профессиональной информации в интернете. Софт и сервисы для профессионального поиска

Проверка никнейма по десяткам сервисов за раз, подсчет репостов в Facebook и визуализация связей Twitter-аккаунта.

Анализ контента в соцсетей - горячая тема среди стартаперов. Сервисов для поиска постов и людей с каждым годом появляется все больше. Но многие из них либо быстро исчезают, либо доступны в недоделанном состоянии, либо их использование дорого стоит.

В этом материале собраны те немногие их них, которые позволяют быстро и бесплатно получить реально полезную или просто интересную информацию.

1. Поиск профилей

Поисковая система Snitch позволяет искать профили человека в четырех десятках сервисов, включая сайты ведущих мировых университетов и базу преступников США:

К сожалению, некоторые из сайтов для которых можно выставить галочки уже не работают. К примеру, Google Uncle Sam, закрытый еще 5 лет назад. Но несмотря на этот и другие косяки Snitch - полезный сервис, позволяющий значительно сэкономить время при поиске информации о человеке.

Если для какого-то сервиса вместо блоков с результатами поиска отображается пустой экран, то для их просмотра надо перейти по ссылке Open a new window :

2. Поиск хештегов

Пользоваться очень просто. Надо вбить в форму поиска искомый хештег и через секунду появится список недавних записей отмеченных им в шести соцсетях:

3. Анализ последних твитов

Сервис позволяет получить список ста последних твитов содержащих искомое слово, хештег или имя аккаунта. А также узнать некоторую аналитическую информация о людях, сделавших эти твиты и времени их создания:

Предположим, вам нужно выявить, какой пользователь спровоцировал необычно высокое количество переходов на статью из Twitter. Мы смотрим 100 последних твитов и видим, кто из людей, упомянувших исходное понятие, имеет больше всего фолловеров:

Владельцам платной подписки доступно большое число твитов для анализа:

4. Анализ Twitter-аккаунта

На Mentionapp можно ввести имя аккаунта и получить информацию о нем (кого чаще всего ретвитит, какие хештеги использует и т.д.) в виде схемы связей:

5. Поиск твитов на карте

Если кликнуть на любое место карты на , то можно прочитать последние твиты, сделанные рядом:

6. Число упоминаний в соцсетях

Sharedcount помогает оценить популярность статьи/сайта в соцсетях. Вбиваешь URL и через пару секунд есть статистика упоминаний в Facebook, Google+, Pinterest, Linkedln и Stumble Upon:

7. Поиск по форумам

Boardreader - это поисковик по форум и доскам объявлений:

Оценка масштабов бедствия показала, что на одного жителя России приходится почти 4 ответа на этом портале.

8. Пробиваем логин по соцсетям

Идем на knowem.com и забиваем никнейм человека. В ответ получаем информацию о том, на каких сервисах он зарегистрирован:

9. Определяем имя человека по email

Если вы до сих пор ищете людей, забивая их почтовые адреса в Google, то вам следует отказаться от этого способа. Ведь есть pipl.com . Вбиваешь email (никнейм) и получаем список профилей в соцсетях:

Информация не всегда точна и полна, но сервис исключительно полезный.

Вот и все. Стоило было рассказать еще о Socialmention (недопиленный анализ отзывов), Yomapic (поиск фотографий из VK и Instagram на карте) и yandex.

Для профессионального поиска в Интернете необходимы специализированный софт, а также специализированные поисковики и поисковые сервисы.

ПРОГРАММЫ

http://dr-watson.wix.com/home – программа предназначена для исследования массивов текстовой информации с целью выявления сущностей и связей между ними. Результат работы – отчет об исследуемом объекте.

http://www.fmsasg.com/ - одна из лучших в мире программ по визуализации связей и отношений Sentinel Vizualizer . Компания полностью русифицировала свои продукты и подключил горячую линию на русском.

http://www.newprosoft.com/ – “Web Content Extractor” является наиболее мощным, простым в использовании ПО извлечения данных из web сайтов. Имеет также эффективный Visual Web паук.

SiteSputnik не имеющий в мире аналогов программный комплекс, позволяющий вести поиск и обработку его результатов в Видимом и Невидимом Интернете, используя все необходимые пользователю поисковики.

WebSite-Watcher – позволяет проводить мониторинг веб-страниц, включая защищенные паролем, мониторинг форумов, RSS каналов, групп новостей, локальных файлов. Обладает мощной системой фильтров. Мониторинг ведется автоматически и поставляется в удобном для пользователя виде. Программа с расширенными функциями стоит 50 евро. Постоянно обновляется.

http://www.scribd.com/ – наиболее популярная в мире и все более широко применяемая в России платформа размещения различного рода документов, книг и т.п. для свободного доступа с очень удобным поисковиком по названиям, темам и т.п.

http://www.atlasti.com/ – представляет собой самый мощный и эффективный из доступных для индивидуальных пользователей, небольшого и даже среднего бизнеса инструмент качественного анализа информации. Программа многофункциональная и потому полезная. Совмещает в себе возможности создания единой информационной среды для работы с различными текстовыми, табличными, аудио и видеофайлами, как единым целым, а также инструменты качественного анализа и визуализации.

Ashampoo ClipFinder HD – все возрастающая доля информационного потока приходится на видео. Соответственно, конкурентным разведчикам нужны инструменты, позволяющие работать с этим форматом. Одним из таких продуктов является представляемая бесплатная утилита. Она позволяет осуществлять поиск роликов по заданным критериям на видеофайловых хранилищах типа YouTube. Программа проста в использовании, выводит на одну страницу все результаты поиска с подробными сведениями, названиями, длительностью, временем, когда видео было загружено в хранилище и т.п. Имеется русский интерфейс.

http://www.advego.ru/plagiatus/ – программа сделана seo оптимизаторами, но вполне подходит как инструмент интернет-разведки. Плагиатус показывает степень уникальности текста, источники текста, процент совпадения текста. Также программа проверяет уникальность указанного URL. Программа бесплатная.

http://neiron.ru/toolbar/ – включает надстройку для объединения поиска Google и Yandex, а также позволяет осуществлять конкурентный анализ, базирующийся на оценке эффективности сайтов и контекстной рекламы. Реализован как плагин для FF и GC.

http://web-data-extractor.net/ – универсальное решение для получения любых данных, доступных в интернете. Настройка вырезания данных с любой страницы производится в несколько кликов мыши. Вам нужно просто выбрать область данных, которую вы хотите сохранять и Datacol сам подберет формулу для вырезания этого блока.

CaptureSaver – профессиональный инструмент исследования интернета. Просто незаменимая рабочая программа, позволяющая захватывать, хранить и экспортировать любую интернет информацию, включая не только web страницы, блоги, но и RSS новости, электронную почту, изображения и многое другое. Обладает широчайшим функционалом, интуитивно понятным интерфейсом и смешной ценой.

http://www.orbiscope.net/en/software.html – система веб мониторинга по более чем доступным ценам.

http://www.kbcrawl.co.uk/ – программное обеспечение для работы, в том числе в «Невидимом интернете».

http://www.copernic.com/en/products/agent/index.html – программа позволяет вести поиск, используя более 90 поисковых систем, более чем по 10 параметрам. Позволяет объединять результаты, устранять дубликаты, блокировать нерабочие ссылки, показывать наиболее релевантные результаты. Поставляется в бесплатной, личной и профессиональной версиях. Используется больше чем 20 млн.пользователей.

Maltego – принципиально новое программное обеспечение, позволяющее устанавливать взаимосвязь субъектов, событий и объектов в реале и в интернете.

СЕРВИСЫ

new – web браузер с десятками предустановленных инструментов для OSINT.

– эффективный поисковик-агрегатор для поиска людей в основных российских социальных сетях.

https://hunter.io/ – эффективный сервис для обнаружения и проверки email.

https://www.whatruns.com/ – простой в использовании, но эффективный сканер, позволяющий обнаружить, что работает и не работает на веб-сайте и каковы дыры в безопасности. Реализован также как плагин к Chrom.

https://www.crayon.co/ – американская бюджетная платформа рыночной и конкурентной разведки в интернете.

http://www.cs.cornell.edu/~bwong/octant/ – определитель хостов.

https://iplogger.ru/ – простой и удобный сервис для определения чужого IP .

http://linkurio.us/ – новый мощный продукт для работников экономической безопасности и расследователей коррупции. Обрабатывает и визуализирует огромные массивы неструктурированной информации из финансовых источников.

http://www.intelsuite.com/en – англоязычная онлайн платформа для конкурентной разведки и мониторинга.

http://yewno.com/about/ – первая действующая система перевода информации в знания и визуализации неструктурированной информации. В настоящее время поддерживает английский, французский, немецкий, испанский и португальский языки.

https://start.avalancheonline.ru/landing/?next=%2F – прогнозно-аналитические сервисы Андрея Масаловича.

https://www.outwit.com/products/hub/ – полный набор автономных программ для профессиональной работы в web 1.

https://github.com/search?q=user%3Acmlh+maltego – расширения для Maltego.

http://www.whoishostingthis.com/ – поисковик по хостингу, IP адресам и т.п.

http ://appfollow .ru / – анализ приложений на основе отзывов, ASO оптимизации, позиций в топах и поисковых выдачах для App Store , Google Play и Windows Phone Store .

http://spiraldb.com/ – сервис, реализованный как плагин к Chrom , позволяющий получить множество ценной информации о любом электронном ресурсе.

https://millie.northernlight.com/dashboard.php?id=93 - бесплатный сервис, собирающий и структурирующий ключевую информацию по отраслям и компаниям. Есть возможность использования информационных панелей основанных на текстовом анализе.

http://byratino.info/ – сбор фактографических данных из общедоступных источников в сети Интернет.

http://www.datafox.co/ – CI платформа собирающая и анализирующая информацию по интересующим клиентов компаниям. Есть демо.

https://unwiredlabs.com/home - специализированное приложение с API для поиска по геолокации любого устройства, подключенного к интернету.

http://visualping.io/ – сервис мониторинга сайтов и в первую очередь имеющихся на них фотографий и изображений. Даже если фотография появилась на секунду, она будет в электронной почте подписчика. Имеет плагин для G oogleC hrome.

http://spyonweb.com/ – исследовательский инструмент, позволяющий осуществить глубокий анализ любого интернет-ресурса.

http://bigvisor.ru/ – сервис позволяет отслеживать рекламные компании по определенным сегментам товаров и услуг, либо конкретным организациям.

http://www.itsec.pro/2013/09/microsoft-word.html – инструкция Артема Агеева по использованию программ Windows для нужд конкурентной разведки.

http://granoproject.org/ – инструмент с открытым исходным кодом для исследователей, которые отслеживают сети связей между персонами и организациями в политике, экономике, криминале и т.п. Позволяет соединять, анализировать и визуализировать сведения, полученные из различных источников, а также показывать существенные связи.

http://imgops.com/ – сервис извлечения метаданных из графических файлов и работы с ними.

http://sergeybelove.ru/tools/one-button-scan/ – маленький он-лайн сканер для проверки дыр безопасности сайтов и других ресурсов.

http://isce-library.net/epi.aspx – сервис поиска первоисточников по фрагменту текста на английском языке

https://www.rivaliq.com/ – эффективный инструмент для ведения конкурентной разведки на западных, в первую очередь, европейских и американских рынках товаров и услуг.

http://watchthatpage.com/ – сервис, который позволяет автоматически собирать новую информацию с поставленных на мониторинг ресурсов в интернете. Услуги сервиса бесплатные.

http://falcon.io/ – своего рода Rapportive для Web. Он не является заменой Rapportive, а дает дополнительные инструменты. В отличие от Rapportive дает общий профиль человека, как бы склеенный из данных из социальных сетей и упоминаний в web.http://watchthatpage.com/ – сервис, который позволяет автоматически собирать новую информацию с поставленных на мониторинг ресурсов в интернете. Услуги сервиса бесплатные.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ – дополнение для Firefox. Следит за обновлениями web-страниц. Полезно для web-сайтов, которые не имеют лент новостей (Atom или RSS).

http://agregator.pro/ – агрегатор новостных и медийных порталов. Используется маркетологами, аналитиками и т.п. для анализа новостных потоков по тем или иным темам.

http://price.apishops.com/ – автоматизированный веб-сервис мониторинга цен по выбранным товарным группам, конкретным интернет-магазинам и другим параметрам.

http://www.la0.ru/ – удобный и релевантный сервис анализа ссылок и бэклинков на интернет-ресурс.

www.recordedfuture.com – мощный инструмент анализа данных и их визуализации, реализованный как он-лайн сервис, построенный на «облачных» вычислениях.

http://advse.ru/ – сервис под слоганом «Узнай все про своих конкурентов». Позволяет в соответствии с поисковыми запросами получить сайты конкурентов, анализировать рекламные компании конкурентов в Google и Yandex.

http://spyonweb.com/ – сервис позволяет определить сайты с одинаковыми характеристиками, в том числе, использующими одинаковые идентификаторы сервиса статистики Google Analytics, IP адреса и т.п.

http://www.connotate.com/solutions – линейка продуктов для конкурентной разведки, управления информационными потоками и преобразования сведений в информационные активы. Включает как сложные платформы, так и простые дешевые сервисы, позволяющие эффективно вести мониторинг вместе с компрессией информации и получением только нужных результатов.

http://www.clearci.com/ – платформа конкурентной разведки для бизнеса различных размеров от стартапов и маленьких компаний до компаний из списка Fortune 500. Решена как saas.

http://startingpage.com/ – надстройка на Google, позволяющая вести поиск в Google без фиксации вашего IP адреса. Полностью поддерживает все поисковые возможности Google, в том числе и а русском языке.

http://newspapermap.com/ – уникальный сервис, очень полезный для конкурентного разведчика. Соединяет геолокацию с поисковиком он-лайн медиа. Т.е. вы выбираете интересующий вас регион или даже город, или язык, на карте видите место и список он-лайн версий газет и журналов, нажимаете на соответствующую кнопку и читаете. Поддерживает русский язык, очень удобный интерфейс.

http://infostream.com.ua/ – очень удобная отличающаяся первоклассной выборкой, вполне доступная для любого кошелька система мониторинга новостей «Инфострим» от одного из классиков интернет-поиска Д.В.Ландэ.

http://www.instapaper.com/ – очень простой и эффективный инструмент для сохранения необходимых веб-страниц. Может использоваться на компьютерах, айфонах, айпадах и др.

http://screen-scraper.com/ – позволяет автоматически извлекать всю информацию с веб-страниц, скачивать подавляющее большинство форматов файлов, автоматически вводить данные в различные формы. Скачанные файлы и страницы сохраняет в базах данных, выполняет множество других чрезвычайно полезных функций. Работает под всеми основными платформами, имеет полнофункциональную бесплатную и очень мощные профессиональные версии.

http://www.mozenda.com/- имеющий несколько тарифных планов и доступный даже для малого бизнеса веб сервис многофункционального веб мониторинга и доставки с избранных сайтов необходимой пользователю информации.

http://www.recipdonor.com/ - сервис позволяет осуществлять автоматический мониторинг всего происходящего на сайтах конкурентов.

http://www.spyfu.com/ – а это, если у вас конкуренты иностранные.

www.webground.su – созданный профессионалами Интернет-поиска сервис для мониторинга Рунета, включающий всех основных поставщиков информации, новостей и т.п., способен к индивидуальным настройкам мониторинга под нужды пользователя.

ПОИСКОВИКИ

https ://www .idmarch .org / – лучший по качеству выдачи поисковик мирового архива pdf документов. В настоящее время проиндексировано более 18 млн. pdf документов, начиная от книг, заканчивая секретными отчетами.

http://www.marketvisual.com/ – уникальный поисковик, позволяющий вести поиск собственников и топ-менеджмента по ФИО, наименованию компании, занимаемой позиции или их комбинации. В поисковой выдаче содержатся не только искомые объекты, но и их связи. Рассчитана прежде всего на англоязычные страны.

http://worldc.am/ – поисковик по фотографиям в свободном доступе с привязкой к геолокации.

https://app.echosec.net/ – общедоступный поисковик, который характеризует себя как самый продвинутый аналитический инструмент для правоохранительных органов и профессионалов безопасности и разведки. Позволяет вести поиск фотографий, размещенных на различных сайтах, социальных платформах и в социальных сетях в привязке к конкретным геолокационным координатам. В настоящее время подключено семь источников данных. До конца года их число составит более 450. За наводку спасибо Дементию.

http://www.quandl.com/ – поисковик по семи миллионам финансовых, экономических и социальных баз данных.

http://bitzakaz.ru/ – поисковик по тендерам и госзаказам с дополнительными платными функциями

Website-Finder – дает возможность найти сайты, которые плохо индексирует Google. Единственным ограничением является то, что для каждого ключевого слова он ищет только 30 веб-сайтов. Программа проста в использовании.

http://www.dtsearch.com/ – мощнейший поисковик, позволяющий обрабатывать терабайты текста. Работает на рабочем столе, в интернете и в интранете. Поддерживает как статические, так и динамические данные. Позволяет искать во всех программах MS Office. Поиск ведется по фразам, словам, тегам, индексам и многому другому. Единственная доступная система федеративного поиска. Имеет как платную, так и бесплатную версии.

http://www.strategator.com/ – осуществляет поиск, фильтрацию и агрегацию информации о компании из десятка тысяч веб-источников. Ищет по США, Великобритании, основным странам ЕЭС. Отличается высокой релевантностью, удобностью для пользователя, имеет бесплатные и платный вариант (14$ в месяц).

http://www.shodanhq.com/ – необычный поисковик. Сразу после появления получил кличку «Гугл для хакеров». Ищет не страницы, а определяет IP адреса, типы роутеров, компьютеров, серверов и рабочих станций, размещенных по тому или иному адресу, прослеживает цепочки DNS серверов и позволяет реализовать много других интересных функций для конкурентной разведки.

http://search.usa.gov/ – поисковик по сайтам и открытым базам всех государственных учреждений США. В базах находится много практической полезной информации, в том числе и для использования в нашей стране.

http://visual.ly/ – сегодня все шире для представления данных используется визуализация. Это первый поисковик инфографики в Вебе. Одновременно с поисковиком на портале есть мощные инструменты визуализации данных, не требующие навыков программирования.

http://go.mail.ru/realtime –поиск по обсуждениям тем, событий, объектов, субъектов в режиме реального, либо настраиваемого времени. Ранее крайне критикуемый поиск в Mail.ru работает очень эффективно и дает интересную релевантную выдачу.

Zanran – только что стартовавший, но уже отлично работающий первый и единственный поисковик для данных, извлекающий их из файлов PDF, таблиц EXCEL, данных на страницах HTML.

http://www.ciradar.com/Competitive-Analysis.aspx – одна из лучших в мире систем поиска информации для конкурентной разведки в «глубоком вебе». Извлекает практически все виды файлов во всех форматах по интересующей теме. Реализована как веб-сервис. Цены более чем приемлемые.

http://public.ru/ – Эффективный поиск и профессиональный анализ информации, архив СМИ с 1990 года. Интернет-библиотека СМИ предлагает широкий спектр информационных услуг: от доступа к электронным архивам публикаций русскоязычных СМИ и готовых тематических обзоров прессы до индивидуального мониторинга и эксклюзивных аналитических исследований, выполненных по материалам печати.

Cluuz – молодой поисковик с широкими возможностями для конкурентной разведки, особенно, в англоязычном интернете. Позволяет не только находить, но и визуализировать, устанавливать связи между людьми, компаниями, доменами, e-mail, адресами и т.п.

www.wolframalpha.com – поисковик завтрашнего дня. На поисковый запрос выдает имеющуюся по объекту запроса статистическую и фактологическую информацию, в том числе, визуализированную.

www.ist-budget.ru – универсальный поиск по базам данных госзакупок, торгов, аукционов и т.п.

ПРОФЕССИОНАЛЬНЫЙ ПОИСК ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов.

Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.

В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.

Основные средства интернет-поиска можно разделить на следующие основные группы:

Поисковые машины;

Веб-каталоги;

Справочные ресурсы;

Локальные программы для поиска в интернете.

Наиболее популярным средством поиска являются поисковые машины – так называемые интернет-поисковики (Search Engines). Тройка лидеров в общемировом масштабе достаточно стабильна – это Google, Yahoo! и Bing. Во многих странах к этому перечню добавляются собственные локальные поисковики, оптимизированные для работы с местным контентом. С их помощью теоретически можно найти любое конкретное слово на страницах многих миллионов сайтов. С точки зрения пользователя основной недостаток поисковиков – это неизбежное наличие информационного шума в результатах. Так принято называть попавшие по тем или иным причинам в список выдачи результаты, не соответствующие запросу.

Несмотря на многие различия, все интернет-поисковики работают по схожим принципам и с технической точки зрения состоят из похожих подсистем. Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб-страниц. Такие программы обычно называют пауками, или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с остальными сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится формирование индексной базы поисковика. Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной абсолютно полной индексной базы, которая содержала бы сведения обо всем контенте интернета. Поскольку разные поисковики используют разные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно различаться. Некоторые сайты оказываются проиндексированными несколькими поисковиками, однако всегда остается определенный процент ресурсов, включенных в базу только какого-либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок.

Следующая часть интернет-поисковика – собственно программы поиска и сортировки результатов. Эти программы решают две основные задачи: сначала находят в базе страницы и файлы, соответствующие поступившему запросу, а затем сортируют полученный массив данных в соответствии с различными критериями. От эффективности их работы во многом зависит успех в достижении целей поиска.

Последний элемент интернет-поисковика – пользовательский интерфейс. Кроме обычных для любых сайтов требований к эстетике и удобству, к интерфейсам поисковиков предъявляется еще одно важное требование: они должны предлагать различные инструменты составления и уточнения запросов, а также сортировки и фильтрации результатов. Преимущества поисковых машин – великолепный охват источников, сравнительно быстрое обновление содержимого базы и хороший выбор дополнительных функций.

Главный инструмент работы с поисковиками – это запрос.

Для интернет-поиска используются также специальные приложения, устанавливаемые на локальном компьютере. Это могут быть как простые программы, так и довольно сложные комплексы поиска и анализа данных. Наиболее распространены поисковые плагины для браузеров, панели для браузеров, предназначенные для работы с каким-либо конкретным поисковым сервисом, и метапоисковые пакеты с возможностями анализа результатов.

Веб-каталоги – это ресурсы, в которых сайты распределяются по тематическим категориям. Если с поисковиками пользователь работает только посредством запросов, то в каталоге есть возможность просматривать тематические разделы целиком. Второе принципиальное отличие каталогов от автоматических поисковиков – это то, что в их наполнении, как правило, непосредственно участвуют люди, которые просматривают ресурсы и относят сайт к той либо иной категории. Веб-каталоги принято делить на универсальные и тематические. Универсальные стараются охватить максимум тем. В них можно найти все, что угодно: от сайтов о поэзии до компьютерных ресурсов. Другими словами, широта поиска у них максимальная. Тематические же каталоги специализируются на определенной тематике, обеспечивая за счет сокращения широты охвата ресурсов максимальную глубину поиска.

Преимущества каталогов – сравнительно высокое качество ресурсов, поскольку каждый сайт в нем просматривается и отбирается человеком. Тематическая группировка сайтов позволяет удобно располагать сайты близкой тематики. Такой режим работы хорош для обнаружения новых для вас сайтов по интересующей теме – он точнее применения поисковой машины. Веб-каталоги рекомендуется использовать для первого знакомства с какой-либо предметной областью, а также поиска по нечетким запросам – у вас будет возможность «побродить» по разделам каталога и точнее определиться с тем, что именно вам требуется.

Недостатки веб-каталогов известны. В первую очередь, это медленное пополнение базы, поскольку включение сайта в каталог предполагает участие человека. В отношении оперативности веб-каталог – не соперник поисковикам. Кроме того, веб-каталоги существенно уступают поисковикам по размерам баз.

Говоря о интернет-поиске, нельзя обойти вниманием ряд терминов, которые тесно связаны с этой сферой и часто используются для описания и оценки поисковиков. Например: широта и глубина интернет-поиска. Широким называют поиск, который захватывает как можно большее количество источников информации. При этом достаточным считается хотя бы упоминание о том или ином подходящем запросу сайте. Глубина поиска относится к подробности индексирования и последующего поиска каждого конкретного ресурса. Например, многие поисковики по-разному подходят к индексированию разных сайтов. Крупные и популярные сайты индексируются в максимальном объеме, роботы стараются не упустить ни одной страницы такого ресурса. В то же время на других сайтах может быть проиндексирована только заглавная страница и пара страниц содержания. Эти обстоятельства, естественно, сказываются и на последующем поиске. Глубокий поиск работает по принципу «лучше включить в результаты лишнюю информацию, чем упустить какие-либо относящиеся к теме поиска данные».

Достаточно часто можно встретить такие понятия, как глобальный и локальный интернет-поиск. При локальном интернет-поиске учитывается географическое местоположение пользователя и предпочтение отдается результатам, так или иначе связанным с конкретной страной или местностью. При глобальном поиске эта информация не учитывается, и поиск ведется во всех доступных ресурсах.

При составлении запроса на интернет-поисковиках действуют различные режимы поиска. К типовым режимам поиска, которые встречаются на большинстве интернет-машин, можно отнести простой и расширенный поиск. Простой поиск позволяет в одном запросе указать только один поисковый признак. Расширенный поиск дает возможность составить запрос из нескольких условий, связав их логическими операторами.

Для уточнения поисковых запросов используются различные фильтры . Фильтрами называют те или иные вспомогательные средства составления запроса, которые не относятся к содержательной стороне условий запроса, а ограничивают результаты поиска каким-либо формальным признаком. Так, например, применяя при поиске фильтр типа файла, пользователь не сообщает системе сведений, относящихся к теме своего запроса, а просто ограничивает полученные результаты определенным типом файлов, указанным в условии своего запроса.

Для большинства пользователей универсальные поисковики являются основным, а зачастую и единственным средством интернет-поиска. Они предлагают хороший охват источников, а также набор инструментов, достаточный для решения основных поисковых задач.

Рынок универсальных поисковиков достаточно велик. Мы постарались проанализировать наиболее известные поисковые системы, а результаты представили в виде таблицы 1.

При выборе универсального поисковика важную роль играет качество находимых с его помощью ресурсов. Определить предпочтительный для конкретных задач поисковик можно «методом маркера». Суть его состоит в том, что вначале составляется некий тематический поисковый запрос, после чего опрашивается группа людей – экспертов в данной области на предмет выявления лучших, по их мнению, интернет-ресурсов по избранной теме. На основе данных опроса формируется список сайтов-маркеров, гарантированно релевантных запросу и содержащих качественную информацию. Затем запрос отправляется на тестируемые поисковики. Логика оценки проста: чем выше в результатах поиска будут расположены сайты-маркеры, тем лучше конкретный ресурс подходит для поиска информации по тестовой теме.


Н айти нужную и актуальную информацию в Интернете порой очень непросто. Количество информационного мусора в Сети растет как снежный ком, и добраться до данных, которые вам действительно необходимы, используя традиционные Яндекс и Google, иногда просто невозможно. Книга, которую вы держите в руках, позволит увеличить эффективность вашего поиска информации в Интернете во много раз. Здесь описаны приемы, поисковые сайты и программы для специализированного поиска информации. Рассмотрены современные разновидности интернет-поиска: универсальный поиск, вертикальный поиск, метапоисковые системы, построение персональных поисковиков, поиск аудиовизуального контента, поиск по скрытому Интернету. Для всех рассмотренных систем приведены их характеристика и советы по максимально эффективному использованию.

Введение

Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов. Это совсем не простая задача, поскольку информация в современной Сети не структурирована, что создает проблемы ее нахождения. Не случайно своеобразными «окнами» в это информационное пространство стали именно интернет-поисковики.

Вряд ли среди интернет-пользователей найдутся люди, никогда не использовавшие крупные универсальные поисковые машины. Названия Google, Яндекс и пары-тройки других больших машин на слуху у всех. Они замечательно справляются с повседневными задачами интернет-поиска, и зачастую пользователи даже не пытаются искать им замену. В то же время количество поисковых интернет-машин в наше время исчисляется тысячами. Причины такого разнообразия альтернативных машин имеют различные корни. Одни проекты пытаются напрямую конкурировать с лидерами глобального рынка за счет тщательной работы с национальными интернет-ресурсами. Другие предлагают возможности составления запроса, отсутствующие у известных поисковиков. Значительное количество альтернативных машин специализируются на поиске по определенной тематической области или определенному типу контента, достигая в решении этих задач впечатляющих результатов. Как бы то ни было, включение таких поисковиков в собственный пользовательский арсенал средств интернет-поиска может заметно повысить его качество. Здесь, правда, существует один нюанс: надо знать о таких машинах и уметь пользоваться их возможностями.

Предполагаем, что читатели данной книги уже достаточно хорошо знакомы с техникой поиска с помощью универсальных поисковиков. Хорошо настолько, что почувствовали ограничения, связанные с их применением. Скорее всего, такие люди уже пробовали искать и применять те или иные дополнительные инструменты. Печатное слово не обходит стороной тему интернет-поиска: и статьи периодически появляются, и книги выходят. Вот только герои у них, как правило, одни и те же – несколько ведущих универсальных поисковиков. Наша книга отличается тем, что в ней делается попытка охватить весь спектр современных поисковых решений. Здесь вы найдете описания и рекомендации по использованию лучших современных сервисов, ориентированных на решение наиболее распространенных поисковых задач. Эта книга для людей, много работающих в интернете и использующих Сеть для поиска нужной информации – будь то бизнес, учеба или хобби.

Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.

В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.

Глава 1

Универсальные интернет-поисковики

Универсальные интернет-поисковики – это основное и наиболее известное средство интернет-поиска. Такие поисковики обеспечивают максимальный охват различных ресурсов. Именно к универсальному типу относятся крупнейшие и наиболее популярные поисковые машины. Это действительно мощные решения с большим количеством возможностей и инструментов, о которых зачастую не знают многие пользователи. Понимание особенностей и возможностей универсального поиска позволяет узнать сильные и слабые стороны таких систем и осознанно выбирать максимально эффективные инструменты поиска.

Рынок универсальных поисковиков достаточно велик. В этой главе мы рассмотрим только наиболее мощные машины, способные достойно работать с запросами на русском языке. Открывают главу рассказы о лидерах русского поиска – системах Google.ru и Яндекс. О каждом из этих поисковиков написаны книги и масса статей. Мы сосредоточимся на основных характеристиках, имеющих значение для конечного пользователя, а также попытаемся определить их сильные стороны.

Компанию им составляет новая поисковая разработка корпорации Microsoft – система Bing, которая пока заметно обделена вниманием, а также полезный и достаточно мощный поисковик Exalead, преимуществом которого является хорошая поддержка поиска в европейских интернет-ресурсах. Данная система – пока редкий гость в поисковом арсенале наших пользователей, поэтому она рассматривается подробнее остальных.

В этой главе при обзоре систем Google и Яндекс мы сосредоточимся только на возможностях веб-поиска, а поиск в специализированных базах этих проектов рассматривается в следующих главах, посвященных поиску изображений и видео. Для других универсальных поисковиков сведения о мультимедиа-поиске приводятся сразу же при знакомстве с ними.

Поскольку три из четырех героев этой главы имеют зарубежное происхождение, сразу отметим, что мы анализируем возможности только их русских версий. Дело в том, что некоторые функции зарубежных систем, особенно экспериментальные, зачастую доступны только в оригинальных, как правило, англоязычных версиях сервисов.

Google

Поисковик Google заслуженно считается мировым лидером современного интернет-поиска. Основанная в 1998 году компания Google по сей день остается среди ведущих законодателей мод в сфере интернет-поиска и веб-сервисов.

Разработчики Google всегда отличались повышенным вниманием к совершенствованию алгоритмов своего поисковика, а также разумным консерватизмом в области пользовательского интерфейса. Возможности составления запроса на Google можно назвать классическими, да и способы отображения результатов поиска также стали своеобразным стандартом. В последнее время разработчики Google предприняли серьезные изменения в этих областях – слишком уж старомодно стал смотреться крупнейший поисковик на фоне молодых конкурентов.

Google обладает одной из крупнейших в мире индексных баз, что обеспечивает широкий охват источников информации. Индексная информация Google сведена в несколько вертикальных баз. Кроме наиболее известной базы «Веб», это несколько мультимедиа-баз («Картинки», «Видео»), работающих с источниками актуальной информации и сообщениями на RSS-лентах база «Новости», а также индексирующая сетевые дневники база «Блоги». Кроме того, Google предлагает широкий выбор дополнительных ресурсов, среди которых стоит отметить картографический сервис, каталог сайтов, службу вопросов и ответов. Эти ресурсы также можно рассматривать как инструменты поиска.

В базе «Веб» для составления запроса Google предлагает режимы простого и расширенного поиска. В режиме простого поиска из дополнительных инструментов доступна только виртуальная клавиатура. Расширенный поиск предлагает больше возможностей. Поскольку форма расширенного поиска доступна практически во всех поисковых продуктах Google, остановимся на ней подробнее (рис. 1.1).

Яндекс

Официально представленный широкой публике в 1997 году поисковик Яндекс успешно развивался и через десять лет впервые попал в число десяти крупнейших поисковых машин мира. В русском сегменте интернета он добился лидирующих позиций, которые пока не собирается уступать, несмотря на возрастающую конкуренцию. Отличительными чертами Яндекса с начала его существования стали собственные оригинальные алгоритмы определения релевантности результатов поиска, гибкие инструменты работы с текстом запросов и учет особенностей морфологии русского языка при их обработке.

Яндекс опирается на собственные индексные базы. Кроме поиска по веб-документам система предлагает неплохой выбор специализированных ресурсов и дополнительных сервисов. Яндекс в настоящее время работает с изображениями, видео, новостями, блогами и словарями. Мощные поисковые возможности заложены также в собственном картографическом сервисе и в системе поиска товаров. Кроме того, Яндекс ведет собственный каталог веб-сайтов. Сильной стороной Яндекса является развитая программа локального поиска, что особенно актуально для наших пользователей. Яндекс предоставляет возможность доступа к своим базам сторонним разработчикам. Как следствие, немало русских проектов альтернативного интернет-поиска так или иначе используют ресурсы Яндекса. Кроме обычной системы поиска предлагается и сокращенный вариант Яндекса, доступный по адресу ya.ru. Интерфейс этой версии состоит только из поля ввода запроса и кнопки начала поиска.

Поиск в веб-документах предлагает режимы простого и расширенного поиска. Простой поиск не предоставляет каких-либо фильтров, что компенсируется возможностью автоматического разбора запросов на естественном языке, уверенной обработкой относительно длинных запросов, а также системой автоматического дополнения запроса. Максимальная длина запроса – сорок слов.

Форма расширенного поиска для составления запроса предлагает только одно поле. Логические операторы, связывающие слова запроса, предлагается вводить вручную, благо. Яндекс располагает достаточно подробным языком запросов. Остальные инструменты формы расширенного поиска – это различные фильтры (1.4).

Bing

Историю интернет-поиска от Microsoft простой не назовешь. На последовательно предлагаемых публике сервисах неоднократно менялись алгоритмы, используемые базы данных и, конечно же, названия. До начала 2000-х поисковик не располагал собственными базами и работал с внешними индексами от AltaVista, Inktomi и Looksmart. Первоначальное имя MSN Search использовалось до 2006 года, а затем на несколько лет изменение названий поисковика стало для Microsoft традицией.

Вместе с окончательным переходом на поиск в собственных индексныхMSN Search была переименована сначала в Windows LiveLive Search. Наконец, в начале лета 2009 на смену Live Search пришел новый поисковый проект Bing.

«Bing позволит иначе взглянуть на поиск информации в интернете и поможет пользователям в принятии важных решений», – именно таким заявлением начинался пресс-релиз Microsoft, посвященный запуску Bing. Стремления разработчиков были понятны: поисковики от Microsoft, несмотря на все старания, на Западе стабильно уступали по популярности лидерам – Google и Yahoo!. Если же говорить о русскоязычных версиях предыдущих поисковых проектов Microsoft, то по количеству и качеству находимых ссылок они намного уступали крупным российским поисковикам. В попытке догнать конкурентов разработчики Bing сделали ставку на улучшение качества поиска и внедрение новых технологий, многие из которых были приобретены вместе с создавшими их фирмами.

Необходимо заметить, что русскоязычная версия Bing, как и большинство других локализованных версий, лишена ряда дополнительных функций, например поиска по магазинам. Поскольку они, по сути, работают только в Северной. Америке, подробно останавливаться на них смысла нет.

Exalead

Одной из особенностей Европы, в том числе и в сфере интернет-поиска, является большое количество национальных языков. Поисковик, претендующий на место ведущего в Европе, просто обязан хорошо индексировать национальные сегменты интернета и качественно обрабатывать запросы на многочисленных европейских языках – как крупнейших, так и менее распространенных. Именно в данной области европейская разработка может получить серьезное конкурентное преимущество по сравнению с мощными заокеанскими конкурентами. На роль такого европейского поисковика в настоящее время всерьез претендует система Exalead. Данный проект был разработан в рамках исследовательской программы Quaere, финансируемой Евросоюзом.

Exalead располагает собственными индексными базами. Основные поисковые ресурсы системы – это базы веб-документов, изображений, видео и новостей. Стартовая страница Exalead предлагает возможность персональной настройки. На этой странице можно разместить ссылки на свои любимые сайты – они будут отображаться в виде графических миниатюр-скриншотов. Правда, для этого придется бесплатно зарегистрировать аккаунт, а также разрешить браузеру хранить куки-файлы Exalead.

Веб-поиск Exalead предлагает режимы простого и расширенного поиска. Форма расширенного поиска, как и в Bing, открывается прямо на странице выдачи Отметим, что Exalead предлагает не просто привычную форму с набором дополнительных полей, а сложное выпадающее меню, которое играет роль мастера по уточнению запроса (рис. 1.7). При выборе того или иного пункта в меню мастера в строку запроса добавляются новые элементы, а при необходимости операторы и спецсимволы.

Алексей Кутовенко

Профессиональный поиск в Интернете

Введение

Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов. Это совсем не простая задача, поскольку информация в современной Сети не структурирована, что создает проблемы ее нахождения. Не случайно своеобразными «окнами» в это информационное пространство стали именно интернет-поисковики.

Вряд ли среди интернет-пользователей найдутся люди, никогда не использовавшие крупные универсальные поисковые машины. Названия Google, Яндекс и пары-тройки других больших машин на слуху у всех. Они замечательно справляются с повседневными задачами интернет-поиска, и зачастую пользователи даже не пытаются искать им замену. В то же время количество поисковых интернет-машин в наше время исчисляется тысячами. Причины такого разнообразия альтернативных машин имеют различные корни. Одни проекты пытаются напрямую конкурировать с лидерами глобального рынка за счет тщательной работы с национальными интернет-ресурсами. Другие предлагают возможности составления запроса, отсутствующие у известных поисковиков. Значительное количество альтернативных машин специализируются на поиске по определенной тематической области или определенному типу контента, достигая в решении этих задач впечатляющих результатов. Как бы то ни было, включение таких поисковиков в собственный пользовательский арсенал средств интернет-поиска может заметно повысить его качество. Здесь, правда, существует один нюанс: надо знать о таких машинах и уметь пользоваться их возможностями.

Предполагаем, что читатели данной книги уже достаточно хорошо знакомы с техникой поиска с помощью универсальных поисковиков. Хорошо настолько, что почувствовали ограничения, связанные с их применением. Скорее всего, такие люди уже пробовали искать и применять те или иные дополнительные инструменты. Печатное слово не обходит стороной тему интернет-поиска: и статьи периодически появляются, и книги выходят. Вот только герои у них, как правило, одни и те же – несколько ведущих универсальных поисковиков. Наша книга отличается тем, что в ней делается попытка охватить весь спектр современных поисковых решений. Здесь вы найдете описания и рекомендации по использованию лучших современных сервисов, ориентированных на решение наиболее распространенных поисковых задач. Эта книга для людей, много работающих в интернете и использующих Сеть для поиска нужной информации – будь то бизнес, учеба или хобби.

Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.

В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.

Доступных средств поиска немало. Их можно объединить в несколько групп, каждая из которых обладает определенными достоинствами и недостатками. Главы нашей книги посвящены основным группам современных поисковых интернет-систем.

Глава 1, «Универсальные интернет-поисковики», посвящена крупным универсальным системам поиска информации в Сети. Основной акцент делается на их наиболее современных инструментах, которые обычно выпадают из поля зрения широкой публики. Обзор возможностей известных машин дает нам своеобразную точку отсчета и позволяет четко представить сферу применения альтернативных поисковых решений.

Глава 2, «Вертикальный поиск», рассказывает о системах, специализирующихся на определенных тематических областях или же определенных видах контента.

В главе 3, «Метапоиск», рассмотрены метапоисковые системы, способные отправить запрос одновременно на несколько интернет-поисковиков, а затем собрать и обработать полученные результаты в едином интерфейсе.

Глава 4, «Семантические и визуальные интернет-поисковики», представляет собой обзор экспериментальных систем, предлагающих оригинальные пользовательские интерфейсы, а также интересные подходы к обработке запросов.

В главе 5, «Рекомендательные машины», рассказывается о недавно появившихся поисковых сервисах, по-английски метко названных «Discovery Engines», то есть «машины открытий». С их помощью можно обрабатывать ряд запросов, которые «не по зубам» другим видам интернет-поисковиков.

Если вам не подходит ни один готовый продукт, вы можете создать собственный интернет-поисковик. Созданию таких персональных машин посвящена глава 6, «Персональные поисковики».

Несколько глав нашей книги посвящены поиску различных видов сетевого контента. В главе 7, «Поиск изображений», рассказывается о современных тенденциях интернет-поиска изображений, а также о возможностях соответствующих экспериментальных систем. Глава 8, «Поиск видео», предлагает обзор средств видеопоиска ведущих универсальных интернет-поисковиков, а также лучших специализированных систем этого направления.

Глава 9, «Поиск «скрытого» контента», является обзором систем, позволяющих вести поиск контента, который «не видят» универсальные поисковики. К такому «скрытому» контенту относятся, например, торренты или файлы, размещенные на FTP-серверах и файловых хостингах.

Глава 10, «Поиск для Web 3.0», рассказывает о средствах интернет-поиска данных в форматах «семантического веба».

Поиск не заканчивается простым получением результатов с того или иного поисковика. Инструментам обработки и сохранения результатов посвящена последняя глава нашей книги – глава 11, «Программы-помощники».

Прежде чем начинать рассказ о конкретных продуктах, имеет смысл разобраться с классификацией современных средств интернет-поиска, а также определиться с терминами, которые постоянно встречаются на страницах нашей книги.

Основные средства интернет-поиска можно разделить на следующие основные группы:

Поисковые машины;

Веб-каталоги;

Справочные ресурсы;

Локальные программы для поиска в интернете.

Наиболее популярным средством поиска являются поисковые машины – так называемые интернет-поисковики (Search Engines). Тройка лидеров в общемировом масштабе достаточно стабильна – это Google, Yahoo! и Bing. Во многих странах к этому перечню добавляются собственные локальные поисковики, оптимизированные для работы с местным контентом. С их помощью теоретически можно найти любое конкретное слово на страницах многих миллионов сайтов.

Несмотря на многие различия, все интернет-поисковики работают по схожим принципам и с технической точки зрения состоят из похожих подсистем.

Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб-страниц. Такие программы обычно называют пауками, или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с остальными сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится формирование индексной базы поисковика. Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной абсолютно полной индексной базы, которая содержала бы сведения обо всем контенте интернета. Поскольку разные поисковики используют разные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно различаться. Некоторые сайты оказываются проиндексированными несколькими поисковиками, однако всегда остается определенный процент ресурсов, включенных в базу только какого-либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок.