355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Евгений Ющук » Интернет-разведка. Руководство к действию » Текст книги (страница 8)
Интернет-разведка. Руководство к действию
  • Текст добавлен: 8 сентября 2016, 21:35

Текст книги "Интернет-разведка. Руководство к действию"


Автор книги: Евгений Ющук


Жанр:

   

Интернет


сообщить о нарушении

Текущая страница: 8 (всего у книги 21 страниц) [доступный отрывок для чтения: 8 страниц]

Формы расширенного поиска в поисковых системах

Создатели поисковых машин понимают, что не все их пользователи хотят изучать язык поисковой машины. Тем более, что при всей принципиальной схожести синтаксис запросов конкретных поисковых машин специфичен, а к некоторым машинам обращаются и вовсе нечасто. Иными словами, все указывает на то, что особого смысла в глубоком изучении этого языка для каждого поисковика нет.

Между тем, машин таких действительно немало.


Рис. 15. Поисковые строки поисковых систем, собранные на одной странице на сайте «Центра новых технологий» ОАО «ЮТК»

Интересен ресурс, рекомендованный специалистом конкурентной разведки Рогачевой Еленой Юрьевной (она участвует в форуме проекта it2b под псевдонимом). На сайте филиала ОАО «Южная телекоммуникационная компания» «Центр новых технологий» по адресу http://www.kuban.ru/search/search.shtml на одной странице собраны поисковые строки сразу десяти машин, а также пяти систем поиска по FTP-серверам, как показано на рис. 15. При нажатии на этом ресурсе кнопки «Искать» ваш запрос будет адресован конкретному, выбранному вами поисковику, причем синтаксис запроса будет сохранен. С этого же ресурса можно попасть и на страницу расширенного поиска каждой из представленных в списке машин, если нажать кнопку «Детальный поиск».

Условия расширенного поиска предоставляют возможность детализировать запрос. После заполнения предусмотренной для этого формы поисковая система автоматически расставляет операторы запроса и выдает соответствующий результат. Такая простота в обращении позволяет достигать эффективности при минимуме затрачиваемых усилий.

Однако существует и оборотная сторона использования такой формы поиска, а именно – невозможность тонкой настройки запроса. Как показывает практика, запрос, адресованный информационной системе человеком, знакомым со всеми нюансами ее работы, значительно более точен, нежели алгоритм, записанный в форме расширенного поиска.

Именно поэтому мы предлагаем использовать ее лишь на тех машинах, к которым вы обращаетесь нечасто, и только в том случае, когда вас устраивает получение неисчерпывающего результата.

Внешний вид формы расширенного поиска Яндекса приведен на рис. 16.


Рис. 16. Форма расширенного поиска Яндекса.

На рисунке видно, что пользователь имеет возможность задать расположение слов запроса на странице – в заголовке страницы, в тексте или в ссылке на страницу. Кроме того, можно задать расположение слов друг относительно друга – согласно оператору «Логическое И» в Яндексе. Можно также запретить образование словоформ.

Помимо того, вы можете произвести поиск в определенном регионе или на отдельно взятом сайте. Ну и, наконец, затребовать выдачу документов указанного вами формата или на выбранном вами языке.

При этом авторы Яндекса почему-то не стали вводить строку для исключения слов из запроса, а ограничились текстом под поисковой строкой, который рекомендует ставить знак «минус» перед словами, которые вы хотели бы исключить.

На наш взгляд, это не самое удачное решение, поскольку оно может быть не вполне понятно неподготовленному человеку. В этом смысле, нам представляется более удобным механизм, действующий в большинстве информационных систем: строка для исключения слов из запроса представлена в виде полноправного инструмента, доступного в форме расширенного поиска наравне с остальными элементами.

Сложные запросы в форме расширенного поиска создать нельзя.

Хорошо видно, что, например, решение такой относительно сложной задачи, как:

[!налог & +недвижимость ~~ +подоходный] —

просто не предусмотрено структурой формы расширенного поиска Яндекса, поскольку разные слова в приведенном запросе имеют разные атрибуты.


Рис. 17. Форма расширенного поиска Гугла.

Подобная ситуация в той или иной степени характерна и для остальных поисковых систем. Пожалуй, только форма расширенного поиска Гугла страдает этим в меньшей степени, что достигается за счет сочетания двух направленных навстречу друг другу факторов: с одной стороны, сам по себе язык запросов Гугла проще (в смысле, несколько примитивнее), чем в Яндексе, а с другой стороны, форма расширенного поиска этой программы предоставляет больше возможностей в отличие от таковой в Яндексе. В частности, как иллюстрирует рис. 17, она позволяет сделать такой запрос, в котором логические «И» сочетаются с логическими «ИЛИ».

Метапоисковые машины Интернета с примерами поиска различных типов информации

Каждый из увлеченных пользователей Сети в душе мечтает о существовании одной-единственной информационной системы, которая сочетала бы в себе достоинства всех поисковиков одновременно.

Казалось бы, достаточно автоматизировать процесс размещения запроса в каждую из поисковых машин, как исследователю останется лишь собирать богатый урожай. И действительно, нашлись люди, которые так и поступили. Однако полученный результат хорошим не назовешь, с точки зрения специалиста конкурентной разведки.

Поскольку, как известно, большинство поисковых машин по умолчанию воспринимают знак пробела как логическое «И», то для слов, введенных в поисковую строку каждой машины, автоматический «вброс» запроса работает неплохо. То есть, само по себе размещение содержимого поисковой строки в разные поисковые машины технических трудностей не представляет. Только дело в том, что ввод слов через пробел крайне редко позволяет специалисту конкурентной разведки получить нужный результат. А вот автоматизировать составление поискового запроса для каждой поисковой машины на одном шаблоне, чтобы потом этот запрос автоматически переконвертировался с учетом синтаксиса языка запросов конкретной машины и забрасывался туда, пока что никто в широко доступных продуктах не стал. Да и сама по себе такая возможность переконвертации вызывает на сегодня сомнения, поскольку просто не существует, например, в Гугле поиска «в пределах одного предложения».

В результате, целый класс подобных инструментов, названный метапоисковыми машинами, практически не применяется для нужд конкурентной разведки.

Метапоисковая машина не имеет собственных пауков и собственной базы данных. Она в неизменном виде размещает запрос в тех поисковых машинах, которые отметил пользователь, а затем дожидается ответа от них и выдает результат со всех машин на одной странице. Для удобства пользователя эти результаты содержат пометку о том, с какой поисковой машины был получен тот или иной ответ. В результате вместо всех плюсов каждой поисковой машины, которые достаточно индивидуальны, пользователь может ощутить общие для них всех минусы, поскольку неточный поиск «сырой» информации с большим содержанием «информационного шума» непригоден для целей конкурентной разведки. Нам нравится высказывание специалиста журнала «Игромания» Алексея Бутрина о принципе работы метапоисковых машин и их недостатках, по сравнению с настоящими поисковыми машинами:

Гораздо эффективнее влезть на яблоню и сорвать именно то яблоко, которое вам нужно, а не трясти бедное дерево (скорее всего, вас просто завалит яблоками по самые уши).[8]8
  Бутрин Алексей. Иголки в стоге сена // Игромания. – № 73, № 74, 2003; № 76, 2004.


[Закрыть]

Примеры метапоисковых машин Интернета

Примерами метапоисковых машин, работающих в Интернете, могут служить Nigma (http://nigma.ru/), xRambler (http://xrambler.ru/) и Metabot (http://www. metabot.ru/).

Они имеют схожие интерфейсы и представляют собой поисковую строку, под которой можно отметить те поисковые системы, в которые будет отправляться запрос. Результаты запроса включают также, в отличие от таковых при работе с обычными поисковиками, информацию о том, из какой конкретно машины они получены.

Программы для работы с информацией

1. Метапоисковые машины, устанавливаемые на собственном компьютере.

Яркий представитель программ такого рода – Коперник Мета (Copernic Meta). Это бесплатное программное обеспечение, которое можно скачать по адресу: http://www.copernic.com/en/products/meta/index.html.

Для доступа к метапоисковой машине Copernic Meta пользователь устанавливает на своем компьютере плагин к Интернет Эксплореру, после чего в браузере появляется дополнительная панель.

Создатели Copernic Meta говорят о том, что их машина имеет следующие преимущества:

– позволяет провести метапоиск в Интернете с целью сравнения цен в сетевых магазинах, охватив при этом большое количество таких торговых площадок;

– производит поиск картинок, аудиофайлов, новостей, предметов, продающихся на аукционах;

– предоставляет пользователю возможность добавлять свои любимые поисковые машины и информационные ресурсы;

– обеспечивает доступ к поиску из любого приложения простым нажатием клавиш «Windows Key + S»;

– облегчает поиск ключевых слов на найденных страницах;

– достаточно щелкнуть по любому слову на странице, удерживая клавишу Alt, чтобы начать поиск этого слова;

– имеет панель с ярлыками для запроса в определенную поисковую машину.

Авторы программных продуктов Коперник не ограничились созданием метапоисковой машиной. За дополнительную плату (около 50 долл. США) они предлагают такие продукты, как Copernic Tracker, а также Copernic Summarizer.

Copernic Tracker способен отслеживать появление новых слов или графических элементов на веб-страницах. Кроме того, он имеет ряд дополнительных возможностей:

– может отправлять оповещение об изменении на странице на электронный почтовый ящик либо на мобильный телефон;

– подчеркивает изменения на странице, облегчая тем самым их обнаружение пользователем;

– может проводить контроль изменений автоматически, по заданному расписанию – каждый день, каждую неделю или даже каждую минуту;

– способен проверять наличие определенных ключевых слов на странице;

– сохраняет в архиве разные версии проверенных страниц;

– обеспечивает возможность проверки страницы непосредственно в тот момент, когда пользователь ее просматривает.

Copernic Summarizer, который оценивается уже в 60 долл. США, способен анализировать текст любой длины, написанный на одном из четырех языков, и затем выдавать краткое содержание материала в том размере, который ему задали. При этом программа работает с документами, представленными в таких форматах, как документы Word, веб-страницы, PDF-файлы, сообщения электронной почты и даже текст в буфере обмена.

Запуск программы Copernic Summarizer может быть произведен нажатием одной кнопки в таких приложениях, как браузер Интернет Эксплорер, а также программах Adobe Acrobat, Acrobat Reader, Outlook Express, Eudora, Microsoft Word, and Outlook.

Документ, полученный в результате работы программы, можно распечатать на принтере либо сохранить в одном из нескольких допустимых форматов: как простой текст, документ Microsoft Word, файл HTML или XML formats. Кроме того, этот материал может быть немедленно преобразован в сообщение электронной почты и отправлен по любому адресу, выбранному пользователем.

И наконец, производитель продуктов Коперник предлагает программу Copernic Agent Professional, которая объединяет все вышеописанные продукты под одной оболочкой. При этом стоимость ее относительно невелика для изобретения такого уровня и составляет около 80 долл. США.

К сожалению, на этом несомненные плюсы программ Коперник заканчиваются. Минус у них, собственно, один. Но достаточно большой: Коперник не работает с русскоязычными поисковыми системами, русский язык в принципе не входит в число четырех языков, с которыми работает система.

У автора этой книги есть опыт приобретения программы Copernic Agent. Так вот, на этапе ее эксплуатации выяснилось, что в данном случае невозможен не только анализ русскоязычных текстов, но и добавление русскоязычных поисковых машин в базу Copernic Meta, хотя легкость включения информационных систем в базу данных отдельно заявлена среди преимуществ продукта.

Служба технической поддержки сообщила, что, к их большому сожалению, русский язык не поддерживается Коперником и в ближайшее время в этом направлении создатели программы работать не планируют.

Однако, справедливости ради, отметим, что объявленный ими принцип: «Мы гарантируем возврат денег в течение 30 дней после покупки, если вам не понравится наш продукт» – действительно соблюдается. После того, как мы высказали по электронной почте просьбу компенсировать нам стоимость программы, в связи с указанными выше обстоятельствами, деньги действительно были зачислены на тот счет, с которого ранее производилась оплата.

Однако для тех, кто работает с Интернетом на основных европейских языках, программные продукты Коперник могут действительно помочь сэкономить время при параллельном повышении качества работы. На наш взгляд, Copernic Agent – одно из самых доступных по цене решений для малого и среднего бизнеса, когда стоит задача мониторинга Сети и предварительного анализа полученных документов.

2. Поиск информации на собственном компьютере.

Сегодня у большинства пользователей на персональном компьютере хранится достаточно много информации, и ее количество стремительно растет. Это могут быть статьи, письма, договоры, какие-то другие документы различных форматов. Если владелец компьютера регулярно собирает какие-то сведения, то их объемы могут составлять сотни гигабайт, что обычно и происходит у профессионала конкурентной разведки. В такой ситуации достаточно скоро возникает вопрос, как найти нужные тексты, в том числе те, о которых пользователь уже забыл. Лучшее решение этой задачи предлагается компанией Apple, производящей компьютеры на базе операционной системы MacOS. Наш опыт показал, что заявленная ею возможность мгновенного поиска файлов по фрагменту слова, содержащегося в тексте, действительно работает. Это было достигнуто благодаря тому, что принципиальная организация MacOS обеспечивает индексацию содержимого файлов еще на этапе записи документа на жесткий диск. Однако большинство наших читателей пользуется операционной системой Windows, поэтому мы подробнее остановимся на предлагаемых для нее решениях.

Встроенные в Windows XP средства поиска, которые вызываются нажатием виртуальных кнопок «Пуск» > «Найти» > «Файлы и папки», имеют один существенный недостаток. Дело в том, что этот алгоритм каждый раз открывает и просматривает все без исключения файлы, хранящиеся на компьютере в области, заданной для поиска. Такой способ работы с информацией обеспечивает высокую точность результатов, но, к сожалению, требует много времени, и чем больше становится количество файлов на персональном компьютере, тем больше времени расходуется впустую, в ожидании того, когда нужный файл будет найден. Именно поэтому на рынке появились программы, которые, подобно поисковым машинам Интернета, индексируют информацию на персональном компьютере и делают ее доступной пользователю практически мгновенно. Причем эти программы как правило предоставляются бесплатно.

Наиболее известные из них – Яндекс Десктоп (Yandex Desktop http://desktop. yandex.ru/), Гугл Десктоп (Google Desktop http://desktop.google.com/ru/index. html) и Коперник Десктоп (Copernic Desktop Search http://www.copernic.com/en/ products/desktop-search/index.html). Первые две поддерживаются поисковыми системами Яндекс и Гугл, а третья – авторами метапоисковой машины и других продуктов под маркой «Коперник».

Каждый из названных продуктов работает в фоновом режиме и по умолчанию проводит индексацию в то время, когда пользователь не прикасается к компьютерной мыши и не работает на клавиатуре.

Для того, чтобы читателю было проще сделать свой выбор между этими тремя программами, мы поделимся результатами проведенных нами в свое время экспериментов. Мы исследовали, насколько безопасны поисковые программы для персональных компьютеров, с точки зрения утечки информации с компьютера без ведома пользователя.

Персональные поисковики Гугл и Яндекс выпущены и поддерживаются одноименными поисковыми машинами Интернета. На наш взгляд, основная причина появления этих программ для настольного компьютера именно в бесплатном варианте – это привлечение людей к своим информационным системам как к основным средствам работы в Сети. Недаром в оба продукта встроена функция «Искать в Интернете», приводящая к машине по обработке запросов, которая создала настольный поисковик. Такое привлечение пользователей материально выгодно для информационных систем в силу ряда причин:

– это позволяет эффективно продавать контекстную рекламу, так как количество посетителей поисковой машины возрастает;

– дает дополнительный трафик поисковикам;

– позволяет собирать статистику по ключевым словам, используемым пользователями;

– помогает отслеживать перемещения людей от одной машины к другой и тем самым узнавать об их предпочтениях.

Недаром при установке нового пакета программ Гугла, в котором персональный поисковик для настольного компьютера представляет собой лишь один из его компонентов, по умолчанию ставится «галочка» в графе о подтверждении согласия пользователя на сбор «неличной информации» с его компьютера.

Вот текст этого дисклеймера, который появляется при установке Google Desktop.

При использовании расширенных функций Вы можете передавать информацию о просмотренных сайтах и неличную информацию об использовании в Google. Например, для персонализации новостей, отображаемых на боковой панели, Google Desktop отправляет в Google информацию о посещаемых Вами страницах новостей. Мы используем неличные данные об использовании, включая сообщения о сбоях, в целях усовершенствования Google Desktop. Учтите, что эти данные на самом деле не содержат сведений, позволяющих нам узнать, кто Вы такой. Мы используем их только для расширения возможностей Google Desktop по предоставлению Вам наиболее релевантной информации.

Существует два варианта установки поисковика Гугла отдельно от пакета (о «галочке» в этом случае можно забыть) – с расширенными функциями и без таковых. Если выбрать вариант, когда расширенные функции включены, то программа начнет соединяться с Интернетом сразу по множеству каналов, перебирая закладки на сайты, сделанные в браузере компьютера. В результате откроется боковая панель, с которой можно будут осуществлять быстрые переходы к ресурсам, которыми вы интересуетесь. Соединение при этом будет установлено с адресом kh.google.com и mt.google.com.

Коперник, как известно, выпущен компанией, которая не имеет собственной поисковой машины, а владеет метапоисковиком, распределяющим запросы между поисковыми системами других владельцев, и затем анализирующим полученные результаты. Вероятно, поэтому столь выраженного интереса к сбору статистики, который характерен для поисковых машин, у владельцев и авторов Коперника нет.

Проводя исследование передачи данных в Интернет настольными поисковыми системами, мы обратились за помощью к человеку, который профессионально занимается вопросами конфиденциальности сведений, представленных в Сети. В работе были использованы специальные программы для подробного анализа интернет-активности приложений – SmSniff и Ethereal.

Владимир Казеннов, так зовут нашего эксперта, не только помог нам советами, но и непосредственно проделал основную часть экспериментальной работы. Если читателям потребуется связаться с ним для прояснения непонятных моментов, это можно сделать по электронной почте [email protected].

Проведенное нами исследование подтвердило, что Коперник Десктоп и Яндекс Десктоп достаточно безвредны. Так, Коперник Десктоп вообще ничего не передавал в Интернет, а Яндекс Десктоп передавал лишь информацию о запросе, сделанном пользователем (да и то, как вначале предположил Владимир Казен-нов, а впоследствии подтвердили сотрудники Яндекса, это не преднамеренный поступок, а некритичная ошибка в написании программы).

Однако с Гугл Десктоп ситуация оказалась более угрожающей, с точки зрения конфиденциальности информации на персональном компьютере. Мы выявили, что он передает на свой сервер некие неустановленные данные по зашифрованному каналу (именно потому, что они зашифрованы, их и не удалось установить). Кроме того, нами было доказано, что Гугл предоставляет своим хозяевам обширную статистическую информацию о параметрах машины, которая использует данную программу, и о работе системы поиска.

Вместе с тем, исследование большей части полученных данных показало, что основная сетевая активность Гугла Десктоп осуществляется в незашифрованном виде и в большинстве своем неопасна с точки зрения угрозы конфиденциальным сведениям.

А кроме того, было установлено, что часть программного кода, применяемого Гуглом – в частности, java-скрипт, – может при определенных условиях быть вредоносной, так как использует технологию скрытого сбора информации и не требует получения разрешения от пользователя на ее отправку поисковику. Во всяком случае, такие java-скрипты обычно запрещаются в защищенных системах.

Так обстояло дело на момент написания книги. Мы не в состоянии спрогнозировать, каким будет поведение поисковых машин этих производителей завтра.

Полное описание эксперимента с детализацией полученных на каждом этапе данных читатель может найти по адресу: http://yushchuk.livejournal.com/37721. html.

Таким образом, если во главе угла – конфиденциальность информации на персональном компьютере, можно было бы рекомендовать в первую очередь Коперник Десктоп и, пожалуй, Яндекс Десктоп. Гугл, передающий в Интернет неустановленные зашифрованные данные с персонального компьютера, на наш взгляд, не может считаться полностью безопасным.

Однако есть еще один параметр, по которому мы также проводили эксперимент, сравнивая два поисковик-лидера. Речь идет о том, что лучше – Яндекс Десктоп или Коперник Десктоп, с точки зрения языка запросов, который используется в этих программах. Интерфейс Коперника англоязычный, Яндекса – русскоязычный.

Для того, чтобы разобраться в этом вопросе, на жесткий диск персонального компьютера были записаны четыре файла, созданных в Word и содержавших короткие, достаточно бессмысленные тексты, включающие в себя нестандартные, редко встречающиеся слова, а также понятия, намеренно написанные с орфографическими ошибками. Это позволило работать без «информационного мусора», который мог быть создан другими документами, хранящимися на том же компьютере. Полное описание эксперимента можно увидеть по адресу: http://yushchuk.livejournal.com/40521.html.

В результате, нами были сделаны приведенные ниже выводы.

На наш взгляд, программа Copernic Desktop Search обеспечивает больше возможностей для точного поиска на персональном компьютере, нежели Яндекс Десктоп.

Коперник Десктоп больше подходит для человека, который знает, что такое Булева алгебра и которого не смущает англоязычный интерфейс.

Яндекс, на наш взгляд, за счет упрощения языка запросов настольной поисковой программы, утратил свое главное преимущество – способность составить точный поисковый запрос.

Если же пользователь не испытывает необходимости в составлении точного запроса, то Яндекс Десктоп – лучшее решение, нежели продукт Коперника, поскольку он прощает большее количество ошибок и неточностей.

Особенности фактического языка запросов обеих испытанных программ. Яндекс Десктоп:

– воспринимает слова в любой их форме, и возможности отменить процесс образования производных от исходного слова нет. Причем, не работают ни стандартный для поисковой машины Яндекс оператор «!», находящийся перед словом, ни заключение запроса в двойные кавычки;

– не проводит различий между заглавной и прописной буквами в тексте;

– ищет по целому слову, изменяя его, по фрагменту слова поиск не выполняется;

– не поддерживает функцию принудительного включения слова в результат поиска. Если из двух слов, соединенных логическим «И» в пределах текста есть только одно, этот документ все равно попадет в выдачу, даже если перед обоими словами стоит знак «плюс»;

– оператор логическое «И» внутри одного предложения («&») при этом действует;

– оператор расстояния между словами не действует;

– логическое «НЕ» существует, но всегда относится ко всему тексту (что соответствует двойной тильде «~~»);

– точная фраза (оператор «кавычки») действует;

– логическое «ИЛИ» также действует.

Коперник Десктоп:

– выдает результат в зависимости от того, с заглавной или прописной буквы написано слово. Эта зависимость исчезает, если перед словом поставить логическое «ИЛИ» (оператор OR – заглавными буквами);

– ищет информацию по фрагменту слова;

– словоформы не поддерживает. Если нужно любое производное от искомого понятия, надо написать его не до конца, чтобы все варианты окончаний могли быть добавлены к этому фрагменту;

– если в запросе два слова связаны логтческим «И», представляет в выдаче только те тексты, в которых обязательно есть оба слова (напоминаем, что лучше писать слово без окончания, если нет уверенности в том, в какой форме оно присутствует в тексте);

– логическое «НЕ» представляет знаком «минус», действие которого распространяется на любой фрагмент текста.


    Ваша оценка произведения:

Популярные книги за неделю