355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Герберт Шилдт » Полное руководство. С# 4.0 » Текст книги (страница 57)
Полное руководство. С# 4.0
  • Текст добавлен: 7 октября 2016, 10:48

Текст книги "Полное руководство. С# 4.0"


Автор книги: Герберт Шилдт



сообщить о нарушении

Текущая страница: 57 (всего у книги 58 страниц)

. Итак, выше приведена часть гипертекстового содержимого, полученного из веб сайта издательства McGraw-Hill по адресу www.McGraw-Hill.com. В рассматривае мом здесь примере программы это содержимое просто выводится в исходном виде на экран посимвольно и не форматируется в удобочитаемом виде, как это обычно дела ется в окне браузера. Проанализируем данную программу построчно. Прежде всего обратите внимание на использование в ней пространства имен System.Net. Как пояснялось ранее, в этом пространстве имен находятся классы сетевого подключения к Интернету. Обратите также внимание на то, что в данную программу включено пространство имен System. 10, которое требуется для того, чтобы прочитать полученную на веб-сайте информа цию, используя объект типа Stream. В начале программы создается объект типа WebRequest, содержащий требуемый URI. Как видите, для этой цели используется метод Create(), а не конструктор. Это статический член класса WebRequest. Несмотря на то что класс WebRequest является абстрактным, это обстоятельство не мешает вызывать статический метод данного клас са. Метод Create() возвращает объект типа HttpWebRequest. Разумеется, его зна чение требуется привести к типу HttpWebRequest, прежде чем присвоить его пере менной req ссылки на объект типа HttpWebRequest. На этом формирование запроса завершается, но его еще нужно отправить по указанному URL Для того чтобы отправить запрос, в рассматриваемой здесь программе вызыва ется метод GetResponse() для объекта типа WebRequest. Отправив запрос, метод GetResponse() переходит в состояние ожидания ответа. Как только ответ будет по лучен, метод GetResponse() возвратит объект типа WebResponse, в котором инкап сулирован ответ. Этот объект присваивается переменной resp. Но в данном случае от вет принимается по протоколу HTTP, и поэтому полученный результат приводится к типу HttpWebResponse. Среди прочего в ответе содержится поток, предназначаемый для чтения данных из источника по указанному URL Далее поток ввода получается в результате вызова метода GetResponseStream() для объекта resp. Это стандартный объект класса Stream со всеми атрибутами и сред ствами, необходимыми для организации потока ввода. Ссылка на этот поток присваи вается переменной istrm, с помощью которой данные могут быть прочитаны из ис точника по указанному URI, как из обычного файла. После этого в программе выполняется чтение данных из веб-сайта издательства McGraw-Hill по адресу www.McGraw-Hill.com и последующий их вывод на экран. А поскольку этих данных много, то они выводятся на экран отдельными порциями по 400 символов, после чего в программе ожидается нажатие клавиши , чтобы продолжить вывод. Благодаря этому выводимые данные можно просматривать без прокрутки экрана. Обратите внимание на то, что данные читаются посимвольно с по мощью метода ReadByte(). Напомним, что этот метод возвращает очередной байт из потока ввода в виде значения типа int, которое требуется привести к типу char. По достижении конца потока этот метод возвращает значение -1. И наконец, ответный поток закрывается при вызове метода Close() для объекта resp. Вместе с ответным потоком автоматически закрывается и поток ввода. Ответный поток следует закрывать в промежутках между последовательными запросами. В про тивном случае сетевые ресурсы могут быть исчерпаны, препятствуя очередному под ключению к Интернету. И в заключение анализа рассматриваемого здесь примера следует обратить особое внимание на следующее: для отображения гипертекстового содержимого, получаемо го от сервера, совсем не обязательно использовать объект типа HttpWebRequest или HttpWebResponse. Ведь для решения этой задачи в данной программе оказалось до статочно стандартных методов, определенных в классах WebRequest и WebResponse, и не потребовалось прибегать к специальным средствам протокола HTTP. Следова тельно, вызовы методов Create() и GetResponse() можно было бы написать сле дующим образом. // Сначала создать объект запроса типа WebRequest по указанному URI. WebRequest req = WebRequest.Create(«http://www.McGraw-Hill.com»); // Затем отправить сформированный запрос и получить на него ответ. WebResponse resp = req.GetResponse(); В тех случаях, когда не требуется приведение к конкретному типу реализации про токола, лучше пользоваться классами WebRequest и WebResponse, так как это дает возможность менять протокол, не оказывая никакого влияния на код программы. Но поскольку во всех примерах, приведенных в этой главе, используется протокол HTTP, то в ряде примеров демонстрируются специальные средства этого протокола из клас сов HttpWebRequest и HttpWebResponse. Обработка сетевых ошибок Программа из предыдущего примера составлена верно, но она совсем не защищена от простейших сетевых ошибок, которые способны преждевременно прервать ее вы полнение. Конечно, для программы, служащей в качестве примера, это не так важно, как для реальных приложений. Для полноценной обработки сетевых исключений, которые могут быть сгенерированы программой, необходимо организовать контроль вызовов методов Create(), GetResponse() и GetResponseStream(). Следует осо бо подчеркнуть, что генерирование конкретных исключений зависит от используемого протокола. И ниже речь пойдет об ошибках, которые могут возникнуть при использо вании протокола HTTP, поскольку средства сетевого подключения к Интернету, доступ ные в С#, рассматриваются в настоящей главе на примере именно этого протокола. Исключения, генерируемые методом Create() Метод Create(), определенный в классе WebRequest, может генерировать четыре исключения. Так, если протокол, указываемый в префиксе URI, не поддерживается, то генерируется исключение NotSupportedException. Если формат URI оказывает ся недействительным, то генерируется исключение UriFormatException. А если у пользователя нет соответствующих полномочий для доступа к запрашиваемому сете вому ресурсу, то генерируется исключение System.Security.SecurityException. Кроме того, метод Create() генерирует исключение ArgumentNullException, если он вызывается с пустой ссылкой, хотя этот вид ошибки не имеет непосредственного отношения к сетевому подключению. Исключения, генерируемые методом GetResponse() При вызове метода GetResponse() для получения ответа по протоколу HTTP может произойти целый ряд ошибок. Эти ошибки представлены следующими ис ключениями: InvalidOperationException, ProtocolViolationException, NotSupportedException и WebException. Наибольший интерес среди них вызывает исключение WebException. У исключения WebException имеются два свойства, связанных с сетевыми ошиб ками: Response и Status. С помощью свойства Response можно получить ссылку на объект типа WebResponse в обработчике исключений. Для соединения по протоколу HTTP этот объект описывает характер возникшей ошибки. Свойство Response объ является следующим образом. public WebResponse Response { get; } Когда возникает ошибка, то с помощью свойства Status типа WebException мож но выяснить, что именно произошло. Это свойство объявляется следующим образом: public WebExceptionStatus Status {get; } где WebExceptionStatus – это перечисление, которое содержит приведенные ниже значения. CacheEntryNotFound ConnectFailure ConnectionClosed KeepAliveFailure MessageLengthLimitExceeded NameResolutionFailure Pending PipelineFailure ProtocolError ProxyNameResolutionFailure ReceiveFailure RequestCanceled RequestProhibitedByCachePolicy RequestProhibitedByProxy SecureChannelFailure SendFailure ServerProtocolViolation Success Timeout TrustFailure UnknownError Как только будет выяснена причина ошибки, в программе могут быть предприня ты соответствующие действия. Исключения, генерируемые методом GetResponseStream() Для соединения по протоколу HTTP метод GetResponseStream() из класса WebResponse может сгенерировать исключение ProtocolViolationException, ко торое в целом означает, что в работе по указанному протоколу произошла ошибка. Что же касается метода GetResponseStream(), то это означает, что ни один из дей ствительных ответных потоков недоступен. Исключение ObjectDisposedException генерируется в том случае, если ответ уже утилизирован. А исключение IOException, конечно, генерируется при ошибке чтения из потока, в зависимости от того, как орга низован ввод данных. Обработка исключений В приведенном ниже примере программы демонстрируется обработка всевозмож ных сетевых исключений, которые могут возникнуть в связи с выполнением програм мы из предыдущего примера, в которую теперь добавлены соответствующие обработ чики исключений. // Пример обработки сетевых исключений. using System; using System.Net; using System.IO; class NetExcDemo { static void Main() { int ch; try { // Сначала создать объект запроса типа WebRequest по указанному URI. HttpWebRequest req = (HttpWebRequest) WebRequest.Create(«http://www.McGraw-Hill.com»); // Затем отправить сформированный запрос и получить на него ответ. HttpWebResponse resp = (HttpWebResponse) req.GetResponse(); // Получить из ответа поток ввода. Stream istrm = resp.GetResponseStream() ; / А теперь прочитать и отобразить гипертекстовое содержимое, полученное по указанному URI. Это содержимое выводился на экран отдельными порциями по 400 символов. После каждой такой порции следует нажать клавишу , чтобы вывести на экран следующую порцию, состоящую из 400 символов. / for (int i=1; ; i++) { ch = istrm.ReadByte(); if(ch == -1) break; Console.Write((char) ch); if((i%400)==0) { Console.Write («nНажмите клавишу .»); Console.ReadLine(); } } // Закрыть ответный поток. При этом закрывается // также поток ввода istrm. resp.Close(); } catch(WebException exc) { Console.WriteLine("Сетевая ошибка: " + exc.Message + "nКод состояния: " + exc.Status); } catch(ProtocolViolationException exc) { Console.WriteLine("Протокольная ошибка: " + exc.Message); } catch(UriFormatException exc) { Console.WriteLine("Ошибка формата URI: " + exc.Message); } catch(NotSupportedException exc) { Console.WriteLine("Неизвестный протокол: " + exc.Message); } catch(IOException exc) { Console.WriteLine("Ошибка ввода-вывода: " + exc.Message); } catch(System.Security.SecurityException exc) { Console.WriteLine("Исключение в связи с нарушением безопасности: " + exc.Message); } catch(InvalidOperationException exc) { Console.WriteLine("Недопустимая операция: " + exc.Message); } } } Теперь перехватываются все исключения, которые могут быть сгенерированы сете выми методами. Так, если изменить вызов метода Create() следующим образом: WebRequest.Create(«http://www.McGraw-Hill.com/moonrocket»); а затем перекомпилировать и еще раз выполнить программу, то в результате может быть выдано приведенное ниже сообщение об ошибке. Сетевая ошибка: Удаленный сервер возвратил ошибку: (404) Не найден. Код состояния: ProtocolError На веб-сайте по адресу www.McGraw-Hill.com отсутствует раздел moonrocket, и поэтому он не найден по указанному URI, что и подтверждает приведенный выше ре зультат. Ради краткости и ясности в программах большинства примеров из этой главы от сутствует полноценная обработка исключений. Но в реальных приложениях она про сто необходима. Класс Uri Как следует из табл. 26.1, метод WebRequest.Create() существует в двух вариан тах. В одном варианте он принимает идентификатор URI в виде строки. Именно этот вариант и был использован в предыдущих примерах программ. А во втором вариан те этот метод принимает идентификатор URI в виде экземпляра объекта класса Uri, определенного в пространстве имен System. Класс Uri инкапсулирует идентифика тор URL Используя класс Uri, можно сформировать URI, чтобы затем передать этот идентификатор методу Create(). Кроме того, идентификатор URI можно разделить на части. Для выполнения многих простых операций в Интернете класс Uri малопри годен. Тем не менее он может оказаться весьма полезным в более сложных ситуациях сетевого подключения к Интернету. В классе Uri определяется несколько конструкторов. Ниже приведены наиболее часто используемые конструкторы этого класса. public Uri(string uriString) public Uri(Uri baseUri, string relativeUri) В первой форме конструктора объект класса Uri создается по идентификатору URI, заданному в виде строки uriString. А во второй форме конструктора он создается по относительному URI, заданному в виде строки relativeUri относительно абсолютно го URI, обозначаемого в виде объекта baseUri типа Uri. Абсолютный URI определяет полный адрес URI, а относительный URI – только путь к искомому ресурсу. В классе Uri определяются многие поля, свойства и методы, оказывающие помощь в управлении идентификаторами URI или в получении доступа к различным частям URI. Особый интерес представляют приведенные ниже свойства. Перечисленные выше свойства полезны для разделения URI на составные части. При менение этих свойств демонстрируется в приведенном ниже примере программы. // Пример применения свойств из класса Uri. using System; using System.Net; class UriDemo { static void Main() { Uri sample = new Uri(«http://HerbSchildt.com/somefile.txt?SomeQuery»); Console.WriteLine("Хост: " + sample.Host); Console.WriteLine("Порт: " + sample.Port); Console.WriteLine("Протокол: " + sample.Scheme); Console.WriteLine("Локальный путь: " + sample.LocalPath); Console.WriteLine("Запрос: " + sample.Query); Console.WriteLine("Путь и запрос: " + sample.PathAndQuery); } } Эта программа дает следующий результат. Хост: HerbSchildt.com Порт: 80 Протокол: http Локальный путь: /somefile.txt Запрос: ?ScmeQuery Путь и запрос: /somefile.txt?SomeQuery Доступ к дополнительной информации, получаемой в ответ по протоколу HTTP С помощью сетевых средств, имеющихся в классе HttpWebResponse, можно по лучить доступ к другой информации, помимо содержимого указываемого ресурса. К этой информации, в частности, относится время последней модификации ресурса, а также имя сервера. Она оказывается доступной с помощью различных свойств, свя занных с подучаемым ответом. Все эти свойства, включая и те что, определены в классе WebResponse, сведены в табл. 26.5. В приведенных далее примерах программ демон стрируется применение этих свойств на практике. Свойство Описание public string Host { get; } Получает имя сервера public string LocalPath { get; } Получает локальный путь к файлу public string. PathAndQuery { get; } public int Port { get; } Получает абсолютный путь и строку запроса Получает номер порта для указанного про токола. Так, для протокола HTTP номер порта равен 80 public string Query { get; } Получает строку запроса public string Scheme { get; } Получает протокол Доступ к заголовку Для доступа к заголовку с информацией, получаемой в ответ по протоколу HTTP, служит свойство Headers, определенное в классе HttpWebResponse. public WebHeaderCollection Headers{ get; } Заголовок протокола HTTP состоит из пар «имя-значение», представленных строка ми. Каждая пара «имя-значение» хранится в коллекции класса WebHeaderCollection. Эта коллекция специально предназначена для хранения пар «имя-значение» и приме Таблица 26.5. Свойства, определенные в классе HttpWebResponse Свойство Описание public string CharacterSet { get; } Получает название используемого набора символов public string ContentEncoding { get; } Получает название схемы кодирования public long ContentLength { get; } Получает длину принимаемого содержимого. Если она недоступна, свойство имеет значе ние -1 public string ContentType { get; } Получает описание содержимого public CookieCollection Cookies { get; set; } Получает или устанавливает список cookie– наборов, присоединяемых к ответу public WebHeaderCollection Headers{ get; } Получает коллекцию заголовков, присоединяе мых к ответу public bool IsFromCache { get; } Принимает логическое значение true, если запрос получен из кеша. А если запрос достав лен по сети, то принимает логическое значе ние false public bool IsMutuallyAuthenticated { get; } Принимает логическое значение true, если клиент и сервер опознают друг друга, а ина че – принимает логическое значение false public DateTime LastModified { get; } Получает время последней модификации ре сурса public string Method { get; } Получает строку, которая задает способ ответа public Version ProtocolVersion { get; } Получает объект типа Version, описываю щий версию протокола HTTP, используемую в транзакции public Uri ReponseUri { get; } Получает URI, по которому был сформирован ответ. Этот идентификатор может отличаться от запрашиваемого, если ответ был переадресо ван по другому URI public string Server { get; } Получает строку, обозначающую имя сервера public HttpStatusCode StatusCode { get; } Получает объект типа HttpStatusCode, опи сывающий состояние транзакции public string StatusDescription { get; } Получает строку, обозначающую состояние транзакции в удобочитаемой форме няется аналогично любой другой коллекции (подробнее об этом см. в главе 25). Стро ковый массив имен может быть получен из свойства AllKeys, а отдельные значения – по соответствующему имени при вызове метода GetValues(). Этот метод возвращает массив строк, содержащий значения, связанные с заголовком, передаваемым в качестве аргумента. Метод GetValues() перегружается, чтобы принять числовой индекс или имя заголовка. В приведенной ниже программе отображаются заголовки, связанные с сетевым ре сурсом, доступным по адресу www.McGraw-Hill.com. // Проверить заголовки. using System; using System.Net; class HeaderDemo { static void Main() { // Создать объект запроса типа WebRequest по указанному URI. HttpWebRequest req = (HttpWebRequest) WebRequest.Create(«http://www.McGraw-Hill.com»); // Отправить сформированный запрос и получить на него ответ. HttpWebResponse resp = (HttpWebResponse) req.GetResponse(); // Получить список имен. string[] names = resp.Headers.AllKeys; // Отобразить пары «имя-значение» из заголовка. Console.WriteLine(«{0,-20}(1}n», «Имя», «Значение»); foreach(string n in names) { Console.Write(«{0,-20}», n); foreach(string v in resp.Headers.GetValues(n)) Console.WriteLine(v); } // Закрыть ответный поток. resp.Close(); } } Ниже приведен полученный результат. Не следует забывать, что информация в заго ловке периодически меняется, поэтому у вас результат может оказаться несколько иным. Имя Значение Transfer-encoding chunked Content-Type text/html Date Sun, 06 Dec 2009 20:32:06 GMT Server Sun-ONE-Web-Server/6.1 Доступ к cookie-наборам Для доступа к cookie-наборам, получаемым в ответ по протоколу HTTP, слу жит свойство Cookies, определенное в классе HttpWebResponse. В cookie-наборах содержится информация, сохраняемая браузером. Они состоят из пар «имя-значение» и упрощают некоторые виды доступа к веб-сайтам. Ниже показано, каким образом определяется свойство Cookies. public CookieCollection Cookies { get; set; } В классе CookieCollection реализуются интерфейсы ICollection и IEnumerable, и поэтому его можно использовать аналогично классу любой другой коллекции (подробнее об этом см. в главе 25). У этого класса имеется также индекса тор, позволяющий получать cookie-набор по указанному индексу или имени. В коллекции типа CookieCollection хранятся объекты класса Cookie. В классе Cookie определяется несколько свойств, предоставляющих доступ к различным фраг ментам информации, связанной с cookie-набором. Ниже приведены два свойства, Name и Value, используемые в примерах программ из этой главы. public string Name { get; set; } public string Value { get; set; } Имя cookie-набора содержится в свойстве Name, а его значение – в свойстве Value. Для того чтобы получить список cookie-наборов из принятого ответа, необходимо предоставить cookie-контейнер с запросом. И для этой цели в классе HttpWebRequest определяется свойство CookieContainer, приведенное ниже. public CookieContainer CookieContainer { get; set; } В классе CookieContainer предоставляются различные поля, свойства и методы, позволяющие хранить cookie-наборы. По умолчанию свойство CookieContainer содержит пустое значение. Для того чтобы воспользоваться cookie-наборами, необ ходимо установить это свойство равным экземпляру класса CookieContainer. Во многих приложениях свойство CookieContainer не применяется непосредственно, а вместо него из принятого ответа составляется и затем используется коллекция типа CookieCollection. Свойство CookieContainer просто обеспечивает внутренний механизм сохранения cookie-наборов. В приведенном ниже примере программы отображаются имена и значения cookie– наборов, получаемых из источника по URI, указываемому в командной строке. Следу ет, однако, иметь в виду, что cookie-наборы используются не на всех веб-сайтах, поэто му нужно еще найти такой веб-сайт, который поддерживает cookie-наборы. / Пример проверки cookie-наборов. Для того чтобы проверить, какие именно cookie-наборы используются на веб-сайте, укажите его имя в командной строке. Так, если назвать эту программу CookieDemo, то по команде CookieDemo http://msn.com отобразятся cookie-наборы с веб-сайта по адресу www.msn.com. / using System; using System.Net; class CookieDemo { static void Main(string[] args) { if(args.Length != 1) { Console.WriteLine("Применение: CookieDemo "); return; } // Создать объект запроса типа WebRequest по указанному URI. HttpWebRequest req = (HttpWebRequest) WebRequest.Create(args[0]); // Получить пустой контейнер. req.CookieContainer = new CookieContainer(); // Отправить сформированный запрос и получить на него ответ. HttpWebResponse resp = (HttpWebResponse) req.GetResponse(); // Отобразить cookie-наборы. Console.WriteLine("Количество cookie-наборов: " + resp.Cookies.Count); Console.WriteLine(«{0,-20}{1}», «Имя», «Значение»); for(int i=0; i < resp.Cookies.Count; i++) Console.WriteLine(«{0, -20}{1}», resp.Cookies[i].Name, resp.Cookies[i].Value); // Закрыть ответный поток. resp.Close(); } } Применение свойства LastModified Иногда требуется знать, когда именно сетевой ресурс был обновлен в последний раз. Это нетрудно сделать, пользуясь сетевыми средствами класса HttpWebResponse, среди которых определено свойство LastModified, приведенное ниже. public DateTime LastModified { get; } С помощью свойства LastModified получается время обновления содержимого се тевого ресурса в последний раз. В приведенном ниже примере программы отображаются дата и время, когда был в последний раз обновлен ресурс, указываемый по URI в командной строке. / Использовать свойство LastModified. Для того чтобы проверить дату последнего обновления веб-сайта, введите его URI в командной строке. Так, если назвать эту программу LastModifiedDemo, то для проверки даты последней модификации веб-сайта по адресу www.HerbSchildt.com введите команду LastModifiedDemo http://HerbSchildt.com / using System; using System.Net; class LastModifiedDemo { static void Main(string[] args) { if(args.Length != 1) { Console.WriteLine("Применение: LastModifiedDemo "); return; } HttpWebRequest req = (HttpWebRequest) WebRequest.Create (args[0]); HttpWebResponse resp = (HttpWebResponse) req.GetResponse(); Console.WriteLine("Последняя модификация: « + resp.LastModified); resp.Close(); } } Практический пример создания программы MiniCrawler Для того чтобы показать, насколько просто программировать для Интернета сред ствами классов WebRequest и WebReponse, обратимся к разработке скелетного ва рианта поискового робота под названием MiniCrawler. Поисковый робот представляет собой программу последовательного перехода от одной ссылки на сетевой ресурс к другой. Поисковые роботы применяются в поисковых механизмах для каталогизации содержимого. Разумеется, поисковый робот MiniCrawler не обладает такими развиты ми возможностями, как те, что применяются в поисковых механизмах. Эта программа начинается с ввода пользователем конкретного адреса URI, по которому затем читается содержимое и осуществляется поиск в нем ссылки. Если ссылка найдена, то программа запрашивает пользователя, желает ли он перейти по этой ссылке к обнаруженному се тевому ресурсу, найти другую ссылку на имеющейся странице или выйти из програм мы. Несмотря на всю простоту такого алгоритма поиска сетевых ресурсов, он служит интересным и наглядным примером доступа к Интернету средствами С#. Программе MiniCrawler присущ ряд ограничений. Во-первых, в ней обнаруживают ся только абсолютные ссылки, указываемые по гипертекстовой команде href=»http. Относительные ссылки при этом не обнаруживаются. Во-вторых, возврат к предыду щей ссылке в программе не предусматривается. И в-третьих, в ней отображаются толь ко ссылки, но не окружающее их содержимое. Несмотря на все указанные ограничения данного скелетного варианта поискового робота, он вполне работоспособен и может быть без особых хлопот усовершенствован для решения других задач. На самом деле добавление новых возможностей в программу MiniCrawler – это удобный случай осво ить на практике сетевые классы и узнать больше о сетевом подключении к Интернету. Ниже приведен полностью исходный код программы MiniCrawler. / MiniCrawler: скелетный вариант поискового робота. Применение: для запуска поискового робота укажите URI в командной строке. Например, для того чтобы начать поиск с адреса www.McGraw-Hill.com, введите следующую команду: MiniCrawler http://McGraw-Hill.com / using System; using System.Net; using System.IO; class MiniCrawler { // Найти ссылку в строке содержимого. static string FindLink(string htmlstr, ref int startloc) { int i; int start, end; string uri = null; i = htmlstr.IndexOf(«href=»http", startloc, StringComparison.OrdinalIgnoreCase); if(i != -1) { start = htmlstr.IndexOf('"', i) + 1; end = htmlstr.IndexOf('"', start); uri = htmlstr.Substring(start, end-start); startloc = end; } return uri; } static void Main(string[] args) { string link = null; string str; string answer; int curloc; // содержит текущее положение в ответе if(args.Length != 1) { Console.WriteLine("Применение: MiniCrawler "); return; } string uristr = args[0]; // содержит текущий URI HttpWebResponse resp = null; try { do { Console.WriteLine("Переход по ссылке " + uristr); // Создать объект запроса типа WebRequest по указанному URI. HttpWebRequest req = (HttpWebRequest) WebRequest.Create(uristr); uristr = null; // запретить дальнейшее использование этого URI // Отправить сформированный запрос и получить на него ответ. resp = (HttpWebResponse) req.GetResponse(); // Получить поток ввода из принятого ответа. Stream istrm = resp.GetResponseStream(); // Заключить поток ввода в оболочку класса StreamReader. StreamReader rdr = new StreamReader(istrm); // Прочитать всю страницу. str = rdr.ReadToEnd(); curloc = 0; do { // Найти следующий URI для перехода по ссылке. link = FindLink(str, ref curloc); if(link != null) { Console.WriteLine("Найдена ссылка: " + link); Console.Write(«Перейти по ссылке, Искать дальше, Выйти?»); answer = Console.ReadLine(); if(string.Equals(answer, "П", StringComparison.OrdinalIgnoreCase)) { uristr = string.Copy(link); break; } else if(string.Equals(answer, "B", StringComparison.OrdinallgnoreCase)) { break; } else if(string.Equals(answer, "И", StringComparison.OrdinallgnoreCase)) ( Console.WriteLine(«Поиск следующей ссылки.»); } } else { Console.WriteLine(«Больше ссылок не найдено.»); break; } } while(link.Length > 0); // Закрыть ответный поток. if(resp != null) resp.Close(); } while(uristr != null); } catch(WebException exc) { Console.WriteLine("Сетевая ошибка: " + exc.Message + "nКод состояния: " + exc.Status); } catch(ProtocolViolationException exc) { Console.WriteLine("Протокольная ошибка: " + exc.Message); } catch(UriFormatException exc) { Console.WriteLine("Ошибка формата URI: " + exc.Message); } catch(NotSupportedException exc) { Console.WriteLine("Неизвестный протокол: " + exc.Message); } catch(IOException exc) { Console.WriteLine("Ошибка ввода-вывода: « + exc.Message); } finally { if(resp != null) resp.Close(); } Console.WriteLine(„Завершение программы MiniCrawler.“); } } Ниже приведен пример сеанса поиска, начиная с адреса www.McGraw-Hill.com. Следует иметь в виду, что конкретный результат поиска зависит от состояния содер жимого на момент поиска. Переход по ссылке http://mcgraw-hill.com Найдена ссылка: http://sti.mcgraw-hill.com:9000/cgi-bin/query?mss=search&pg=aq Перейти по ссылке, Искать дальше, Выйти? И Поиск следующей ссылки. Найдена ссылка: http://investor.mcgraw-hill.com/phoenix.zhtml?c=96562&p=irol-irhome Перейти по ссылке, Искать дальше, Выйти? П Переход по ссылке http://investor.mcgraw-hill.com/phoenix.zhtml?c=96562&p=irol-irhome Найдена ссылка: http://www.mcgraw-hill.com/index.html Перейти по ссылке, Искать дальше, Выйти? П Переход по ссылке http://www.mcgraw-hill.com/index.html Найдена ссылка: http://sti.mcgraw-hill.com:9000/cgi-bin/query?mss=search&pg=aq Перейти по ссылке, Искать дальше. Выйти? В Завершение программы MiniCrawler. Рассмотрим подробнее работу программы MiniCrawler. Она начинается с ввода пользователем конкретного URI в командной строке. В методе Main() этот URI сохра няется в строковой переменной uristr. Затем по указанному URI формируется запрос, и переменной uristr присваивается пустое значение, указывающее на то, что данный URI уже использован. Далее отправляется запрос и получается ответ. После этого со держимое читается из потока ввода, возвращаемого методом GetResponseStream() и заключаемого в оболочку класса StreamReader. Для этой цели вызывается метод ReadToEnd(), возвращающий все содержимое в виде строки из потока ввода. Далее программа осуществляет поиск ссылки в полученном содержимом. Для этого вызывается статический метод FindLink(), определяемый в программе MiniCrawler. Этот метод вызывается со строкой содержимого и исходным положением, с которо го начинается поиск в полученном содержимом. Эти значения передаются методу FindLink() в виде параметров htmlstr и startloc соответственно. Обратите внима ние на то, что параметр startloc относится к типу ref. Сначала в методе FindLink() создается копия строки содержимого в нижнем регистре, а затем осуществляется по иск подстроки href=»http, обозначающей ссылку. Если эта подстрока найдена, то URI копируется в строковую переменную uri, а значение параметра startloc об новляется и становится равным концу ссылки. Но поскольку параметр startloc от носится к типу ref, то это приводит к обновлению соответствующего аргумента ме тода Main(), активизируя поиск с того места, где он был прерван. В конечном итоге возвращается значение переменной uri. Эта переменная инициализирована пустым значением, и поэтому если ссылка не найдена, то возвращается пустая ссылка, обозна чающая неудачный исход поиска. Если ссылка, возвращаемая методом FindLink(), не является пустой, то она ото бражается в методе Main(), и далее программа запрашивает у пользователя очеред ные действия. Пользователю предоставляются одна из трех следующих возможностей: перейти по найденной ссылке, нажав клавишу <П>, искать следующую ссылку в имею щемся содержимом, нажав клавишу <И>, иди же выйти из программы, нажав клави шу <В>. Если пользователь нажмет клавишу <П>, то программа осуществит переход по найденной ссылке и получит новое содержимое по этой ссылке. После этого поиск очередной ссылки будет начат уже в новом содержимом. Этот процесс продолжается до тех пор, пока не будут исчерпаны все возможные ссылки. В качестве упражнения вы сами можете усовершенствовать программу MiniCrawler, дополнив ее, например, возможностью перехода по относительным ссылкам. Сделать это не так уж и трудно. Кроме того, вы можете полностью автоматизировать поиско вый робот, чтобы он сам переходил по найденной ссылке без вмешательства со стороны пользователя, начиная со ссылки, обнаруженной на самой первой странице получен ного содержимого, и продолжая переход по ссылкам на новых страницах. Как только будет достигнут тупик, поисковый робот должен вернуться на один уровень назад, най ти следующую ссылку и продолжить переход по ссылке. Для организации именно та кого алгоритма работы программы вам потребуется стек, в котором должны храниться идентификаторы URI и текущее состояние поиска в строке URI. С этой целью можно, в частности, воспользоваться коллекцией класса Stack. В качестве более сложной, но интересной задачи попробуйте организовать вывод ссылок в виде дерева. Применение класса WebClient В заключение этой главы уместно рассмотреть класс WebClient. Как упомина лось в самом ее начале, класс WebClient рекомендуется использовать вместо классов WebRequest и WebResponse в том случае, если в приложении требуется лишь выгру жать или загружать данные из Интернета. Преимущество класса WebClient заклю чается в том, что он автоматически выполняет многие операции, освобождая от их программирования вручную. В классе WebClient определяется единственный конструктор. public WebClient() Кроме того, в классе WebClient определяются свойства, сведенные в табл. 26.6, а также целый ряд методов, поддерживающих как синхронную, так и асинхронную пе редачу данных. Но поскольку рассмотрение асинхронной передачи данных выходит за рамки этой главы, то в табл. 26.7 приведены только те методы, которые поддерживают синхронную передачу данных. Все методы класса WebClient генерируют исключение WebException, если во время передачи данных возникает ошибка. Таблица 26.6. Свойства, определенные в классе WebClient Свойство Описание public string BaseAddress { get; set; } Получает или устанавливает базовый адрес требуемого URI. Если это свойство установлено, то адреса, задава емые в методах класса WebClient, должны опреде ляться относительно этого базового адреса public RequestCachePolicy CachePolicy { get; set; } Получает или устанавливает правила, определяющие, когда именно используется кэш public ICredentials Credentials { get; set; } Получает или устанавливает мандат, т.е. учетные дан ные пользователя. По умолчанию это Свойство имеет пустое значение public Encoding Encoding { get; set; } Получает или устанавливает схему кодирования симво лов при передаче строк Таблица 26.7. Методы синхронной передачи, определенные в классе WebClient Окончание табл. 26.6 Свойство Описание public WebHeaderCollection Headers{ get; set; } Получает или устанавливает коллекцию заголовков за проса public bool IsBusy{ get; } Принимает логическое значение true, если данные по-прежнему передаются по запросу, а иначе – логи ческое значение false public IWebProxy Proxy { get; set; } Получает или устанавливает прокси-сервер public NameValueCollection QueryString { get; set; } Получает или устанавливает строку запроса, состоя щую из пар “имя-значение”, которые могут быть при соединены к запросу. Строка запроса отделяется от URI символом ?. Если же таких пар несколько, то каждая из них отделяется символом @ public WebHeaderCollection ResponseHeaders{ get; } Получает коллекцию заголовков ответа public bool UseDefaultCredentials { get; set; } Получает или устанавливает значение, которое опреде ляет, используется ли для аутентификации устанавливае мый по умолчанию мандат. Если принимает логическое значение true, то используется мандат, устанавливае мый по умолчанию, т.е. учетные данные пользователя, в противном случае этот мандат не используется Метод Определение public byte[] DownloadData(string address) Загружает информацию по адресу URI, обозначае мому параметром address. Возвращает результат в виде массива байтов public byte[] DownloadData(Uri address) Загружает информацию по адресу URI, обозначае мому параметром address. Возвращает результат в виде массива байтов public void DownloadFile(string uri, string fileName) Загружает информацию по адресу URI, обозначае мому параметром fileName. Сохраняет результат в файле fileName public void DownloadFile(Uri address, string fileName) Загружает информацию по адресу URI, обозначае мому параметром address. Сохраняет результат в файле fileName public string DownloadString(string address) Загружает информацию по адресу URI, обозначае мому параметром address. Возвращает результат в виде символьной строки типа string public string DownloadString(Uri address) Загружает информацию по адресу URI, обозначае мому параметром address. Возвращает результат в виде символьной строки типа string public Stream OpenRead(string address) Возвращает поток ввода для чтения информации по адресу URI, обозначаемому параметром address. По окончании чтения информации этот поток необ ходимо закрыть Продолжение табл. 26.7 Метод Определение public Stream OpenRead(Uri address) Возвращает поток ввода для чтения информации по адресу URI, обозначаемому параметром address. По окончании чтения информации этот поток необ ходимо закрыть public Stream OpenWrite(string address) Возвращает поток вывода для записи информа ции по адресу URI, обозначаемому параметром address. По окончании записи информации этот поток необходимо закрыть public Stream OpenWrite(Uri address) Возвращает поток вывода для записи информа ции по адресу URI, обозначаемому параметром address. По окончании записи информации этот поток необходимо закрыть public Stream OpenWrite(string address, string method) Возвращает поток вывода для записи информа ции по адресу URI, обозначаемому параметром address. По окончании записи информации этот поток необходимо закрыть. В строке, передаваемой в качестве параметра method, указывается, как именно следует записывать информацию public Stream OpenWrite(Uri address, string method) Возвращает поток вывода для записи информа ции по адресу URI, обозначаемому параметром address. По окончании записи информации этот поток необходимо закрыть. В строке, передаваемой в качестве параметра method, указывается, как именно следует записывать информацию public byte[] UploadData(string address, byte[] data) Записывает информацию из массива data по адресу URI, обозначаемому параметром address. В итоге возвращается ответ public byte[] UploadData(Uri address, byte[] data) Записывает информацию из массива data по адресу URI, обозначаемому параметром address. В итоге возвращается ответ public byte[] UploadData(string address, string method, byte[] data) Записывает информацию из массива data по адресу URI, обозначаемому параметром address. В итоге возвращается ответ. В строке, передавае мой в качестве параметра method, указывается, как именно следует записывать информацию public byte[] UploadData(Uri address, string method, byte[] data) Записывает информацию из массива data по адресу URI, обозначаемому параметром address. В итоге возвращается ответ. В строке, передавае мой в качестве параметра method, указывается, как именно следует записывать информацию public byte[] UploadFile(string address, string fileName) Записывает информацию в файл fileName по адресу URI, обозначаемому параметром address. В итоге возвращается ответ public byte[] UploadFile(Uri address, string fileName) Записывает информацию в файл fileName по адресу URI, обозначаемому параметром address. В итоге возвращается ответ Окончание табл. 26.7 В приведенном ниже примере программы демонстрируется применение класса WebClient для загрузки данных в файл по указанному сетевому адресу. Метод Определение public byte[] UploadFile(string address, string method, string fileName) Записывает информацию в файл fileName по адресу URI, обозначаемому параметром address. В итоге возвращается ответ. В строке, передавае мой в качестве параметра method, указывается, как именно следует записывать информацию public byte[] UploadFile(Uri address, string method, string fileName) Записывает информацию в файл fileName по адресу URI, обозначаемому параметром address. В итоге возвращается ответ. В строке, передавае мой в качестве параметра method, указывается, как именно следует записывать информацию public string UploadString(string address, string data) Записывает строку data по адресу URI, обозначае мому параметром address. В итоге возвращается ответ public string UploadString(Uri address, string data) Записывает строку data по адресу URI, обозначае мому параметром address. В итоге возвращается ответ public string UploadString(string addreds, string method, string data) Записывает строку data по адресу URI, обозначае мому параметром address. В итоге возвращается ответ. В строке, передаваемой в качестве параме тра method, указывается, как именно следует за писывать информацию public string UploadString(Uri address, string method, string data) Записывает строку data по адресу URI, обозначае мому параметром address. В итоге возвращается ответ. В строке, передаваемой в качестве параме тра method, указывается, как именно следует за писывать информацию public byte[] UploadValues(string address, NameValueCollection data) Записывает значения из коллекции data по адресу URI, обозначаемому параметром address. В итоге возвращается ответ public byte[] UploadValues(Uri address, NameValueCollection data) Записывает значения из коллекции data по адресу URI, обозначаемому параметром address. В итоге возвращается ответ public byte[] UploadValues(string address, string method, NameValueCollection data) Записывает значения из коллекции data по адресу URI, обозначаемому параметром address. В итоге возвращается ответ. В строке, передаваемой в ка честве параметра method, указывается, как имен но следует записывать информацию public byte[] UploadValues(Uri address, string method, NameValueCollection data) Записывает значения из коллекции data по адресу URI, обозначаемому параметром address. В итоге возвращается ответ. В строке, передаваемой в ка честве параметра method, указывается, как имен но следует записывать информацию // Использовать класс WebClient для загрузки данных // в файл по указанному сетевому адресу. using System; using System.Net; using System.IO; class WebClientDemo { static void Main() { WebClient user = new WebClient (); string uri = «http://www.McGraw-Hill.com»; string fname = «data.txt»; try { Console.WriteLine("Загрузка данных по адресу " + uri + " в файл " + fname); user.DownloadFile(uri, fname); } catch (WebException exc) { Console.WriteLine(exc); } Console.WriteLine(«Загрузка завершена.»); } } Эта программа загружает информацию по адресу www.McGrawHill.com и поме щает ее в файл data.txt. Обратите внимание на строки кода этой программы, в кото рых осуществляется загрузка информации. Изменив символьную строку uri, можно загрузить информацию по любому адресу URI, включая и конкретные файлы, доступ ные по указываемому URL Несмотря на то что классы WebRequest и WebResponse предоставляют больше возможностей для управления и доступа к более обширной информации, для многих приложений оказывается достаточно и средств класса WebClient. Этим классом осо бенно удобно пользоваться в тех случаях, когда требуется только загрузка информации из веб-ресурса. Так, с помощью средств класса WebClient можно получить из Интер нета обновленную документацию на приложение.


    Ваша оценка произведения:

Популярные книги за неделю