Программирование и научные вычисления на языке Python/§14: различия между версиями

Содержимое удалено Содержимое добавлено
Нет описания правки
Нет описания правки
Строка 1:
В Python есть модуль <tt>urllib</tt>, позволяющий читать данные с веб-страниц также легко, как мы загружали данные из файла. Перед тем как мы приступим к изучению возможностей этого модуля, пара слов собственно об этих самых страницах, главное, что мы должны знать.
 
Веб-страницы просматриваются с помощью браузеров таких как Internet Explorer, Safari, Firefox, Opera, Google Chrome и так далее. Выбор браузера зависит от предпочтений и осведомленности пользователя. Любая посещаемая вами веб-страница имеет свой адрес, что-то вроде этого:
Строка 22:
 
Подноготную любой страницы, вы можете просмотреть, нажав на пустом месте правой кнопкой мыши и выбрав пункт такого рода как "Исходный код страницы". Вставляя тэги один в другой и сочетая их между собой, можно полностью сконструировать страницу. Так мы пока закончим наше беглое знакомство с HTML, о котором существует множество справочников, курсов и руководств, и приступим к работе.
 
 
==Как использовать web-страницы в программах==
Зачем нам знать о HTML и том как составляются страницы? Затем, что интернет полон информации, постоянно обновляемой, которую мы путем несложных действий можем использовать в своих программах. Как мы выяснили, то, что мы видим на экране это лишь продукт HTML и информация лежит в html-файле, представляющим собой текст. А с текстом работать мы уже умеем, особенно получать из него нужные данные.
 
Имея URL в виде строки, у нас есть два пути заполучить текст html-файла:
 
* Скачать html-файл и расположить его на диске, дав ему имя, скажем, <tt>webpage.html</tt>:
 
<source lang="python">
import urllib
url = 'http://www.simula.no/research/scientific/cbc'
urllib.urlretrieve(url, filename='webpage.html')</source>
 
* Открыть html-файл как обычный файловый объект:
 
<source lang="python">infile = urllib.urlopen(url)</source>
 
 
''Продолжение следует...''