Информационные технологии в лингвистике/Архитектура Web-пространства

Теория

править

Запустите презентацию Поиск информации в интернете. Введение, в то случае если презентация не запустится, смотрите информацию ниже (краткий конспект презентации И.М. Печищев) :

Введение

Объем информации в интернете увеличивается в геометрической прогрессии:

  • 1998 г. – количество web-сайтов – около 1 миллиона
  • 2004 г. - web-сайтов – 50 миллионов, web-страниц – 10 миллиардов
  • 2006 г. - (июль) 88 166 395 сайтов.

Русскоязычный интернет

В поисковой системе Яндекс на июль 2006 года проиндексировано:

  • сайтов: 2 832 533,
  • web-страниц: 1 058 914 756,
  • объем проиндексированной информации: 24 778 ГБ.

Проблема:

  • Переизбыток информации
  • Пользователи тратят много времени на поиск нужной информации.

Для эффективного поиска информации нужно:

  • Иметь представление о структуре интернета.
  • Иметь представление о способах и методах поиска информации в интернете.
  • Уметь сформулировать запрос и выбрать ответ из результатов поиска.

Структура информационного пространства интернета

Источники информации

  1. компании и организации,
  2. физические лица,
  3. журналисты и редакторы сетевых СМИ и информагентств,
  4. сотрудники информационных и консалтинговых компаний, создающие специализированные базы данных

Модель web-пространства

Основой для построения модели web-пространства могут стать гиперссылки.

 
Примерное графическое изображение связей между сетями Интернета. Изображены только связи между серверами.

Проследив с помощью поискового механизма 200 млн. web-страниц и несколько миллиардов ссылок ученые пришли к выводу о неоднородной структуре интернета и создали топологическую модель, близкую к модели Bow Tie (галстук-бабочка) [1].

Данная модель включает:

  • центральное ядро ( ≈ 28% web-страниц);
  • «Отправные» web-страницы ( 22%);
  • «Конечные» web-страницы ( 22%);
  • «Отростки» ( 22%);
  • «Острова» (около 10%).

Топология и характеристики модели Bow Tie оказались примерно одинаковыми и для различных подмножеств web-пространства. Это позволило сделать вывод о том, что Web пространство обладает свойствами фрактала.

Скрытый Web

По оценке компании BrightPlanet сделанной еще в 2000 году число скрытых ресурсов в интернете в сотни раз больше, чем доступных через поисковые системы. Web-ресурсы, недоступные поисковым системам, получили название deep Web или «скрытый Web», invisible («невидимый») Web, Глубокая паутина

К скрытому Web относятся следующие web-ресурсы:

  • Динамически генерируемые страницы
  • Информация из баз данных
  • Файлы нераспознаваемых форматов
  • Системы интерактивного взаимодействия с пользователем
  • Платные сайты, защищенные паролем
  • и др.

См. также

править

Практика

править

На своей личной странице в модуле занятие, на основе информации, найденной самостоятельно в интернете, дайте ответы на следующие вопросы:

  • Количество сайтов или web-страниц в текущем году,
  • Количество сайтов или web-страниц в текущем году в Рунете,
  • Какие источники информации обладают наивысшей достоверностью.
  • Современные оценки (на текущий год) объема скрытого Web.


Навигация

править

Курс Информационные технологии в лингвистике