Поисковые системы
<<  Система поиска Интернета Способы поиска в Интернете  >>
Поиск информации в интернете
Поиск информации в интернете
Количество информации
Количество информации
1 терабайт – 1024 Гб
1 терабайт – 1024 Гб
Объем информации в интернете
Объем информации в интернете
Июль 2006 года
Июль 2006 года
Кривая роста числа сайтов
Кривая роста числа сайтов
Русскоязычный интернет
Русскоязычный интернет
Яндекс
Яндекс
Синдром информационной усталости
Синдром информационной усталости
Переизбыток информации
Переизбыток информации
Что необходимо для эффективного поиска
Что необходимо для эффективного поиска
Структура информационного пространства интернета
Структура информационного пространства интернета
Благодаря кому в интернете возникает информация
Благодаря кому в интернете возникает информация
Источники информации
Источники информации
Компании и организации
Компании и организации
Обычные граждане
Обычные граждане
Участники форумов
Участники форумов
Журналисты и редакторы сетевых СМИ
Журналисты и редакторы сетевых СМИ
Сотрудники информационных и консалтинговых компаний
Сотрудники информационных и консалтинговых компаний
Схема информационных потоков
Схема информационных потоков
Сайты компаний
Сайты компаний
Парадокс интернета
Парадокс интернета
Модель web-пространства
Модель web-пространства
Для эффективного поиска в интернете
Для эффективного поиска в интернете
Модель web-пространства
Модель web-пространства
Bow Tie
Bow Tie
Центральное ядро
Центральное ядро
Центральное ядро – 28% web-страниц
Центральное ядро – 28% web-страниц
«Отправные» web-страницы - 22%
«Отправные» web-страницы - 22%
«Конечные» web-страницы – 22%
«Конечные» web-страницы – 22%
«Отростки» - 22%
«Отростки» - 22%
«Острова» - около 10%
«Острова» - около 10%
Пропорции модели
Пропорции модели
Интернет – это фрактал
Интернет – это фрактал
Связь между ресурсами интернет
Связь между ресурсами интернет
Связь между web-страницами
Связь между web-страницами
Путь между web-страницами
Путь между web-страницами
Скрытый Web
Скрытый Web
«Острова» - скрытый Web
«Острова» - скрытый Web
Deep Web
Deep Web
Web-ресурсы
Web-ресурсы
Платные сайты
Платные сайты
Крупнейшие базы данных
Крупнейшие базы данных
Dialog
Dialog
LexisNexis
LexisNexis
LexisNexis
LexisNexis
Пример рускоязычной базы данных
Пример рускоязычной базы данных
Как искать в «скрытом» Web’e
Как искать в «скрытом» Web’e
SurfWax
SurfWax
Представления исследователей
Представления исследователей
Источники информации
Источники информации
Презентация «Поиск информации в сети Интернет». Размер 408 КБ. Автор: noname.

Загрузка...

Поиск информации в сети Интернет

содержание презентации «Поиск информации в сети Интернет.ppt»
СлайдТекст
1 Поиск информации в интернете

Поиск информации в интернете

Поиск информации в интернете. Занятие 1. Вводное.

2 Количество информации

Количество информации

Количество информации в мире растет: Калифорнийский университет подсчитал , что в 2002 году в мире произведено 5 000 000 терабайт информации.

3 1 терабайт – 1024 Гб

1 терабайт – 1024 Гб

1 терабайт – 1024 Гб. Для сравнения: объем информации библиотеки Конгресса США, где хранится 19 млн. книг и 56 млн. рукописей – около 10 терабайт информации или в 500 тысяч раз меньше!

4 Объем информации в интернете

Объем информации в интернете

Объем информации в интернете увеличивается в геометрической прогрессии: 1998 г. – Количество web-сайтов – около 1 миллиона 2004 г. - Web-сайтов – 50 миллионов, web-страниц – 10 миллиардов (по данным аналитической компании cyveillance).

5 Июль 2006 года

Июль 2006 года

На июль 2006 года: По данным аналитической службы Netcraft, в интернете зарегистрировано 88 166 395 сайтов В течение 2006 года количество сайтов увеличивалось примерно на 2 миллиона в месяц!

6 Кривая роста числа сайтов

Кривая роста числа сайтов

Кривая роста числа сайтов. Октябрь 1995 г. – июль 2006 г. http://news.netcraft.com.

7 Русскоязычный интернет

Русскоязычный интернет

Русскоязычный интернет. Аналитики Nigma.Ru в мае 2005 года оценили объем русскоязычного интернета в 1,052 млрд. web-страниц А с учетом, т.н. «скрытого Web’a» - не более 1,2-1,3 млрд. страниц В то же время специалисты Rambler оценивают объем Рунета в 1,4 млрд. web-страниц.

8 Яндекс

Яндекс

Русскоязычный интернет. В поисковой системе Яндекс на июль 2006 года проиндексировано: сайтов: 2 832 533, web-страниц: 1 058 914 756, объем проиндексированной информации: 24 778 ГБ.

9 Синдром информационной усталости

Синдром информационной усталости

Возникает проблема: Переизбыток информации В США получил распространение «синдром информационной усталости». По данным исследования Reuters 38% менеджеров «тратят много времени на поиск нужной информации».

10 Переизбыток информации

Переизбыток информации

Переизбыток информации. По данным экспертов Reuters, 79% журналистов обращаются к интернету в поисках новостей и лишь 20% находят информацию, которая им необходима!

11 Что необходимо для эффективного поиска

Что необходимо для эффективного поиска

Что необходимо для эффективного поиска информации? Представление о структуре интернета. Представление о способах и методах поиска информации в интернете. Умение сформулировать запрос и выбрать ответ из результатов поиска.

12 Структура информационного пространства интернета

Структура информационного пространства интернета

Структура информационного пространства интернета.

13 Благодаря кому в интернете возникает информация

Благодаря кому в интернете возникает информация

Благодаря кому в интернете возникает информация? Как она располагается в интернете? Как искать, учитывая эти знания?

14 Источники информации

Источники информации

Источники информации. Мы рассмотрим основные источники информации интернета Особое внимание уделим трем критериям: тематика, оперативность, достоверность.

15 Компании и организации

Компании и организации

Источники информации. #1 Компании и организации (юридические лица), создающие собственные сайты в интернете. Тематика, достоверность и оперативность очень широко варьируются.

16 Обычные граждане

Обычные граждане

Источники информации. #2 Обычные граждане (физические лица) Чаще всего сайты посвящены увлечению владельца Достоверность и оперативность – на совести автора.

17 Участники форумов

Участники форумов

Источники информации. #2 Они же выступают как участники форумов, конференций, блогов Тематика – самая разнообразная Оперативность – достаточно высокая Достоверность – на совести авторов.

18 Журналисты и редакторы сетевых СМИ

Журналисты и редакторы сетевых СМИ

Источники информации. #3 Журналисты и редакторы сетевых СМИ и информагентств Тематика – самая разнообразная Оперативность – очень высокая Объективность информации зависит от редакции сетевого СМИ (так же, как и у печатных СМИ).

19 Сотрудники информационных и консалтинговых компаний

Сотрудники информационных и консалтинговых компаний

Источники информации. #4 Сотрудники информационных и консалтинговых компаний, создающие специализированные базы данных Тематика – самая разнообразная Оперативность и объективность – очень высокая.

20 Схема информационных потоков

Схема информационных потоков

Схема информационных потоков. Компании и организации. Сайты компаний. Обычные пользователи. Личные сайты. Форумы, блоги. Журналисты Редакторы Учредители. Информ. агентства. Сетевые СМИ. Информационные компании. Базы данных.

21 Сайты компаний

Сайты компаний

Схема информационных потоков. Сайты компаний. Поисковые системы. Личные сайты. Форумы, блоги. Информ. агентства. Сетевые СМИ. Специализированные базы данных. Информационные компании.

22 Парадокс интернета

Парадокс интернета

Парадокс интернета: Полезной информации становится все больше, а найти что-то необходимое – все сложнее.

23 Модель web-пространства

Модель web-пространства

Модель web-пространства.

24 Для эффективного поиска в интернете

Для эффективного поиска в интернете

Для эффективного поиска в интернете. необходимо учитывать архитектуру всего информационного пространства интернета. Гиперссылки могут стать основой для построения модели web-пространства.

25 Модель web-пространства

Модель web-пространства

Модель web-пространства. Впервые создана в 1999 году в Институте поиска и анализа текстов (США). Модель опровергла представления об интернете как о едином густом пространстве.

26 Bow Tie

Bow Tie

Модель web-пространства. Проследив с помощью поискового механизма 200 млн. web-страниц и несколько миллиардов ссылок ученые пришли к выводу о неоднородной структуре интернета и создали топологическую модель, близкую к модели Bow Tie (галстук-бабочка).

27 Центральное ядро

Центральное ядро

Модель web-пространства. Центральное ядро SCC 28% web-страниц. «Отростки». «Отправные» web-страницы IN 22%. «Конечные» web-страницы OUT 22%. «Острова». «Перешейки».

28 Центральное ядро – 28% web-страниц

Центральное ядро – 28% web-страниц

Центральное ядро – 28% web-страниц. Компоненты сильной связности (SCC). Сюда относятся web-страницы, связанные так тесно, что, следуя по гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.

29 «Отправные» web-страницы - 22%

«Отправные» web-страницы - 22%

«Отправные» web-страницы - 22%. Web-страницы, которые содержат гиперссылки, ведущие в конечном счете к ядру. Но! Из ядра по гиперссылкам на них попасть нельзя!

30 «Конечные» web-страницы – 22%

«Конечные» web-страницы – 22%

«Конечные» web-страницы – 22%. К этим web-страницам можно прийти по ссылкам из ядра. Но! Вернуться по гиперссылкам обратно в ядро с этих страниц невозможно!

31 «Отростки» - 22%

«Отростки» - 22%

«Отростки» - 22%. Web-страницы, полностью изолированные от центрального ядра. Это либо «отростки», связанные в одностороннем порядке со страницами другой категории. Либо «перешейки», соединяющие web-страницы, не входящие в ядро.

32 «Острова» - около 10%

«Острова» - около 10%

«Острова» - около 10%. Web-страницы, которые вообще не пересекаются с остальными ресурсами интернета. Единственный способ обнаружить эти страницы – знать их адрес. Никакие поисковые машины не могут найти «острова», если на них не ведут гиперссылки.

33 Пропорции модели

Пропорции модели

Пропорции модели. Ученые обнаружили, что пропорции четырех основных категорий web-страниц в течение времени остаются неизменными, несмотря на значительное увеличение общего объема web-ресурсов.

34 Интернет – это фрактал

Интернет – это фрактал

Интернет – это фрактал. Топология и характеристики модели Bow Tie оказались примерно одинаковыми и для различных подмножеств web-пространства! Это позволило сделать вывод о том, что интернет пространство обладает свойствами фрактала.

35 Связь между ресурсами интернет

Связь между ресурсами интернет

Связь между ресурсами интернет. Эксперимент выявил сложную картину: значительная часть web-пространства отделена от других крупных частей. С большой вероятностью случайно выбранные web-страницы окажутся никак не связанными.

36 Связь между web-страницами

Связь между web-страницами

Связь между web-страницами. В случае, если между страницами существует односторонний путь, то среднее количество щелчков для перехода между ними - 16. 16.

37 Путь между web-страницами

Путь между web-страницами

Связь между web-страницами. Если путь между web-страницами двусторонний, то количество щелчков сократится до 7. 7.

38 Скрытый Web

Скрытый Web

Скрытый Web.

39 «Острова» - скрытый Web

«Острова» - скрытый Web

«Острова» - скрытый Web. Недостаток модели Bow Tie – недооценка размеров «островов», то есть web-страниц, «не видимых» поисковыми системами. По оценке компании BrightPlanet в 2000 году число скрытых ресурсов в интернете в сотни раз больше, чем доступных через поисковые системы!

40 Deep Web

Deep Web

Скрытый Web. В 1994 web-ресурсы, недоступные поисковым системам, получили название deep Web или «скрытый Web». Другое название этих ресурсов – invisible («невидимый») Web.

41 Web-ресурсы

Web-ресурсы

Скрытый Web. Какие это web-ресурсы? Динамически генерируемые страницы Информация из баз данных Файлы нераспознаваемых форматов Системы интерактивного взаимодействия с пользователем Платные сайты, защищенные паролем и др.

42 Платные сайты

Платные сайты

Платные сайты. Сайты, защищенные паролем и берущие плату за доступ, по некоторым оценкам, составляют всего 10% скрытого Web’a. О материалах этих сайтов пользователи ничего не смогут узнать с помощью поисковых систем.

43 Крупнейшие базы данных

Крупнейшие базы данных

Крупнейшие базы данных. Одними из самых больших известных ресурсов «скрытого» Web’a являются базы данных служб Dialog и LexisNexis.

44 Dialog

Dialog

Dialog www.dialog.com. Создана в 1965 году. Dialog содержит 900 баз данных, доступных 700 тыс. пользователей, которые только за один час прочитывают более 17 млн. документов! Услугами Dialog пользуются в более чем 100 странах.

45 LexisNexis

LexisNexis

LexisNexis www.lexisnexis.com. Основана в 1973 году. Представляет пользователям юридическую, политическую, коммерческую, новостную и т.п. информацию. В первую очередь база данных предназначена для юристов.

46 LexisNexis

LexisNexis

LexisNexis www.lexisnexis.com. Служба охватывает 35 000 источников информации 4,6 млрд. документов с глубиной ретроспективы 200 лет. В базе содержатся досье более чем на 300 млн. человек! Утверждается, что система накапливает только проверенные документы.

47 Пример рускоязычной базы данных

Пример рускоязычной базы данных

Пример рускоязычной базы данных. Сайт компании «Кодекс» о российском законодательстве www.kodeks.ru Тысячи документов будут доступны только после входа в систему, поисковые машины не могут проиндексировать содержимое сайта.

48 Как искать в «скрытом» Web’e

Как искать в «скрытом» Web’e

Как искать в «скрытом» Web’e? Крупнейший каталог скрытых ресурсов – www.completeplanet.com. Он содержит более 100 тыс. ссылок Другие известные каталоги – www.bighub.com www.invisible-web.net.

49 SurfWax

SurfWax

Как искать в «скрытом» Web’e? Крупнейшая поисковая система для скрытых ресурсов – SurfWax www.surfwax.com Подавляющее большинство баз данных, доступных в SurfWax относятся к скрытому Web’у. Особенность: SurfWax – платная система.

50 Представления исследователей

Представления исследователей

Таким образом, Мы рассмотрели представления исследователей о структуре интернета, проанализировали источники информации интернета, изучили модель web-пространства, описали сущность «скрытого» web’a и возможности поиска скрытых ресурсов.

51 Источники информации

Источники информации

Источники информации. Дудихин В.В., Дудихина О.В. Конкурентная разведка в Интернет. – М.: ООО «Изд-во АСТ»: изд-во «НТ Пресс», 2004. Ландэ Д.В. Поиск знаний в INTERNET. Профессиональная работа.: Пер. с англ. – М.: «Вильямс», 2005. © И.М. Печищев.

«Поиск информации в сети Интернет»
Сайт

5informatika.net

115 тем
5informatika.net > Поисковые системы > Поиск информации в сети Интернет.ppt