Поисковые системы
<<  Персональный поиск Поисковая оптимизация сайтов  >>
Извлечение объектов из поисковых запросов
Извлечение объектов из поисковых запросов
ООО «Мэйл.Ру»
ООО «Мэйл.Ру»
Справочники
Справочники
Для чего нужны объекты
Для чего нужны объекты
Индексация
Индексация
Какие решения существуют
Какие решения существуют
Особенности поисковых запросов
Особенности поисковых запросов
Основные предположения
Основные предположения
Общая структура метода
Общая структура метода
Фаза извлечения шаблонов
Фаза извлечения шаблонов
Исходные данные
Исходные данные
Извлечение начальных объектов
Извлечение начальных объектов
Извлечение кандидатов
Извлечение кандидатов
Взвешивание кандидатов
Взвешивание кандидатов
Сериал
Сериал
Фаза извлечения объектов
Фаза извлечения объектов
Лог поисковых запросов
Лог поисковых запросов
Сохраняем все объекты
Сохраняем все объекты
Рассчитываем вес для каждого объекта
Рассчитываем вес для каждого объекта

Метод оценки результата
Метод оценки результата
Результаты
Результаты
Достоинства и недостатки
Достоинства и недостатки
Спасибо
Спасибо
Презентация «Объект запроса». Размер 1331 КБ. Автор: Андрей Калинин.

Загрузка...

Объект запроса

содержание презентации «Объект запроса.pptx»
СлайдТекст
1 Извлечение объектов из поисковых запросов

Извлечение объектов из поисковых запросов

Извлечение объектов из поисковых запросов. Михаил Обухов, Михаил Долинин.

2 ООО «Мэйл.Ру»

ООО «Мэйл.Ру»

ООО «Мэйл.Ру». Яхрома. 15-18 февраля 2012 г. Что такое объекты? ISBN: 978-1405187848. Гост 2.001-93. Названия организаций Имена людей Названия должностей Адреса Названия программ и т.д.

3 Справочники

Справочники

Справочники. Парсер запросов. Детский нафтизин инструкция. Свойство. Значение. Класс. Лекарственное средство. Название. Навтизин. Международное название. Нафазолин. Дозировка. Детская. … …

4 Для чего нужны объекты

Для чего нужны объекты

Для чего нужны объекты? Классификация поисковых запросов Вопросно-ответные задачи Переформулировки Индексация Обогащение поисковых запросов …

5 Индексация

Индексация

Парсинг запросов. Индексация. Задача. *NEX – Named Entity eXtraction.

6 Какие решения существуют

Какие решения существуют

Какие решения существуют? Машинное обучение Классификаторы (Na?ve Bayes, ME Models, …) Последовательные модели (HMM, CRF, …) Системы основанные на правилах Ручное составление Автоматическое Использование онтологий Wikipedia, DbPedia Imdb.

7 Особенности поисковых запросов

Особенности поисковых запросов

Особенности поисковых запросов. Малая длина (в среднем 3 слова) Слабая грамматическая структура Не являются текстом на ЕЯ Отражают потребности пользователей.

8 Основные предположения

Основные предположения

Основные предположения. Объекты одного типа встречаются в одинаковых контекстах Объект является самостоятельным поисковым запросом.

9 Общая структура метода

Общая структура метода

Общая структура метода.

10 Фаза извлечения шаблонов

Фаза извлечения шаблонов

Фаза извлечения шаблонов.

11 Исходные данные

Исходные данные

Фаза извлечения шаблонов. Исходные данные: Лог поисковых запросов Начальный список шаблонов (1-2 шаблона) Результат: список шаблонов с весами.

12 Извлечение начальных объектов

Извлечение начальных объектов

Шаг 1:извлечение начальных объектов. Для каждого запроса из лога Пробуем извлечь объект Если получилось, сохраняем Очистка извлеченных объектов Не встречающихся как самостоятельный запрос. Начальные шаблоны должны быть точными! Смотреть <название> Смотреть сериал <название> \d+ сезон \d+ серия онлайн бесплатно в хорошем качестве.

13 Извлечение кандидатов

Извлечение кандидатов

Шаг 2: извлечение кандидатов. Для каждого начального объекта Из каждого запроса, где он встречается Создаем шаблон. Смотреть сериал счастливы вместе онлайн серия 2. Смотреть сериал <название> онлайн серия \d+.

14 Взвешивание кандидатов

Взвешивание кандидатов

Шаг 3: Взвешивание кандидатов. Рассчитываем вес для каждого кандидата Удаляем кандидатов имеющих низкий вес. *Доверенный – объект извлеченный N и более различными шаблонами.

15 Сериал

Сериал

Сериал (.+) \d+ сезон смотреть онлайн бесплатно:0.95 сериал (.+) \d+ сезон \d+ серия смотреть онлайн:0.93 (.+) \d+ сезон смотреть онлайн:0.90 … (.+) смотреть:0.07 скачать (.+):0.03 …

16 Фаза извлечения объектов

Фаза извлечения объектов

Фаза извлечения объектов.

17 Лог поисковых запросов

Лог поисковых запросов

Фаза извлечения объектов. Исходные данные: Лог поисковых запросов Список шаблонов (полученный ранее) Результат: список объектов с весами.

18 Сохраняем все объекты

Сохраняем все объекты

Шаг 1: извлечение кандидатов. Для каждого шаблона из списка Сохраняем все объекты, которые он может извлечь Очистка извлеченных объектов Не встречающихся как самостоятельный запрос Не частотные объекты Содержащие слова из списка шаблонов.

19 Рассчитываем вес для каждого объекта

Рассчитываем вес для каждого объекта

Шаг 2: Взвешивание объектов. Рассчитываем вес для каждого объекта в списке Удаляем объекты имеющие низкий вес.

20

21 Метод оценки результата

Метод оценки результата

Метод оценки результата. Точность первых N объектов (10, 50, 100 …) Точность случайной выборки (100).

22 Результаты

Результаты

Результаты: Класс. @10. @50. @100. Средняя точность. Фильмы. 100%. 94.2%. 89.4%. 81.6%. Рецепты. 100%. 96.1%. 90.7%. 84.3%. Книги. 94.3%. 80.9%. 74.3%. 68.7%.

23 Достоинства и недостатки

Достоинства и недостатки

Достоинства и недостатки. Достоинства Простая реализация Масштабируемость Хорошая точность Недостатки Требует ручного вмешательства (начальный список шаблонов) Требует задания порогов.

24 Спасибо

Спасибо

Спасибо! Вопросы? Михаил Обухов obuhov@corp.mail.ru Михаил Долинин dolinin@corp.mail.ru.

«Объект запроса»
Сайт

5informatika.net

115 тем
5informatika.net > Поисковые системы > Объект запроса.pptx