Технологии анализа данных (Text Mining, Data Mining)
Технологии анализа данных (Text
Mining, Data Mining)
Автор: Казьмина Анастасия, 4 курс.
Руководитель: Баяндин Николай Иванович.
Образовательное
учреждение:
Федеральное государственное бюджетное учреждение высшего профессионального
образования "Московский государственный университет экономики, статистики
и информатики (МЭСИ)", г. Москва
Кто владеет информацией - тот владеет миром. В наше время
трудно переоценить значение аналитики и мониторинга социальных медиа. Для
быстрого и успешного развития бизнеса и эффективного продвижения в интернет,
эти этапы просто необходимы.
На сегодняшний день, всё большую популярность приобретают
задачи, связанные с получением и накоплением новых знаний путём анализа ранее
полученной информации. Возникла необходимость в создании больших хранилищ
данных и систем поддержки принятия решений.
Рассмотрим подробнее технологию анализа данных.
Наиболее перспективные направления анализа данных:
· анализ текстовой информации
· интеллектуальный анализ данных
1. Анализ
текстовой информации Text Mining
Анализ структурированной информации, хранящейся в базах
данных, требует предварительной обработки: проектирования БД, ввод информации
по определенным правилам, размещение ее в специальных структурах (например,
реляционных таблицах) и т.п. Текстовые документы практически невозможно
преобразовать в табличное представление без потери семантики текста и отношений
между сущностями. По этой причине такие документы хранятся в БД без
преобразований, как текстовые поля (BLOB-поля). В это же время в тексте скрыто
огромное количество информации, но ее неструктурированность не позволяет
использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы
анализа неструктурированного текста (Text Mining).
Определение Text Mining: Обнаружение знаний в тексте - это
нетривиальный процесс обнаружения действительно новых, потенциально полезных и
понятных шаблонов в неструктурированных текстовых данных.
"Неструктурированные текстовые данные" - набор документов,
представляющих собой логически объединенный текст без каких-либо ограничений на
его структуру (web-страницы, электронная почта, нормативные документы).
Процесс анализа текстовых документов можно представить как
последовательность нескольких шагов:
. Поиск информации. В первую очередь необходимо понять, какие
документы нужно подвергнуть анализу плюс обеспечить доступ. Пользователи могут
определить набор анализируемых документов самостоятельно - вручную.
. Предварительная обработка документов. Выполняются
необходимые преобразования с документами для представления их в нужном виде.
Удаление лишних слов и придание тексту более строгой формы.
. Извлечение информации. Выделение ключевых понятий для
анализа.
. Применение методов Text Mining. Извлекаются шаблоны и
отношения, имеющиеся в текстах.
. Интерпретация результатов. Представлении результатов на
естественном языке, или в их визуализации в графическом виде.
Предварительная
обработка документа
Приемы удаления неинформативных слов и повышения строгости
текстов:
Удаление стоп-слов. Стоп-словами называются слова, которые
являются вспомогательными и несут мало информации о содержании документа.
Л-граммы это альтернатива морфологическому разбору и удалению
стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения
количества неинформативных слов;
Приведение регистра. Этот прием заключается в преобразовании
всех символов к верхнему или нижнему регистру.
Наиболее эффективно совместное применение всех методов.
Задачи Text
Mining
Классификация (classification) - определение для каждого
документа одной или нескольких заранее заданных категорий, к которым этот
документ относится, автоматическое выявление групп семантически похожих
документов среди заданного фиксированного множества
Автоматическое аннотирование (summarization) сокращение
текста и сохранение его смысла. Результат включает в себя наиболее значимые
предложения в тексте.
Извлечения ключевых понятий (feature extraction) -
идентификация фактов и отношений в тексте (имена существительные и
нарицательные: имена и фамилии людей, названия организаций и др.).
Навигация по тексту (text-base navigation) перемещение по
документам по определённым темам и терминам. Это выполняется за счет
идентификации ключевых понятий и некоторых отношений между ними.
Анализ трендов позволяет идентифицировать тренды в наборах
документов на какой-то период времени.
Поиск ассоциаций. В заданном наборе документов идентифицируются
ассоциативные отношения между ключевыми понятиями.
Существует достаточно большое количество разновидностей
перечисленных задач, а также методов их решения. Это еще раз подтверждает
значимость анализа текстов.
Примеры средства анализа текстовой информации:
Средства Oracle - Oracle Text2.
Средства от IBM - Intelligent Miner for Text1
Средства SAS Institute - Text Miner
Интеллектуальный
анализ данных Data Mining
Интеллектуальный анализа данных (англ. Data mining, другие
варианты перевода - "добыча данных", "раскопка данных") -
обнаружение неявных закономерностей в наборах данных.
Интеллектуальный анализ данных может проводиться с помощью
программных продуктов следующих классов:
· специализированных
"коробочных" программных продуктов для интеллектуального анализа;
· математических пакетов;
· электронных таблиц (и
различного рода надстроек над ними);
· других программных
продуктов.
Задачи интеллектуального анализа данных:
Задача классификации определение категории и класса каждому
объекту.
Задача регрессии - поиск шаблонов для определения числового
значения.
Задача прогнозирования новых значений на основании имеющихся
значений числовой последовательности. Учитываются тренды.
анализ text data mining
Задача кластеризации - деление множества объектов на группы
(кластеры) с похожими параметрами. При этом, в отличие от классификации, число
кластеров и их характеристики могут быть заранее неизвестны и определяться в
ходе построения кластеров исходя из степени близости объединяемых объектов по
совокупности параметров.
Задача определения взаимосвязей - определение часто
встречающихся наборов объектов среди множества подобных наборов.
Анализ последовательностей - обнаружение закономерностей в
последовательностях событий.
Анализ отклонений - поиск событий, отличающихся от нормы.
По способу решения задачи интеллектуального анализа можно
разделить на два класса: обучение с учителем (от англ. supervisedlearning) и
обучение без учителя (от англ. unsupervisedlearning). В первом случае требуется
обучающий набор данных, на котором создается и обучается модель
интеллектуального анализа данных. Готовая модель тестируется и впоследствии
используется для предсказания значений в новых наборах данных. Во втором случае
целью является выявление закономерностей имеющихся в существующем наборе
данных.
Вывод
Интеллектуальный анализ данных является одним из наиболее
актуальных и востребованных направлений прикладной математики. Современные
процессы бизнеса и производства порождают огромные массивы данных, и людям
становится все труднее интерпретировать и реагировать на большое количество
данных, которые динамически изменяются во времени выполнения. Нужно извлекать
максимум полезных знаний из многомерных, разнородных, неполных, неточных,
противоречивых, косвенных данных. А главное, сделать это эффективно, если объем
данных измеряется гигабайтами или даже терабайтами.
Важно предохранить людей от информационной перегрузки,
преобразовать оперативные данные в полезную информацию так, чтобы нужные
действия могли быть приняты в нужное время.
Список
используемой литературы и интернет - ресурсов
1. Л.М.
Ермакова Методы классификации текстов и определения качества контента. Вестник
пермского университета 2011. УДК 004.912
2. А.А.
Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод: Технологии анализа
данных. Data
Mining, Visual Mining, Text Mining, OLAP: БХВ-Петербург, 2007
3. <http://megaputer.ru/data_mining.php>
4. <http://www.compress.ru/article.aspx?id=10290&iid=424>
5. <http://www.iteam.ru/publications/it/section_92/article_1448/>
6. <http://www.piter.com/upload/contents/978549807257/978549807257_p.pdf>