Интеллектуальные информационные системы (Массель Л.В.)
45__Основные понятия и принципы организации хранилищ данных.
Data Warehouse переводят на русский язык как Хранилище Данных (ХД) или Склад Данных (СД).
ХД - не то же самое, что база данных, хотя реализация может выполняться на основе некоторой СУБД или распределенной СУБД (РаСУБД).
Хранилище данных - логически интегрированный источник данных для СППР и информационных систем руководства.
Назначение ХД - информационная поддержка принятия решений, а не оперативная обработка данных.
ХД ориентированы на определенную предметную область и организуются на основе некоторых подмножеств данных.
ХД являются центром корпоративных информационно-аналитических систем.
В ХД собирается согласованная, обобщенная и подготовленная для принятия решений информация из разных источников, в числе которых могут быть оперативные базы данных фиксирующие ежедневные результаты работы корпорации.
Существуют 2 основных способа пополнения хранилища:
разовая загрузка,
регламентированная по времени (раз в неделю, месяц) пополнение хранилища новой информацией.
В хранилище хранится сгруппированная информация по так называемым “срезам”, необходимая для проведения оперативной аналитической обработки данных с помощью средств (методов), имеющихся в OLAP-системах.
Хранилища данных могут быть организованы с помощью многомерных СУБД, в которых данные представлены гиперкубом, или с помощью реляционных СУБД, где для ускорения операций обработки данных рекомендуют использовать схему организации хранения данных в виде «звезды». В этом случае мы имеем одну большую таблицу фактов, с которой связаны таблицы-размерности.
Data Mart (Витрины данных)
Идея «Витрин Данных» (Data Mart) возникла тогда, когда стало очевидно, что разработка и внедрение корпоративного Хранилища Данных требуют значительных предварительных усилий по анализу деятельности организации и переориентации ее на новые технологии.
Под Витриной Данных понимают специализированное хранилище данных, ориентированное на одно из подразделений организации.
Технология разработки Хранилища Данных.
Выделяют следующие этапы разработки:
1. Анализ процессов и событий, существенных для организации (например, процесс получения информационного продукта и события, влияющие на этот процесс).
2. Анализ данных, используемых организацией (информация об используемых внешних данных и их источниках; о периодичности и форме поступления информации; о внутренних информационных системах организации, их функциях и форматах данных, а также алгоритмах обработки данных, используемых при наступлении события).
3. Разработка логической модели системы (ХД):
определение данных и знаний, необходимых в процессе принятия решения и концептуальное проектирование моделей данных и знаний;
распределение пользователей системы (географическое, организационное, функциональное);
доступ к данным: объем данных, необходимый для анализа, уровень агрегированности данных, источники данных (внешние или внутренние), описание информации, совместно используемой разными подразделениями;
аналитические характеристики системы: измерения данных, основные отчеты, последовательность преобразования аналитической информации, степень предопределенности анализа, существующие или разрабатываемые средства анализа.
4. Выбор аппаратной и программной платформ для реализации системы и разработка программно-технологической архитектуры Хранилища Данных.
При этом следует учесть, что СППР должна обеспечивать пользователю, при необходимости, возможность детализации данных. Руководитель или эксперт, получив интегрированное представление данных или выводы, сделанные на его основе, может затребовать более детальные сведения, уточняющие источник данных или причины выводов (это означает, что надо обеспечить связь СППР не только с Хранилищем Данных, но, и, при необходимости, с соответствующей операционной БД).
При выборе сетевого решения простейшей является архитектура «клиент-сервер». Традиционно Хранилище размещается на сервере (или на серверах), а аналитическая обработка и пользовательский интерфейс поддерживаются клиентом. Если двухуровневая архитектура начинает работать неэффективно из-за перегрузки клиента, вводят трехуровневую архитектуру «клиент-агент-сервер». В такой архитектуре между клиентом и сервером (который называют корпоративным) помещается еще один сервер (сервер приложений), который выполняет роль посредника между корпоративным сервером и клиентом, снижая нагрузку на последний .
5. Заполнение Хранилища Данных.
Выделяют три взаимосвязанные задачи: Сбор Данных (Data Acquisition), Очистка Данных (Data Cleansing) и Агрегирование Данных (Data Concolidation).
Под Сбором Данных понимают процесс организации передачи данных из внешних источников в Хранилище Данных, а также процесс пополнения Хранилища Данных (в отличие от традиционных баз данных, он осуществляется путем «массовой загрузки», или передачи очередного среза («моментального снимка») из операционной базы данных (поэлементные изменения не предусматриваются).
Под Очисткой Данных понимается процесс модификации по ходу заполнения Хранилища: исключение нежелательных дубликатов, восстановление пропущенных данных, приведение данных к единому формату, удаление нежелательных символов (например. управляющих) и унификация типов данных, проверка на целостность.
Под Агрегированием Данных понимается выборка данных из операционной БД и других источников в соответствии с метаданными. Эта задача не может быть полностью решена автоматически.
ХД содержит непротиворечивые консолидированные исторические данные крупной компании, отражающие ее деятельность за достаточно большой период времени, а так же данные о внешней среде.
Информация в ХД не является полностью нормализованной.
Структура: оперативная БД, консолидированная информация по подразделению (может отсутствовать), консолидированная информация для руководителей.
Анализ данных базируется на следующих технологиях:
Интерактивная аналитическая обработка данных (OLAP)
Глубинный анализ данных (data mining)
Визуализация данных
Структура ХД:
Таблица фактов – содержит сведения об объектах или событиях, совокупность которых будет анализироваться в дальнейшем. Типы фактов:
факты, связанные с транзакциями. Они основаны на отдельных событиях (типичными примерами которых являются телефонный звонок или снятие денег со счета с помощью банкомата);
факты, связанные с «моментальными снимками». Основаны на состоянии объекта (например, банковского счета) в определенные моменты времени, например на конец дня или месяца. Типичными примерами таких фактов являются объем продаж за день или дневная выручка;
факты, связанные с элементами документа. Основаны на том или ином документе (например, счете за товар или услуги) и содержат подробную информацию об элементах этого документа (например, количестве, цене, проценте скидки);
факты, связанные с событиями или состоянием объекта. Представляют возникновение события без подробностей о нем (например, просто факт продажи или факт отсутствия таковой без иных подробностей).
Таблица измерений содержит неизменяемые (редкоизменяемые данные).
Особенности:
Не OLAP и не готовая программа
Построение OLAP – задача не только ИТ
Сложность загрузки данных
Определение цели использования данных должно диктовать схему загрузки информации в хранилище
Большой период создания
46__Классификация искусственных нейронных сетей. Самоорганизующиеся карты Кохонена.
ИНС может рассматриваться как направленный граф с взвешенными связями, в котором искусственные нейроны являются узлами. По архитектуре связей ИНС могут быть сгруппированы в два класса сети прямого распространения, в которых графы не имеют петель, и рекуррентные сети, или сети с обратными связями (см. рис 2.4).
В наиболее распространенном семействе сетей первого класса, называемых многослойным перцептроном, нейроны расположены слоями и имеют однонаправленные связи между слоями. Сети прямого распространения являются статическими в том смысле, что на заданный вход они вырабатывают одну совокупность выходных значений, не зависящих от предыдущего состояния сети. Рекуррентные сети являются динамическими, так как в силу обратных связей в них модифицируются входы нейронов, что приводит к изменению состояния сети.
Многослойные нейронные сети прямого распространения. Базовая архитектура.
Многослойная нейронная сеть прямого распространения (МНСПР) (multilayer feedforward network) или многослойный перцептрон (multilayer perceptron - MLP) состоит из набора нейронов. Этот набор логически организован в два или более слоев. Первый слой называется входным, последний слой называется выходным, каждый из этих слоев содержит по крайней мере один нейрон.
Словосочетание «прямое распространение» обозначают то, что информация в сети распространяется в прямом направлении, последовательно от входного слоя к выходному. Количество нейронов в слоях может быть различно. Обобщенная архитектура такой сети представлена на рисунке
Данный рисунок изображает МНСПР с двумя скрытыми слоями. Каждый нейрон изображен в виде круга, связи в виде стрелок. Каждая из связей имеет свой весовой коэффициент. Нейроны входного слоя, также как и выходного не производят никаких операций над входными значениями и являются чисто гипотетическими.
Характеристики полученной нейронной сети зависят от весовых коэффициентов связей и активационных функций нейронов f.
Карты Кохонена. Архитектура
Архитектура этой сети была создана финским исследователем Тео Кохоненым [11]. На рис. 2.7. представлена обобщенная архитектура самоорганизующейся карты Кохонена (self-organizing map - SOM) – это двухслойная сеть, хотя иногда ее называют трехслойной, из-за того, что входы подвергаются нормализации.
|
Рисунок 2.7. Обобщенная архитектура самоорганизующейся карты Кохонена. |
Выходной слой может быть одномерным или двумерным. На рис. 2.8. представлена самоорганизующаяся карта Кохонена размером 2х2.
Выходной слой 2х2
Нормализованные входы
Процедура нормализации входов
Реальные входы
|
Рисунок 2.8. Самоорганизующаяся карта Кохонена размером 2х2. |
Выходной слой карты состоит из так называемых нейронов Кохонена. Каждый из этих нейронов работает по следующей схеме:
, (2.13)
где - i-ый нормализованный вход выходного нейрона,
- вес i-го входа,
- синтетический вход,
- вес синтетического входа.
Алгоритмы обучения
Обучение сетей этого типа проводится по так называемому алгоритму «победитель забирает все» (разновидность алгоритма обучения «без учителя»). В отличие от других алгоритмов, в которых изменяются веса всех нейронов, в этом, нейроны «соревнуются» за то, чтобы вес был изменен именно у него. В некоторых вариантах алгоритма обучения веса изменяются не только у победившего нейрона, но и у соседних с ним нейронов. Обычно для нормализации входных векторов применятся два следующих алгоритма:
Первый способ, «обычный»:
,
,
.
Недостаток: входные вектора типа (-2, 1, 3) и (-10, 5 , 15) не будут различаться между собой.
Второй способ, “нормализация по оси Z”:
,
Существует несколько вариантов алгоритмов обучения сетей Кохонена. Далее приводятся два наиболее часто применяемых из них:
Первый алгоритм обучения (аддитивный), предложенный Кохоненом:
где -вектор весов победившего нейрона в момент времени t,
-вектор весов в момент времени t+1,
- входной вектор,
- коэффициент скорости обучения;
=[0,1].
Второй алгоритм обучения (субтрактивный), или алгоритм Видроу-Хофа:
47__Модель искусственного нейрона. Активационная функция.
Исходя из своих исследований, Маккалок и Питтс выдвинули гипотезу, что нейроны можно упрощенно рассматривать как устройства, оперирующие двоичными числами, получившая впоследствии название «модель нейрона Маккалока-Питтса» :
где, - выход нейрона;
- i-ый входной сигнал;
- вес i-ой связи;
- пороговое значение;
- количество входных сигналов.
Модель искусственного нейрона
Первая модель искусственного нейрона была предложена Маккалоком и Питтсом. С тех пор она претерпела не очень большие изменения – изменились лишь активационные функции.
Активационной функцией нейрона называется нелинейная функция, которая берется от взвешенной суммы входных значений.
Ранние модели нейронов, в том числе и первый перцептрон, имели большей частью простую пороговую функцию (функцию Хевисайда):
(2.4)
Но как было отмечено выше, у нее существуют определенные недостатки, главным из которых является невозможность проведения классификации на линейно неразделимом множестве входных векторов.
В настоящее время преимущественно используются, так называемые сигмоидные (sigmoid) функции. Они получили свое название из-за формы кривой, которая напоминает форму английской буквы s. Наиболее широко используемой функцией является логистическая (logistic) активационная функция:
(2.5)
Одним из преимуществ этой функции является простота нахождения производной, которая используется практически во всех современных алгоритмах обучения МНСПР, наиболее распространенной на сегодняшний день архитектуры.
Иногда используются другие активационные функции, такие как гиперболический тангенс:
(2.6)
В большинстве случаев, однако, точная форма функции не оказывает значительного влияния на качество функционирования сети, хотя значительно влияет на скорость ее обучения. Относительно малое значение производной логистической функции заметно замедляет обучение при использовании базового варианта алгоритма обратного распространения ошибок. Предлагаются две альтернативные активационные функции (приведены вместе с производными):
,
(2.7)
,
(2.8)
Лучшей активационной функцией является гиперболический тангенс.
48__Блок-схема и основные операторы генетических алгоритмов.
Основателем генетики считают Менделя (3 закона: однородность, расщепления, независимость комбинаций). Хромосомы состоят из генов, которые заменяются 0 и 1. в основе наследования лежат гены (не делимые и не смешанные), в основе наследования лежит мутация. Факторы, которые меняют генетический состав природной популяции:
-
-
-
мутационный процесс – после 1ого скрещивания наступает условное равновесие, до наступления новых мутаций;
изоляция – чем меньше общество, тем вероятней проявление;
волны жизни;
отбор.
-
-
Ген – реально существующая, независимая, комбинирующая и расщепляющаяся при скрещивании единица наследственности или самостоятельно наследующийся наследственный фактор. Генотип – совокупность генов (внутри признаки). Фенотип – совокупность всех внешних факторов (внешние и внутренние признаки).
Морган: основные положения теории:
все признаки организмов находятся под контролем генов;
Гены, элементарные единицы наследования информации, находятся в хромосомах;
гены могут изменяться – мутировать
мутация отдельных генов приводит к изменениям отдельных простых элементов признака
Комплекс генов, содержащихся в наборе хромосом одного организма, образует ГЕНОМ.
Рекомбинация – подразумевается несколько типов перераспределения наследственных факторов:
рекомбинация хромосомных и нехромосомных генов
рекомбинация целых, не гомологичных хромосом
рекомбинация участков хромосом, представленных непрерывными молекулами ДНК. 3 разбивается на типы, один из типов называется кроссинговер.