Косметика для всех

Name: 29-36
Item: 29-36
Author: Sergzof

Ваш Консультант Татьяна 8-915-979-47-13
Стать консультантом очень легко

Меню сайта

Наш опрос

Статистика

Онлайн всего: 1

Гостей: 1

Пользователей: 0

Главная » 2013 » Июнь » 20 » 29-36

1:28 AM

29-36

29. Свойства запросов. Хранилища данных: назначение, модели, архитектура.

Причины появления Хранилищ данных. Отличительная особенность Хранилищ. Основные требования к данным, вводимым в Хранилище. Задачи построения Хранилища.

Архитектура Хранилищ данных: оперативные источники, оперативный склад данных, основное хранилище данных, инструменты доступа пользователям, ETL-средства. Многомерное моделирование в виде ненормализованных баз данных: схема «Звезда», схема «Снежинка», ее преимущества и недостатки. Характеристика таблицы фактов и таблиц измерений. Связи в ненормализованных базах данных.

Многомерные системы управления базами данных. Особенности организации многомерных систем управления базами данных (МСУБД). Достоинства и недостатки МСУБД.

Исторические данные. Формирование исторических данных. Статичность (неизменность) исторических данных. Свойства исторических данных. Агрегированные данные.

Прогнозируемые данные. Изменяемость прогнозируемых данных. Прогнозирование и моделирование. Различие между оперативными и прогнозируемыми данными. Общезначимость оперативных данных.

Сравнительные характеристики МСУБД и РСУБД.

Основные понятия в многомерной модели данных: измерение (Dimension) или рубрика, ячейка (Cell) или показатель (Measure). Определение показателя.

Гиперкубические и поликубические модели данных. Два основных варианта организации данных и их отличия.

Операции манипулирования Измерениями. Формирование «Среза» (Slice). Операция «Вращение» (Rotate). Отношения между измерениями. Операция Агрегации (Drill Up). Операция Детализации (Drill Down).

Заполнение хранилища данными. Использование инструментального средства Data Transformation Services для заполнения хранилища данными. Выполнение этапов заполнения хранилища в DTS: описание источников данных; описание потоков данных; описание преобразования данных; запуск DTS; просмотр таблиц в Query Analyzer.

Cоздание многомерного хранилища данных (куба).

Инструментальное средство Analysis Manager. Выполнение этапов построения коллективных и локальных кубов: описание измерений; описание таблицы фактов; построение вычисляемых выражений.
Технология аналитической обработки данных (OLAP).

Назначение и особенности технологии OLAP. Признаки технологии OLAP. 12 правил оценки средств OLAP. Виды запросов к данным, содержащимся в Хранилище, выполняемые с помощью OLAP технологий. Состав OLAP-системы. Характеристики и назначение компонентов OLAP-системы.
Варианты реализации OLAP. Понятия MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP), HOLAR (Hybrid OLAR). Преимущества и недостатки этих способов. Оперативная аналитическая обработка (OLAP) и интеллектуальный анализ данных (ИАД) - две составные части процесса поддержки принятия решений. Перспективы объединения этих двух видов анализа.
Клиентские компоненты получения OLAP-срезов кубов: Analysis Manager; получение сводных таблиц Excel; создание сводных диаграмм с данными OLAP-кубов.

Создание и редактирование локальных OLAP-кубов клиентом с помощью Microsoft Excel.

Клиент Microsoft Data Analyzer.

Возможности Microsoft Data Analyzer. Область применения Microsoft Data Analyzer. Обеспечение соединения с кубом. Создание отображений куба. Средства анализа данных: навигации, фильтрации и сортировки, бизнес-центр, редактор вычисляемых измерений для построения многомерных запросов, поиск схожих значений.

Средства публикации и создания отчетов: публикации по электронной почте, на слайде, в виде HTML-страниц, в виде рабочих тетрадей Excel или PivotTables.

Аналитические возможности Analysis Manager.

Мастер построения модели DataMining. Выбор критерия для анализа. Построение дерева решений. Изменение измерений. Пересчет модели.

Построение модели кластеризации. Изменение измерений и критериев оценки.

Интеграция Web-технологии и технологии Хранилища.

Цель интеграции Web-технологии и Хранилища. Преимущества интеграции Internet/Intranet технологии и технологии Хранилищ.

Особенности информационного сервера.

Особенности работы Web-клиента. Публикация сводной таблицы на Web, клиентские манипуляции со сводной Web–таблицей, создание Web-страниц со сводными диаграммами.

Специализированные средства представления отчетности.

Инструменты запросов или генераторы отчетов (Юниверсы) к OLAP-данным. Средства доступа и генерация отчетов BusinessObject. Анализ данных в Юниверсе средствами BusinessObject: получение доступа к данным, выбор переменных Юниверса для анализа, замена иерархии переменных, ввод в Юниверс расчетных переменных, создание отчетов с разрывами по Мастер-переменной, создание условий выбора, получение Кросс-таблиц (срезов), транспонирование Кросс-таблиц, установка иерархических срезов, использование фильтрации, построение диаграмм

Итак, хранилища данных - это прежде всего подмостки, где разворачивается действие пьесы под названием DSS. Здесь должна быть представлена информация, отражающая различные направления деятельности компании и пригодная для проведения всестороннего анализа. Хранилище данных выполняет следующие функции:

Основные характреистики хранилища данныхновные характеристики хранилищ данных

Данные организованы по предметным областям. В предметной области собирается вся информация, которая имеет отношение к определенной теме, представляющей интерес для компании. Например, в информационном складе железнодорожной компании предметная область «Поезда» содержит все данные о движении составов, полученные из различных оперативных систем компании.

Данные интегрированы. Данные, поступающие в хранилище из оперативных приложений, необходимо привести к некоторому общему формату. Возможно, потребуется произвести «чистку» и «проверку» оперативной информации, полученной в режиме реального времени. Данные могут быть избыточными, храниться одновременно в нескольких местах, быть синхронизированными или несинхронизированными между собой и иметь противоречивое представление. Например, в отделениях международного банка в разных странах сведения о счетах могут храниться в совершенно различных базах данных и отражать, естественно, состояние дел в национальной валюте. Для проведения общего анализа эти данные необходимо привести к одной и той же валюте и представить единый обменный курс на определенный момент времени. Должны быть устранены такие аномалии, как повторение одного и того же имени у разных данных, использование разных имен для одних и тех же данных и т.д.

Информация в хранилище данных стабильна. Данные загружаются в хранилище и затем предоставляются системе поддержки принятия решений. Важно отметить существенную разницу между оперативными данными и данными, пригодными для анализа. Оперативные, или транзакционные данные - это детальная информация о сделанных заказах, выписанных счетах, денежных переводах. Они предназначены для приложений, которые выполняют повседневные задачи. Поэтому оперативные данные быстро и часто изменяются, существуют в реальном времени (каждое последующее значение заменяет предыдущее), тесно привязаны к конкретному приложению и, как правило, имеют сложный для понимания конечным пользователем формат. В отличие от оперативных данных информация в хранилище меняется тогда, когда этого захочет пользователь. Она загружается в хранилище через определенные промежутки времени и является непротиворечивой благодаря проведенным преобразованиям оперативных данных.

Информация отражает историю изменения данных. Хранилище данных представляет собой последовательность моментальных снимков корпоративной информации через определенные, заранее заданные промежутки времени. Хранилище может пополняться ежедневно, еженедельно или ежемесячно - это определяется в процессе его организации. Главное, что аналитик получает не только абсолютное значение величины, но и возможность проследить историю ее изменения за определенный период времени. Маркетинг-менеджер, например, сможет посмотреть, как шла реализация товара в течение трех лет, анализируя данные о продажах, которые накапливались в хранилище к концу каждой рабочей недели.дляфункции

30. Операции манипулирования измерениями в многомерной модели данных. Киоск данных. Логическая схема систем поддержки принятия решений, использующих киоски данных.

Операции манипулирования Измерениями

Формирование "Среза". Пользователя редко интересуют все потенциально возможные комбинации значений Измерений. Более того, он практически никогда не работает одновременно сразу со всем гиперкубом данных. Подмножество гиперкуба, получившееся в результате фиксации значения одного или более Измерений, называется Срезом (Slice). Например, если мы ограничим значение Измерения Модель Автомобиля = "ВАЗ2108", то получим подмножество гиперкуба (в нашем случае - двухмерную таблицу), содержащее информацию об истории продаж этой модели различными менеджерами в различные годы.

Операция "Вращение". Изменение порядка представления (визуализации)

Измерений (обычно применяется при двухмерном представлении данных) называется Вращением (Rotate). Эта операция обеспечивает возможность визуализации данных в форме, наиболее комфортной для их восприятия. Например, если менеджер первоначально вывел отчет, в котором Модели автомобилей были перечислены по оси X, а Менеджеры по оси Y, он может решить, что такое представление мало наглядно, и поменять местами координаты (выполнить Вращение на 90 градусов).

Отношения и Иерархические Отношения. В нашем примере значения Показателей определяются только тремя измерениями. На самом деле их может быть гораздо больше и между их значениями обычно существуют множество различных Отношений

(Relation) типа "один ко многим".

Например, каждый Менеджер может работать только в одном подразделении, а каждой модели автомобиля однозначно соответствует фирма, которая ее выпускает:

Менеджер ->Подразделение;

Модель Автомобиля ->Фирма-Производитель.

Заметим, что для Измерений, имеющих тип Время (таких как День, Месяц,

Квартал, Год), все Отношения устанавливаются автоматически, и их не требуется описывать.

В свою очередь, множество Отношений может иметь иерархическую структуру - Иерархические Отношения (Hierarchical Relationships). Вот только несколько примеров таких Иерархических Отношений:

День -> Месяц -> Квартал -> Год;

Менеджер -> Подразделение -> Регион -> Фирма -> Страна;

Модель Автомобиля -> Завод-Производитель -> Страна.

И часто более удобно не объявлять новые Измерения и затем устанавливать между ними множество Отношений, а использовать механизм Иерархических Отношений. В этом случае все потенциально возможные значения из различных Измерений объединяются в одно множество. Например, мы можем добавить к множеству значений Измерения Менеджер ("Петров", "Сидоров", "Иванов", "Смирнов"), значения Измерения Подразделение ("Филиал 1", "Филиал 2", "Филиал 3") и Измерения Регион ("Восток", "Запад") и затем определить между этими значениями Отношение Иерархии.

Операция Агрегации. С точки зрения пользователя, Подразделение, Регион,

Фирма, Страна являются точно такими же Измерениями, как и Менеджер. Но каждое из них соответствует новому, более высокому уровню агрегации значений Показателя Объем продаж. В процессе анализа пользователь не только работает с различными Срезами данных и выполняет их Вращение, но и переходит от детализированных данных к агрегированным, т.е. производит операцию Агрегации (Drill Up). Например, посмотрев, насколько успешно в 1995 г. Петров продавал модели "Жигули" и "Волга", управляющий может захотеть узнать, как выглядит соотношение продаж этих моделей на уровне Подразделения, где Петров работает. А затем получить аналогичную справку по Региону или Фирме.

Операция Детализации. Переход от более агрегированных к более

детализированным данным называется операцией Детализации (Drill Down).

Например, начав анализ на уровне Региона, пользователь может захотеть получить более точную информацию о работе конкретного Подразделения или Менеджера.

Проектирование многомерной БД

Данная работа ни в коем случае не посвящена рассмотрению методологии

проектирования МБД, и здесь излагаются только самые общие элементы подхода к процессу и способам проектирования. Тем не менее излагаемый подход не только позволит наиболее полно понять как достоинства, так и ограничения многомерного подхода, но и послужит хорошей основой для быстрого построения систем.

Определение вопросов

Основное назначение МСУБД - реализация систем, ориентированных на

динамический, многомерный анализ исторических и текущих данных, анализ

тенденций, моделирование и прогнозирование будущего. Причем такие системы в большой степени ориентированы на обработку произвольных, заранее не регламентированных запросов, и при их разработке фактически отсутствует этап проектирования регламентированных пользовательских приложений (наиболее ответственный и трудоемкий в традиционных оперативных системах).

Проектирование МБД обычно начинается с определения вопросов (табл. 4), с

которыми конечные пользователи хотели бы обратиться к системе. Причем на этом этапе интерес представляют даже не сами тексты вопросов, а понимание того, о каких личностях, местах, событиях и объектах в них спрашивается.

Киоски данных содержат подмножество корпоративных данных и строятся для отделов или подразделений внутри организации. Киоски данных часто строятся силами самого отдела и охватывают конкретный аспект, интересующий сотрудников данного отдела. Киоск данных может получать данные из корпоративного хранилища (зависимый киоск) или, что более распространено, данные могут поступать непосредственно из оперативных источников (независимый киоск).

Вопр31

Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки. Очень часто информационно-аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения, оказываются чрезвычайно просты в применении, но жестко ограничены в функциональности. Такие статические системы называются в литературе Информационными системами руководителя (ИСР), или Executive Information Systems (EIS) [3]. Они содержат в себе предопределенные множества запросов и, будучи достаточными для повседневного обзора, неспособны ответить на все вопросы к имеющимся данным, которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая серия вопросов. Сфера детализированных данных. Это область действия большинства систем, нацеленных на поиск информации. В большинстве случаев реляционные СУБД отлично справляются с возникающими здесь задачами. Общепризнанным стандартом языка манипулирования реляционными данными является SQL. Информационно-поисковые системы, обеспечивающие интерфейс конечного пользователя в задачах поиска детализированной информации, могут использоваться в качестве надстроек как над отдельными базами данных транзакционных систем, так и над общим хранилищем данных.

Сфера агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами систем оперативной аналитической обработки данных (OLAP) [11, 10, 6]. Здесь можно или ориентироваться на специальные многомерные СУБД [6], или оставаться в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в БД звездообразного вида, либо агрегация информации может производиться на лету в процессе сканирования детализированных таблиц реляционной БД.

Сфера закономерностей. Интеллектуальная обработка производится методами интеллектуального анализа данных (ИАД, Data Mining) [19, 25], главными задачами которых являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.

В основе концепции OLAP лежит принцип многомерного представления данных. В 1993 году в статье [11] E. F. Codd рассмотрел недостатки реляционной модели, в первую очередь указав на невозможность "объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом", и определил общие требования к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик.

Вопр32

Хранилищем данных (Data Warehouse) обычно называют базу данных, основное назначение которой - выполнение аналитических запросов на выбор данных. Хранилища данных могут быть и реляционными, и многомерными. Он же сформулировал и основные требования к хранилищам данных:

поддержка высокой скорости получения данных из хранилища;

поддержка внутренней непротиворечивости данных;

возможность получения и сравнения так называемых срезов данных (slice and dice);

наличие удобных утилит просмотра данных в хранилище;

полнота и достоверность хранимых данных;

поддержка качественного процесса пополнения данных.

Выполнить все перечисленные требования в рамках одного и того же продукта зачастую не удается. Поэтому для реализации хранилищ данных обычно используется несколько продуктов, одни их которых представляют собой собственно средства хранения данных, другие - средства их извлечения и просмотра, третьи - средства их пополнения и т. д.

Отметим, что при проектировании хранилищ всегда делаются априорные предположения о характере взаимозависимостей размещаемых в них данных, и польза от применения хранилища данных при принятии управленческих решений во многом зависит от правильности этих предположений.

Таможенная статистика внешней торговли является отраслью экономической статистики, предусматривающей сбор, обработку и анализ данных о перемещении товаров через таможенную границу. Таможенная статистика представляет информацию о состоянии внешней торговли Российской Федерации, ее торгового и платежного балансов. С ее помощью осуществляется контроль за поступлением в федеральный бюджет таможенных платежей, оценка состояния правопорядка в таможенной сфере и т.д. Ведение таможенной статистики - одна из функций таможенных органов. Она осуществляется в соответствии с ТК, Положением о ГТК, утвержденным указом Президента РФ. В настоящее время сбор, обработка и передача данных об экспортно-импортных операциях осуществляется по четырехзвенной системе: таможенные посты; таможни; региональные таможенные управления; ГТК и его Главный научно-информационный вычислительный центр (ГНИВЦ). Таможенная статистика ведет учет экспортных и импортных товаров и в стоимостном выражении. Учет экспортируемых товаров производится по ценам ФОБ или франко-граница страны-продавца, и импортируемых- по ценам СИФ или франко-граница страны-импортера.

Воп33

Документальные системы служат для работы с документами, в которых информация хранится в виде текстовых документов (статьи, книги, рефераты, тексты законов) и графических объектов, снабженная тем или иным формализованным аппаратом поиска. Цель системы, как правило, – выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запросе условиям.

При документальном поиске потребитель сам извлекает из документа интересующие его факты и идеи.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания документов в виде поискового предписания (ПП) и поисковых образов документов (ПОД). В процессе информационного поиска определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД и ПП. Решение о выдаче или не выдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данная ИПС определяет степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может быть задан явно или неявно и базируется на понятии формальной релевантности ПОД и ПП.

Что такое информация?

.2 Что такое данные?

1.3 Что такое предметная область?

1.4 Схема преобразования информации в данные

1.5 Что такое ИС?

2. Информационный обмен в ИС.

2.1 Что такое информационная деятельность?

2.2 Что понимается под системой информационного обмена?

2.3 Разновидности систем обмена.

2.4 Последовательность процессов преобразования информации в ИС.

2.5 Что такое информационная потребность?

2.6 Какие функции выполняет субъект основной деятельности?

2.7 Кто понимается под потребителем информации?

Релева́нтность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа[1]. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.

Пертине́нтность (лат. pertineo — касаюсь, отношусь) — соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации.

Критерий смыслового соответствия - формальное правило, по которому поисковые образы документа и запроса считаются совпадающими или несовпадающими.

Вопр 35

Информационно-поисковый язык (ИПЯ) — искусственный язык, представляющий совокупность средств для описания формальной и содержательной структуры для поиска (путем индексирования) по запросу пользователя.

Рубрикатор разработан в соответствии с "Положением о лингвистическом обеспечении ГАСНТИ" (М.: ГКНТ СССР, 1986), ГОСТ 7.49-84 "СИБИД, Рубрикатор ГАСНТИ, Структура, правила использования и ведения" и ГОСТ 7.77-"СИБИД. Межгосударственный рубрикатор научно-технической информации. Структура, правила использования и ведения. Рубрикатор предназначен для:

определения тематического охвата информационных служб, систем, ресурсов;

формирования информационных массивов и органах НТИ с целью обмена;

систематизации материалов в информационных изданиях;

индексирования документов и поиска их по рубрикам;

адресации запросов в информационных сетях;

выполнения нормативной функции при разработке и совершенствовании локальных рубрикаторов; выполнения функции языка-посредника между другими классификационными системами (УДК, МПК, ББК и др.), используемыми в автоматизированных информационных системах.

В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются :

* словарь лексических единиц;

* правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного

языка на ИПЯ; * правила построения ИПЯ.

Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание. Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).