Разработка критериев оценки деятельности вуза как метод повышения эффективности применения информационных систем - umotnas.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Название работы Кол-во страниц Размер
Лекция 13. Эффективность информационных систем 1 205.15kb.
Новые возможности применения информационных технологий в открытых... 1 181.64kb.
Лекция: Основные понятия технологии проектирования информационных... 16 2814.61kb.
Концепция модуля оценки и выбора информационных ресурсов для поддержки... 1 61.86kb.
Разработка среднесрочного прогноза развития регионов пфо 1 169.31kb.
Перчень сокращений 1 328.78kb.
Постановление Г. № хут. Комаров о порядке оценки эффективности налоговых... 1 37.31kb.
Постановление Проект № Х. Малоорловский о порядке оценки эффективности... 1 39.92kb.
«Методы оценки эффективности реальных инвестиций. Аналитический метод... 1 212.95kb.
Классификация и кодирование как средства повышения эффективности... 1 209.19kb.
Перспективы развития и применения информационных технологий в системах... 1 103.48kb.
Дипломного проекта специальности 080801 "Прикладная информатика в... 1 19.92kb.
Викторина для любознательных: «Занимательная биология» 1 9.92kb.

Разработка критериев оценки деятельности вуза как метод повышения эффективности применения - страница №1/1

Разработка критериев оценки деятельности ВУЗа как метод повышения эффективности применения информационных систем.
Процессы управления и принятия решений, в случае, когда речь идет об управлении производством, относятся, с точки зрения математического моделирования, к процессам описания больших системам. Разработанные оптимизационные многокритериальные модели, а также разработанные и программно реализованные алгоритмы поиска оптимальных решений появились в шестидесятых годах прошлого века. Однако в одних случаях не хватало производительности вычислительных систем. В других – не были учтены какие-либо существенные факторы. Лишь к середине девяностых стало понятно, что несоответствие подходов к внедрению управленческих систем и задач их внедрения сдерживает успехи в практической реализации моделей и методов. Реинжиниринг бизнес-процессов предприятия своей целью имеет оптимизацию производственного и логистического процессов, ликвидацию противоречий в организационной структуре, сокращение времени исполнения бизнес-процессов на всех этапах. Проведение реинжиниринга целесообразно в ходе комплексной оптимизации организационной схемы и упорядочивания информационных потоков. Иными словами, процесс внедрения автоматизированной системы является двунаправленным.

Название «Автоматизированная система управления» сложилось исторически. Современные АСУ предприятия в идеологическом плане имеют мало общего с АСУ технологическими процессами. Любая система управления предполагает этап моделирования процесса или ситуации и этап отбора оптимального решения из множества возможных решений. Эти этапы в общем случае асинхронны и представлены в разных задачах в разной степени. В задачах организации бизнес-процессов основной эффект от внедрения управленческого математического обеспечения достигается за счет предоставления Лицу Принимающему Решения (ЛПР) исчерпывающих сведений о деятельности предприятия и вариантов решения возникающих задач с анализом последствий. Таким образом, рассматриваемые программные средства являются не столько системами управления в прямом смысле этого слова, сколько автоматизированными системами обработки информации.

Для учебных заведений, специфика которых заключается в разноплановости их деятельности, это замечание особенно существенно, поскольку моделирование такой деятельности затруднительно, а сбор и актуализация информации имеют первоочередное значение.

Основой деятельности ВУЗа является учебный процесс. К традиционными формам можно отнести научно-исследовательскую, хозяйственную, экономическую, административную, воспитательную работу. В последнее время развиваются внебюджетные формы образовательной деятельности. расширяется деятельность по переподготовке кадров. Отраслевым ВУЗам МПС удалось сохранить социальную инфраструктуру, расширена сеть филиалов, существенно возросла номенклатура специальностей, по которым происходит подготовка выпускников. В связи с этим возрастает роль методов подготовки рекомендаций для руководителей, принимающих решения. Представляется целесообразным проведение вариантных прогнозных оценок последствий реализации управленческих решений для более аргументированного обоснования выбора того или иного решения. Превалирующую роль в разработке таких оценок играет информационное обеспечение.

В последние десятилетия были сформулированы и в настоящее время широко используются некоторые математические и эвристические модели и аналогии, которые позволяют существенно упростить формализацию происходящих в бизнес-среде явлений и процессов.

Рассмотрим вкратце элементы, которые могут входить в состав управленческих информационных систем (систем управления).


Моделирование
Методы моделирования можно условно разделить на математические и имитационные. Поскольку учебное заведение – большая система с заведомо нелинейными связями, естественным выбором будет разработка имитационных моделей с последующим вычислительным экспериментом.

Однако для процессов, находящихся на определенных иерархических уровнях системы образования, можно воспользоваться традиционными методами математического моделирования: теорией графов, теорией игр, линейным программированием и т.д. К тому же в дальнейшем будет удобно использовать некоторые понятия, пришедшие из этих дисциплин. Поэтому остановимся в начале на методах математического моделирования.


Математическое моделирование
Всякая моделируемая система подчиняется определенным законам – физическим, биологическим, социальным и т.д. и, в свою очередь, всякая математическая модель такой системы реализуется на основе нескольких базовых принципов.



  1. формулируются вопросы о поведении моделируемой системы;

  2. из множества законов, управляющих поведением системы, отбираются наиболее значимые;

  3. в случае необходимости выдвигаются те или иные предположения и гипотезы о функционировании системы или ее частей;

Во многих случаях именно такая схема разработки моделей дает эффективные (и эффектные) решения. Например, на базе пяти аксиом евклидовой планиметрии можно получить огромное количество выводов о свойствах описываемых объектов. Из весьма ограниченного количества формализованных предпосылок получены содержательные высказывания о предмете рассмотрения в теоретической механике, различных разделах физики, химии и пр.

Однако, несмотря на очевидную привлекательность такого рода моделей, при их применении к сложным системам начинают проявляться и их недостатки.

Прежде всего, говоря об описании бизнес-среды и социальных процессов (о которых речь и пойдет в дальнейшем), можно указать на отсутствие достаточно разработанной непротиворечивой теории, описывающей эти явления, в результате чего выдвижение правдоподобных гипотез может носить выраженный феноменологический характер.




  1. Интуитивно ясно, что описание поведения сложных систем является многопараметрической задачей.

  2. Как правило, на процессы такого рода влияет большое количество случайных факторов, аналитический учет которых затруднен.

  3. Возможность сравнения модели и оригинала существует в момент постановки задачи и в момент получения решения. Промежуточные этапы функционирования системы могут не иметь аналогов в модели этой системы.

  4. Наконец, даже если аналитическая модель сложной системы создана, при наличии большого количества связей, переменных, ограничений может отсутствовать математический аппарат для ее разрешения.


Имитационное моделирование
Альтернативой математическому моделированию является моделирование имитационное. Этот вид моделирования приобрел широкую популярность с ростом производительности вычислительной техники.

Следует отметить, что применимость методов имитационного моделирования ограничена кругом задач практического характера. В отличие от математических моделей, здесь вполне естественным является процесс формализации феноменологических свойств системы, возможно, без их обоснования, лишь на основе наблюдений. Естественно, адекватность имитационного моделирования тем выше, чем больше имеется наблюдений, и чем глубже наше знание моделируемой системы. Именно поэтому разработка имитационной модели предполагает предварительный сбор возможно большего количества информации об объекте. Возможна также декомпозиция моделируемой системы на отдельные блоки, состоящие из сходных процессов и преобразующихся по сходным законам векторов состояний. В терминах информатики, речь идет об объектно-ориентированных моделях.

Хотя методы имитационного моделирования не слишком элегантны, они являются весьма гибким и мощным инструментам. Модель функционирования системы может включать ряд стохастических переменных. В системах управления запасами, например, неопределенности могут быть подвержены как ежегодный спрос, так и срок реализации заказа. Фактически, в больших системах параметры подвержены влиянию разнородных факторов, и, как следствие, в той или иной степени носят стохастический характер.

Используя выборочные данные, можно моделировать поведение системы, Если имитационное моделирование применяется в течение досрочно длительного периода, появляется возможность создавать модели с периодическим циклом или рассчитывать математические ожидания для определенных параметров.

Имитационные модели используются при составлении прогнозов и анализе трудноформализуемых данных в самых различных областях человеческой деятельности, от физики и метеорологии до прогнозировании социально-экономических последствий принятия управленческих решений.

Общая структура учебного заведения МПС, как и самого министерства, имеет ярко выраженный иерархический характер, потому и структура модели будет носить иерархический характер. Можно сказать, что структура высшего учебного заведения является суперпозицией его учебной, административной, финансовой и других структур. Для анализа иерархических структур разработан ряд математических методов (аналитические группировки, матрицы предпочтений и т.д.), позволяющих учитывать как количественные, так и качественные переменные. Такая имитационная модель позволит оценить влияние различных факторов в процессе реализации того или иного сценария, выявит мотивировки вовлеченных в процесс групп (студенты, преподаватели, сотрудники и т.д.).

Моделирование бизнес-среды и социальных процессов требует формализации разнородных данных, обеспечения их полноты и непротиворечивости. Задача управления учебным заведением включает в себя как управление производством в специфической области, так и анализ социальных процессов. Решение таких комплексных проблем требует разработки адекватных оценок динамики изменения объектов и связанных с этими объектами процессов и явлений.

Процесс ранжирования субъектов учебной, экономической, научной или социальной деятельности необходимо начинать с разработки оценочной системы, которая формирует выбор предпочтений. При этом оценочная система должна включать:




  1. критерии, характеризующие объект оценивания;

  2. шкалы, на основе которых оценивается объект по каждому из критериев;

  3. принципы выбора, по которым на основании оценок значений критериев определяется итоговая рейтинговая оценка или формируется совокупность однородных кластеров (классов сходства).

На этапе отбора критериев необходимо выявить наиболее информативные показатели, которые будут адекватно оценивать различия, возникающие при анализе рейтинга. В данном случае под рейтингом подразумевается комплексный показатель, учитывающий несколько критериев, существенным является учет удельного веса каждого конкретного критерия в результирующей оценке. Модель не должна быть обременена излишними параметрами. Наконец, важен правильный выбор аналитического аппарата, адекватного типу используемых данных. Неизбежным является выбор неких эталонных оценок, на основании сравнения с которыми формируются все прочие оценки. Критичным, при использовании подобных методик, является получение корректной экспертной оценки.

Первым этапом в получении количественных оценок является перевод имеющихся данных в цифровой вид.
Значение оцифровки в моделировании
По-видимому, численные методы описания бизнес-среды и социальных процессов могут быть неполны в силу имманентного редукционизма. Действительно, разработка модели предполагает выбор некоторого набора влияющих параметров, затем выбор шкал и перевод их в единицы этих шкал. Перевод параметров моделей в единицы цифровых шкал в дальнейшем мы будем называть оцифровкой.

Тотальный характер перевод практически любого вида информации в цифровой вид принял с распространением компьютеров. Очевидно, цифровой вид представления объекта несет минимум дополнительной информации о нем. Причина заключается в том, что в описательную структуру объекта войдут только сведения, которые были сочтены существенными на этапе его оцифровки, зачастую определяемые субъективным мнением авторов алгоритма оцифровки. При дальнейшей работе с этим описанием представление о предмете будет составляться на базе уже ограниченной информации. Как известно, любая обработка не увеличивает количество информации, более того, без потери общности можно утверждать, что информация при обработке только теряется. В то же время оценка сложных явлений требует всестороннего использования когнитивных способностей человека, зачастую невозможного в применении к редуцированной оцифрованной модели. Из вышесказанного можно, в частности, сделать два вывода:




  1. оцифровка любой системы должна производиться как можно более подробно, в особенности, если предполагается дальнейшая обработка данных. При этом, разумеется, следует найти компромисс между количеством информации, надежностью и стоимостью её хранения. Существенным фактором также являются требования унификации методов хранения данных.

  2. оцифрованная модель содержит не всю информацию об оригинале. Следует определить возможности модели, прежде чем пытаться делать те или иные выводы о поведении или о качествах оригинала.

Очевидно, второй вывод является тривиальным. Он приведен лишь с целью подчеркнуть содержательную часть первого. Отметим, что слово «информация» в данном контексте подразумевает сведения об объекте, хранимые и передаваемые в компьютерном виде представления данных, в виде набора битов.


Роль информационных систем в управлении бизнес-процессами
Какова же роль информационных систем и численных методов в экономической, управленческой, производственно-технологической, социальной сфере, с учетом приведенных соображений? Несмотря на обозначенные трудности, автоматизированные системы управления производством, информационные системы управленческого учета и контроля, системы предоставления информационных услуг являются неотъемлемым атрибутом практически всех современных средних и крупных предприятий или организаций. Для решения задач управления в структуре информационной системы могут присутствовать элементы математической или имитационной модели, соответствующей характеру решаемых проблем. При этом поведение сложной системы есть результирующая взаимодействия большого количества управляющих контуров.

В ряде задач автоматизированного управления имеется возможность строгой формализации проблемы. Например, значительное количество рисков вполне поддаются минимизации при помощи математических методов. Такие модели прежде всего рекомендуются к использованию в качестве инструмента проведения сценарных экспериментов Конечно, к такого рода рискам относятся решения, с успехом выражаемые в численных величинах, например, финансовые риски, производственные расходы и т. д Подчеркнем, однако, что в первую очередь эффективность современных информационных систем связана с накоплением различных данных о деятельности организации, с возможностью дальнейшего анализа таких данных для принятия действенных управленческих решений. В свете этого, наиболее ответственным модулем информационной системы предприятия можно считать подсистемы накопления, актуализации и хранения информации. Фундаментальным являются вопросы метризации (если необходимо) и последующего ранжирования данных. С ними неразрывно связаны проблемы измеримости, ранжирования и сравнения полезности, а также относящиеся к «парадоксу голосования» вопросы, к которым мы вернемся позже.

В любом случае, информационные системы, используемые для анализа бизнес-процессов, выдают либо рекомендации по принятию тех или иных решений, либо информацию, способствующую принятию таких решений. Последнее слово остается за Лицом, Принимающим Решение (ЛПР), если пользоваться терминологией теории принятия решений.
Процесс принятия решения
Можно представить такую схему принятия решения с применением информационных систем:

Рис. 1


Этап «Моделирование ситуации» обозначен пунктиров, поскольку, в силу сказанного выше, не всегда представляется возможным создание адекватной модели процесса, и, как следствие, не всегда возможно введение в состав автоматизированной системы управления соответствующего программного модуля. Подчеркнем, что в данном контексте речь идет именно о математическом или имитационном моделировании, а не о семантической модели типа «сущность-модель» (ERM) Чена или аналогичных моделях в аспекте архитектуры ARIS.

Этап, обозначенный на схеме словами «Обработка информации», может включать в себя использование огромного количества разнообразных методик обработки данных. Это и многомерный анализ на базе OLAP-технологии, анализ данных на основе деревьев решений, анализ данных на основе аппарата искусственных нейронных сетей, самоорганизующихся карт Кохонена, применение генетических алгоритмов, аппарата нечеткой логики и других технологий. Все эти методики имеют одну общую черту: они призваны подготовить данные и привести их к приемлемому для человека виду. Результатом работы на этом этапе является структурированная информация, возможно, снабженная рекомендациями, готовая для передачи Лицу, Принимающему Решение. Под принятием решений понимается выбор наиболее предпочтительного решения из множества допустимых альтернатив.

В целом процесс принятия решений можно разбить на два этапа: подготовки решения и принятия решения. На этапе подготовки выбирается подмножество альтернатив, которые предъявляются ЛПР. Они могут быть им приняты для дальнейшей работы, могут быть отвергнуты для доработки. Таким образом, процесс принятия решения (ППР) может носить циклический, итеративный характер.

В общем случае, ППР состоит из:




  • Определения имеющихся альтернатив

  • Разработки методов оценки альтернатив

  • Выявления целей участников ППР

  • Определения характера влияющих факторов

  • Подбора методов решения задачи

Описанием ППР занимается теория принятия решений (исследование операций).

Наиболее значимыми и перспективными в плане использования для разработки автоматизированных систем управления производством и информационных систем, представляются такие её направления:


  • принятие решений в условиях определенности - математическое программирование (линейное, нелинейное, целочисленное и динамическое);

  • принятие решений в условиях неопределенности - стохастическое программирование, теория игр и статистических решений;

  • принятие многоцелевых решений;

  • исследование марковских процессов в принятии решений.

При решении задач ППР в условиях определенности, количество альтернатив удается сократить посредством вычленения множества эффективных в смысле Парето векторных оценок:


Пусть даны две векторные оценки:

K(u)= ( k1 (u), k2 (u), ... km (u)) и

K(v)= ( k1(v), k2(v), ... km(v)), где ki – частный критерий

K(u) P K(v), если существует хотя бы одно j от 1 до m такое что:



" i ¹ j ki (u) I ki(v), или ki (u) P ki(v), а kj (u) P kj (v), где K (u) P K (v) - вариант u предпочтительнее, K (u) I K (v) - одинаковы по предпочтениям

P - "предпочтительность в смысле Парето".


При этом критериальная система должна отвечать ряду требований:

  • Соответствие критериев цели и задаче.

  • Вычислимость критериев.

  • Полнота. Желательно, чтобы критериальная система как можно полнее описывала бы задачу. Другими словами, введение дополнительных критериев не должно изменять вариантов предпочтения.

  • Минимальность. Очевидно, чем меньше размерность вектор-критерия, тем проще задачу решить.

  • Декомпозируемость. Независимость частных критериев позволяет рассматривать отдельные частные критерии вне зависимости от остальных, и таким образом, сводить задачу к задаче меньшей размерности.

По сути, приведенная выше терминология используется при рассмотрении детерминистических моделей. Однако далее мы будем применять термин «критерий» как шкалу оценки результатов деятельности.
Критерии сравнения
Для решения задач оптимизации выбора и/или оценки и ранжирования той или иной деятельности необходимо не только умение сопоставлять наборы критериев, но и определять предпочтения между парами таких наборов. Допустим, существуют некоторые наборы критериев A, B, C и D, такие, что A>B и C>D. Определение более значительного неравенства (или их равноценности) может стать основой построения некоторой количественной шкалы. Можно привести тривиальный пример: пусть у нас имеются данные о результатах сдачи экзаменов студентами Ст1 и Ст2:





Физика

История

Ст1

5

3

Ст2

4

5

Здесь критериями служат оценки по соответствующим экзаменам. Очевидно, в множестве не существует предпочтительных в смысле Парето векторных оценок. Следовательно, необходимо найти способы сужения возможного выбора из множества эффективных вариантов. Например, в данном случае мы могли бы определить предпочтения, исходя из специальности студентов или каких-либо других параметров. На практике нередко превосходство по наиболее важным частным критериям ведет к предпочтительности векторной оценки в целом. Учет важности критерия для конкретных оценок эквивалентно введению дополнительных критериев. Хотя для решения задач ранжирования достаточно ординалистского подхода, легко представить себе ситуацию, когда необходим количественный анализ. Численные характеристики позволяют производить сравнения и сопоставления, выявлять динамику процессов, в благоприятных случаях позволяют прогнозировать поведение параметров.

Основы теории принятия решений были заложены математиком Джоном фон Нейманом и экономистом Отто Моргенштерном в книге «Теория игр и экономические интересы». Авторы, исходя из предпосылки, что человеческие действия в экономической сфере являются целенаправленными, начали с введения понятия «полезность», использованного для измерения результатов. Они разработали систему аксиом количественной полезности, из которых следует существование такой функции полезности, математическое ожидание значений которой согласовано с предпочтениями субъекта. Шкалы полезности, согласно Нейману-Моргенштерну, взаимно преобразуются посредством линейного преобразования, включающего параллельный перенос и масштабирование.

Связанные с понятием «полезность» проблемы выходят за рамки нашего обсуждения. Отметим сложности, возникающие при межличностном сравнении полезностей, что связано со спецификой индивидуальных предпочтений и различиях в индивидуальном ранжировании целей.

В большинстве работ, касающихся изучения бизнес-процессов, речь идет о промышленных предприятиях и организациях, где зачастую все же существует естественный критерий оценки деятельности, выражаемый в деньгах – будь то затраты на доставку, объемы продаж, или другие микроэкономические показатели. Существование такого критерия отнюдь не снимает всех вопросов, однако имеется хотя бы предварительная возможность количественной оценки эффективности принятых решений.

При оценке деятельности учебного заведения ситуация складывается несколько иная. Дело в том, что сотрудники, преподаватели и студенты учебного заведения вовлечены в большое количество разнообразных видов деятельности: учебная, научно-исследовательская, воспитательная, маркетинговая, экономическая, хозяйственная и т. д. Переход на рыночные отношения создал новые экономические и социальные реалии. Более того, именно в последнее десятилетие появились технологические и организационные возможности широкого внедрения информационных технологий. Учебное заведение, отвечающее современным требованиям, неизбежно использует достижения высоких технологий, в то время как в микроэкономическом моделировании принято учитывать технический прогресс как повышение производительности труда неизвестного происхождения.

Очевидно, интегральный учет такого широкого спектра параметров деятельности при нынешнем состоянии экономической науки вызывает сомнения.

С другой стороны, основным аспектом деятельности учебного заведения является, разумеется, учебный процесс. Результаты учебной деятельности регистрируются, современные информационные системы позволяют сводить значительные объемы такого рода данных в агрегированные хранилища информации и производить их дальнейший анализ. Интегрированная информационная система управления АСУ-ВУЗ, разработанная УИ РГУПС, объединяет подсистемы, связывающие функционально взаимозависимые виды деятельности учебного заведения.

Статистический и факторный анализ агрегированных данных из базы данных АСУ-ВУЗ позволяет разработать методику подсчета рейтинговых показателей подразделений учебного заведения, основанную на результатах учебной деятельности.
Роль измерений в разработке теоретических подходов
Может возникнуть вопрос: имеет ли смысл проводить аналитическую обработку результатов, не имея надежного их теоретического обоснования? Однако существует множество примеров, когда измерение различных характеристик отлажено, в то время как теоретическое база таких измерений отсутствует. Мы с успехом используем часы, хотя теоретической базы природы времени нет. Человечество измеряло температуру задолго до создания теории, объясняющей природу тепла, изобретение термометра не являлось итогом всестороннего анализа такой теории. Напротив, можно утверждать, что современная термодинамика в значительной степени появилась именно благодаря измерениям, проведенным термометром.

Таким образом, разработка методов измерений показателей эффективности деятельности ВУЗа, помимо прямого эффекта, связанного с возможностью их применения для принятия управленческих решений, возможно, будет способствовать созданию теоретической модели функционирования учебного заведения.

Существует ряд методик эмпирического характера для присвоения рейтинга ВУЗам или их подразделениям. Несомненная ценность таких методик заключается в учете большого количества - нескольких десятков – факторов. Такие методики разрабатываются, как правило, специалистами в соответствующих предметных областях деятельности ВУЗа и носят, по сути, характер экспертных систем.

Процедура автоматизированного построения рейтинговых оценок могла бы в динамике отражать состояние дел в учебном заведении и оперативно отслеживать влияние изменений, возникающих в хранилище данных. Автоматизация процедуры извлечения знаний из хранилища разнородных данных и построение экспертных оценок современными методами вполне реальны, однако даже на первый взгляд легко предвидеть, по крайней мере, три сложности:





  • недостаточное количество накопленных данных,

  • неизбежные потери данных при их оцифровке

  • невозможность использования когнитивных способностей человека в автоматизированных системах.

Первая и отчасти вторая проблема могут быть решены посредством внедрения единой информационной системы. Третья проблема выходит далеко за рамки настоящего обсуждения и на сегодняшний день остается открытой.

Можно представить себе такую последовательность решения задачи разработки методов измерений показателей эффективности деятельности ВУЗа:



Отметим, что процессы, изображенные на схеме происходят асинхронно и могут быть проанализированы с использованием аппарата сетей Петри.

На сегодняшний день разработано большое количество различных методик кластеризации и ранжирования данных, существует целый ряд специализированных программных пакетов. Приводимые ниже выкладки позволяют разобраться во внутренней структуре классов, полученных в результате кластерного анализа и решения задач таксонометрии.
Алгоритм решения задачи таксономии
Приводимые в этом разделе алгоритмы обработки данных связаны с рядом особенностей структуры хранилища информации, реализованной в информационной системе управления АСУ-ВУЗ и разработанной для учебных заведений отрасли и для Департамента кадров МПС. Хотя изложенный ниже подход справедлив для разработки критериев сравнения и показателей эффективности на основе информации социологического характера любого рода, мы будем рассматривать его в плане формирования рейтинговых оценок деятельности учебного заведения. В качестве исходных данных взяты результаты сдачи более 203000 экзаменов 10311 студентами, взятые из подсистем «Контингент студентов» и «Приемная комиссия» АСУ-ВУЗ за период 1997-2003 года. В анализе учтены факультет, специальность, категория и форма обучения, пол и место жительства студента. Для упрощения изложения в дальнейшем будем называть данные, относящиеся к конкретному студенту, анкетой.

Прежде всего, следует отметить значительный объем достаточно разнородных данных, имеющихся в агрегированном хранилище информации. В связи с этим возникает задача их компактного представления. В случае метрических шкал признаков такое представление возможно получить, проводя факторизацию признаков по ячейкам малого размера, разбивая все пространство признаков на ячейки малого размера и отождествляя анкеты, попадающие в одну ячейку. В итоге мы получаем фактор-пространство классов, причем каждый класс состоит из попавших в одну ячейку анкет, так, что представление о классе можно составить, рассмотрев одну анкету. Очевидно, в результате процесса факторизации объем оставшихся в рассмотрении анкет снижается. Величина ячеек пространства признаков, участвующих в процессе факторизации, задается исходя из содержательных соображений.

Другой особенностью имеющейся информации является её разнородность. Дело в том, что проведение процедуры факторизации предполагает метрические шкалы признаков. Конечно, результаты экзаменов таковыми и являются или легко к ним сводятся. Но вот остальные данные анкет представлены ранговыми шкалами. Трудность заключается в их метризации. Если некоторые признаки по своей природе бинарны (пол) или легко сводятся к бинарным без потери общности (место жительства – город/село), то метризация такого признака как, например, специальность требует привлечения дополнительных соображений, в том числе эвристического характера.

Как известно, наиболее эффективно человек воспринимает информацию, представленную в виде плоских (двумерных) графиков. Естественно, было бы весьма желательно иметь возможность представить результаты анализа именно в таком виде, тем более что по своему содержанию они могут иметь и презентационный характер, то есть могут быть представлены либо недостаточно подготовленной аудитории, либо в условиях недостатка времени на исчерпывающие объяснения.

Одним из методов факторизации является построение ε–сети исходного множества анкет.

Каждую анкету представим как точку



m-мерного пространства признаков Rm

Не уменьшая общности можно считать, что для любого i=1….,m |xi|≤1

Отметим, что массив x уже содержит как изначально метрические данные (оценки) так и метризованные ранговые данные (специальность, факультет, место жительства и пр.) о каждом студенте. Исходный массив из n анкет будем рассматривать как двумерный массив X[1:m;1:n], столбцы которого



есть анкеты рассматриваемой совокупности анкет. Другими словами, в каждом столбце содержатся данные об одном студенте. В силу метризованности шкал рассматриваемых анкет признаков в пространстве Rm можно рассматривать расстояние ρ: ρ(x,y) – расстояние между анкетами x и y рассматриваемой совокупности анкет.

Пусть задано некоторое положительное вещественное ε. Под ε-сетью x={x(j)}j=1..n рассматриваемых анкет будем понимать такую совокупность YE={y(l)}l=1..k X, что для любой анкеты xX существует yYE такая, что ρ(x,y)< ε. рассматривая теперь вместо множества Х его подмножество УЕ - ε-сеть множества Х, мы отождествляем с множеством yYE те анкеты совокупности Х, расстояния которых до у меньше ε.

В конечном итоге нам потребуется разбить имеющиеся данные на отдельные совокупности схожих между собой анкет. При этом схожесть анкет из разных совокупностей должна быть ниже некоторого критического значения. Такая задача известна в социологии как задача таксономии, а отдельные совокупности носят название классов, или таксонов.

Проще всего задачи таксономии решаются, когда исходные объекты являются точками некоторого векторного пространства. В этом случае в качестве меры схожести можно использовать расстояние между точками. В m-мерном евклидовом пространстве расстояние ρ(x,y) между точками х и у определено как


(1)
В нашем случае более адекватным будет задание расстояния в виде
(2)

, где αi(x), αi(y) – вес i-го признака (коэффициент его значимости), при этом суммирование производится по метризованным признакам, а коэффициент значимости вычисляется на основании значений ранговых признаков анкет x и y. В нашем случае это означает зависимость веса оценки от предмета и от специальности студента.

В принципе, в качестве метрики пространства Rm можно использовать самые различные выражения. Выбор расстояния в значительной степени определяется целями исследования.

Пусть x={x(j)}j=1..n – набор точек xi m-мерного пространства, в котором рассматривается матрица ρ. Как известно из теории распознавания образов, решение задачи таксономии может быть сведено к задаче поиска глобального минимума функции:


(3)
по возможным разбиениям совокупности Х на р множеств Г1,….,Гр

где β – некоторая положительная константа. Число р и разбиение {Гl}l=1..p множества X, которые составляют минимум функционала Ф, являются решением задачи таксономии, причем {Гl}l=1..p являются выделенными таксонами. В этом случае первое слагаемое в правой части равенства, определяющего минимизируемый функционал, задает компактность анкет внутри выделенных таксонов, а второе слагаемое – суммарную несхожесть анкет разных таксонов. Рассмотренная выше задача является частным случаем задачи сегментации графа и относится к универсальным переборным задачам.

Приведем решение задачи таксономии, при котором учитывается как внутренняя компактность образуемых классов, так и различие объектов, принадлежащих разным классам. Для оценки компактности внутри класса используется метафора ε-сети.

Обозначим через к число точек ε-сети множества X={x(j)}j=1..n k=k(ε), а через YE={y(l)}l=1..k ε-сеть множества X. Для конечного множества YE={y(l)}l=1..k введем понятие ε-связности следующим образом: множество Г y ε-связно, если для любых точек x,y Г существуют точки z1…zq такие, что для любого i=1….q-1 ρ(zi,zi+1)<2ε , ρ(x,z1)<2ε , ρ(zq,y)<2ε

Обозначим через p=p(ε) число компонент ε-связности множества У, а через Гi (i=1..p) компоненты ε-связности. Таким образом, для любого ε>0 ε-структура множества Х определяется структурой его ε-сети У-разбиением на компоненты ε-связности {Гi }(i=1…p).

Обозначим через rε минимальное расстояние между множествами Гi, Гj (ij):


(4)
В качестве оценки структуры У множества Х рассмотрим функционал:
(5)
В этой оценке числитель rε оценивает степень различия объектов ε-сети, принадлежащих разным таксонам (классам). Знаменатель ε оценивает компактность объектов, принадлежащих одному классу (объекты одного класса ε-связны).

Чем выше значение ФХ(ε) – тем выше эффективность приведенного разбиения. Разбиение {Гi }(i=1…p) множества У естественным образом индуцирует разбиение множества Х, а именно, каждому элементу yi }(i=1…p) сопоставим множество X(y) тех объектов xX, которые отождествляются с Y при построении ε-сети Y, и положим:


(6)
В этом случае функционал ФХ(ε) можно рассматривать как оценку эффективности разбиения множества X на классы Xi.

Обозначим через ε* значение ε, составляющее максимум функционалу ФХ(ε):


(7)
Величина (X) характеризует эффективность проведения таксономии на множестве X.

Величину ФХ(ε) назовем эффективностью ε-представления множества X, а разбиение {Xi}i=1..p – ε-представлением X.

Как видно из сказанного выше, основной задачей является построение по заданному ε>0 ε-представления множества X. Множество X (совокупность анкет xi, i=1…n), как уже было сказано, мы будем представлять как двумерный массив X[1:m;1:n], где m – число анкет. В нашем случае число анкет в разных случаях либо количество включенных в рассмотрение сданных экзаменов, либо количество включенных в рассмотрение сданных сессий. Влияние ранжированных критериев, таких как специальность, факультет, категория приема и тип сданного экзамена оказывает влияние на выбор ε и дальнейшую его коррекцию в процессе итеративного подбора.

Процесс каждой итерации состоит из n-1 шагов. На каждом шаге решается вопрос, включается ли анкета i в уже существующую ε-сеть (с использованием (2)), или происходит образование нового узла ε-сети. После организации ε-сети она проверяется на ε-связность и вычисляется значение функционала ФХ(ε) (с использованием (4,5)). Если полученные значения нас устраивают, разбиение имеющихся анкет на классы завершено, в противном случае происходит коррекция ε и расчет повторяется.


Задача кластеризации
В качестве примера приведем результаты кластеризации по специальностям, в зависимости от усредненных оценок в сессиях за период с 1998 года. На рис. 1 представлен график распределения оценок для двадцати специальностей.

Одним из методов разведочного статистического анализа является визуальная оценка данных, связанная с выработкой стратегии дальнейших исследований. Результаты, приведенные на графике, дают мало материала для размышлений.



Была проведена кластеризация, специальности разбиты на 4 кластера. На рис. 2 приведен график распределения оценок по 4 кластерам


Кластер 1

Номер специальности

Название специальности

150700

Локомотивы

150800

Вагоны

180700

Электрический транспорт (железнодорожный транспорт)

210700

Автоматика, телемеханика и связь на ж/д транспорте

290900

Строительство железных дорог, путь и путевое хозяйство

330200

Инженерная защита окружающей среды (железнодорожный транспорт)




Кластер 2

Номер специальности

Название специальности

60500

Бухгалтерский учет, анализ и аудит

60800

Экономика и управление на предприятии (транспорта)

71900

Информационные системы в технике и технологиях

100400

Электроснабжение железнодорожного транспорта

100700

Промышленная теплоэнергетика

220100

Вычислительные машины, комплексы, системы и сети

240100

Организация перевозок и управление на железнодорожном транспорте




Кластер 3

Номер специальности

Название специальности

22100

Социальная работа

60400

Финансы и кредит

60600

Мировая экономика

230500

Социально-культурный сервис и туризм




Кластер 4

Номер специальности

Название специальности

71200

Триботехника

170900

Подъемно-транспортные, строительные, дорожные машины и оборудование

180100

Электромеханика

Далее приведена таблица эвклидовых расстояний между кластерами.







Кластер 1

Кластер 2

Кластер 3

Кластер 4

Кластер 1

0










Кластер 2

0.131513

0







Кластер 3

0.365371

0.249332

0




Кластер 4

0.230558

0.32427

0.560335

0

Вид графика вкупе с характером распределения специальностей по кластерам

уже позволяет делать предположения о вкладе различных предметов в среднесессионные оценки.

На рис. 3 представлено дерево объединения этих 20 специальностей, построенное с использованием программы STATISTICA, модуль «Кластерный анализ» методом одиночной связи. Рассчитывалось эвклидово расстояние.

На этом же простом примере можно продемонстрировать процедуру извлечения правил, о которой упоминалось выше.

Приведем результаты работы модуля Tree Analyzer 2.0 – системы анализа данных на основе деревьев решений – входящего в состав пакета Deductor Lite 2.0. Дерево решений представлено на рис. 4


Рис. 4
В текстовом виде получено четыре правила:




1) если winter 1999<=3.78914194915254

то range="4"

Количество записей в правиле: 3

Правильных примеров: 3

Неправильных примеров: 0
2) если winter 1999>3.78914194915254

и winter 1998<=3.80569280343716

то range="1"

Количество записей в правиле: 6

Правильных примеров: 6

Неправильных примеров: 0


3) если winter 1999>3.78914194915254

и winter 2000<=4.12235004938493

и winter 1998>3.80569280343716

то range="2"

Количество записей в правиле: 7

Правильных примеров: 7

Неправильных примеров: 0
4) если winter 2000>4.12235004938493

то range="3"

Количество записей в правиле: 2

Правильных примеров: 2

Неправильных примеров: 0

Здесь winter 1998 – средняя оценка студентов соответствующей специальности за зимняя сессию 1998 года, spring 1999 – за летнюю 1999, и т.д. На основании величины средней оценки в сессию делается вывод о принадлежности специальности к тому или иному кластеру. В общем случае трудно ожидать высокого процента соблюдения правил на всем множестве. Хотя, на основе этих правил можно провести классификацию специальностей, которые не рассматривались при извлечении правил. Так, специальность 021100 (Юриспруденция) входит в состав третьего кластера (наряду со специальностями Социальная работа, Финансы и кредит, Мировая экономика, Социально-культурный сервис и туризм), а специальность 120600 (Оборудование и технология повышения износостойкости и восстановление деталей машин и аппаратов) входит в состав четвертого кластера (наряду со специальностями Триботехника, Подъемно-транспортные, строительные, дорожные машины и оборудование и Электромеханика). Оба результата выглядят разумно. Дополнительно, пример демонстрирует еще одно полезное качество результатов анализа на основе деревьев решений: возможность применения правил при высокой степени неполноты данных. По крайней мере, результаты применения правил можно выбирать в качестве априорной вероятности при использовании в каком-либо виде теоремы Байеса (например, при оценке экономического эффекта от принятых решений)

Данный пример носит исключительно демонстрационный характер и показывает принципиальную возможность извлечения правил и оценки влияния ранжированных критериев, таких как специальность (в данном случае), факультет, категория приема, тип сданного экзамена и пр. на способ решения задачи таксономии. Решение задачи таксономии является естественным путем автоматизированного получения данных из хранилищ данных, таких как АСУ-ВУЗ и дальнейшего формирования рейтинговых оценок.
В заключение хотелось бы отметить, что проблема агрегирования, если её понимать как обобщение индивидуальных признаков, далека от решения и весьма сложна. В 50-х годах её поднял американский экономист, лауреат Нобелевской премии по экономике (1972) Кеннет Эрроу. Можно ли создать такую систему голосования, чтобы она была рациональной, решающей и демократичной одновременно? Перечисленные характеристики идеальной системы голосования несовместимы. Способ голосования может быть избавлен от произвольности, безвыходных положений или неравноправия, но не может избежать этих недостатков одновременно. Кеннет Эрроу начал проводить аксиоматическое исследование рациональных процедур голосования. Он выдвинул пять аксиом, которым должна удовлетворять любая процедура комбинирования или объединения индивидуальных предпочтений, чтобы образовать коллективное суждение, и доказал, что единственные процедуры, которые отвечают всем этим аксиомам, сосредоточивают всю власть в руках одного индивидуума. Именно для преодоления такого рода проблем и необходимо проводить кластеризацию данных результатов обучения с учетом их удельных весов.

Литература




  1. Боровиков В., Statistica. Искусство анализа данных на компьютере. Для профессионалов. изд. Питер, 2003

  2. Макарова, Трофимец, Статистика в Excel. Финансы и статистика, 2002

  3. Материалы разработки КАСУКР-РИИЖТ, Ростов-на-Дону, 1980

  4. КАСУКР-РИИЖТ. Подсистема РИИЖТ-II «Качество», Ростов-на-Дону, 1981

  5. В. И. Колесников, В. Д. Верескун, Н. Н. Сухорукова Разработка и внедрение единой информационной системы управления отраслевым учебным заведением. Материалы конф. ТелекомТранс-2003

  6. Горстко А.Б., Угольницкий Г.А. Введение в моделирование эколого-экономических систем.- Ростов: Из-во РГУ, 1990

  7. Круглов В.В. , Дли М.И. , Голунов Р.Ю. Нечеткая логика и искусственные нейронные сети М., Физматлит, 2001

  8. Нежевец Г.П. Моделирование и управление системой вступительных экзаменов в техническом университете. Дисс., Братск, 2001

  9. Ольховик О.В.Разработка и исследование семантической модели данных для автоматизированной системы управления железнодорожным транспортом. Дисс., Ростов-на-Дону, 2000

  10. Л. А. Петросян, Н. А. Зенкевич, Е. А. Семина Теория игр. Учебное пособие для университетов. Книжный дом 'Университет', 1998

  11. М. В. Губко, Д. А. Новиков Теория игр в управлении организационными системами. Синтег, 2001

Рис. 1


Рис. 2


Рис. 3