Многомерный анализ - umotnas.ru o_O
Главная
Поиск по ключевым словам:
Похожие работы
Название работы Кол-во страниц Размер
Учебной дисциплины «Действительный анализ» для направления 010400. 1 53.77kb.
Д. Г. Бейн анализ напряженного состояния несущего настила пола четырехосного... 1 84.84kb.
Лекция Анализ и проектирование программного обеспечения. Анализ по 1 193.37kb.
Лекция Анализ и проектирование программного обеспечения. Анализ по 1 187.61kb.
«Анализ конкурентных стратегий немецких автомобильных концернов» 2 695.88kb.
Анализ структуры книги 1 115.05kb.
Направления нир кафедры «Техническая кибернетика» (ТК) 1 10.61kb.
Экзистенциальный анализ найти согласие с жизнью 1 283.94kb.
Программа по курсу "Введение в математический анализ" 1 190.64kb.
«введение в интеллектуальный анализ данных» 1 10.37kb.
- 1 137.91kb.
Учебно-методический комплекс учебной дисциплины теория и методология... 1 230.22kb.
Викторина для любознательных: «Занимательная биология» 1 9.92kb.

Многомерный анализ - страница №1/4




Институт систематики и экологии животных СО РАН

Лаборатория зоологического мониторинга
Инновационный центр защиты растений (ВИЗР РАСХН)


В.М. Ефимов, В.Ю. Ковалева


МНОГОМЕРНЫЙ АНАЛИЗ

БИОЛОГИЧЕСКИХ ДАННЫХ
Учебное пособие
2-е исправленное и дополненное издание

(с исправлениями для следующего издания)

Санкт-Петербург - 2008
В.М. Ефимов, В.Ю. Ковалева.

Многомерный анализ биологических данных: учебное пособие

Рецензент:

Ю.С.Равкин, заслуженный деятель науки РФ, д.б.н., проф.,
зав. лабораторией зоологического мониторинга Института
систематики и экологии животных СО РАН
В пособии рассмотрены многомерные методы исследования массовых биологических процессов и явлений: метод главных компонент, факторный анализ, дискриминантный анализ, регрессионные методы, многомерное шкалирование, нейронные сети. Основной упор делается на линейные и нелинейные методы анализа взаимного расположения объектов в многомерном пространстве и интерпретацию получаемых результатов с биологической точки зрения.

Пособие предназначено для научных работников и студентов биологических специальностей.


В.М.Ефимов, В.Ю.Ковалева, 2008



СОДЕРЖАНИЕ


Лекция 1. Введение. Необходимость многомерной обработки биологических данных. Геометрический подход: анализ расположения объектов в многомерном пространстве и направлений их изменчивости через корреляции с признаками. История (Ф.Гальтон, К.Пирсон, Р.Фишер, Г.Хотеллинг). Современное состояние: главные компоненты (факторный анализ), множественная регрессия, дискриминантный анализ, канонический анализ, шкалирование, карты Кохонена, нейронные сети. Возможность визуализации. Оценка достоверности и ее роль. …………………………….









Лекция 2. Предварительная работа с данными в популяционных исследованиях. Объекты. Признаки – свойства объектов, позволяющие отличать их друг от друга и измерять расстояние между ними. Типы признаков. Допустимые преобразования и сравнения. Средние и дисперсии выборки. Нормировки. …………………………………………………………...










Лекция 3. Линейная алгебра. Скаляры, вектора. матрицы. Евклидово пространство, точки, вектора, наборы векторов. Евклидово расстояние между точками, углы между векторами. Операции сложения и умножения. ортогональные, диагональные и единичные матрицы. Преобразования: перенос, поворот, растяжение. Центроиды, дисперсия. Корреляционная матрица. Собственные вектора. Главные компоненты. Повороты (факторный анализ). ……………………………………………………………………………










Лекция 4. Внутривыборочная изменчивость. Многомерный анализ как средство поиска биологического смысла при анализе изменчивости биологических объектов. Методы исследования: главные компоненты, факторный анализ. Отсечение дальних компонент. Примеры. …………….









Лекция 5. Межвыборочная изменчивость. t-критерий. Дискриминантный анализ. Проблема коллинеарности. Метод Царапкина. Объединенная внутривыборочная изменчивость. Предварительная обработка методом главных компонент. ………………………………………………………………










Лекция 6. Внешние факторы как возможные причины изменчивости. Линейная регрессия. Проекция. Проблема коллинеарности. Регрессия на главные компоненты. …………………………………………………………….










Лекция 7. Нелинейные методы, неевклидовы расстояния. Нейронные сети. Кластерный анализ. Многомерное шкалирование. Бутстреп…………










Лекция 8. Временные ряды. Теорема Такенса. Фазовые портреты. Гладкие и главные компоненты временных рядов. Методы прогноза временных рядов. Примеры .……………………………………………….










ЛЕКЦИЯ 9. Большие массивы. Достоверность……..………………





ЛЕКЦИЯ 1. Введение

Исследования в области биологии неизбежно связаны с биологическими объектами. В качестве объектов можно рассматривать особи, популяции, сообщества, их состояния, динамику, поведение и другие характеристики. Каждый объект обладает набором свойств. В некотором смысле каждый объект является совокупностью своих свойств. Однако нас интересуют не все свойства, а только те, по которым объекты различаются между собой, формируя биологическое разнообразие. Если свойств много, то возникает необходимость в специальных методах изучения, позволяющих охватить сразу всю их совокупность.

Одним из выдающихся достижений научного естествознания прошлого тысячелетия является разработка и строгая формализация понятия метрического пространства и его размерности (Александров, 1987). Являясь абстрактным обобщением окружающего нас и доступного нашим органам чувств трехмерного физического пространства, оно позволяет представлять точками многомерного пространства объекты любой природы. Сходство между объектами отображается расстоянием в многомерном пространстве. Тем самым создается возможность получать глубокие содержательные результаты, исследуя геометрические и динамические свойства взаимного расположения точек и переводя их на язык соответствующей области знаний (Пуанкаре, 1983). Кроме того, подобным образом можно прослеживать параллели и искать структурное единство в очень далеких друг от друга научных областях, так как они могут быть описаны одним и тем же математическим аппаратом. Физики с большим успехом реализуют подобную программу, начиная с середины XIX века, создав, среди всего прочего, теорию относительности и квантовую механику (Фейнман и др., 1978; Дирак, 1990). О будущей геометризации биологии писал В.И.Вернадский (1975).

Основными понятиями многомерного анализа являются понятия пространства, его размерности и взаимного расположения объектов в этом пространстве, а также расстояния или сходства между его объектами. В многомерном евклидовом пространстве расстояние между двумя любыми объектами полностью определяется теоремой Пифагора: квадратный корень из суммы квадратов разностей между значениями координат:



В биологических исследованиях невозможно обойтись без понятия выборки. Если предполагается, что выборка извлечена из генеральной совокупности объектов, распределенных в этом же пространстве в соответствии с некоторым вероятностным законом, то мы имеем дело с многомерным статистическим анализом.

Понятие пространства и его размерности пронизывает практически всю математику от древности до наших дней. Уже в аксиомах Евклида (III век до н.э.) в качестве первичных сущностей приняты точка, линия, плоскость, пространство, отражающие основные геометрические свойства окружающего нас трехмерного мира. Все остальные свойства строго логически выводятся из аксиом. В прикладных науках, астрономии и географии, (но не в самой геометрии) не позже III–II веков до н.э. сформировались различные системы координат (Эратосфен, Гиппарх, Птолемей).

Система Евклида была настолько совершенна, что вплоть до XIX века служила образцом интеллектуальных возможностей чистого разума. Одновременно она же была эталоном соответствия математики и реального мира – все ее утверждения немедленно могли быть подтверждены практикой. Собственно, никаких сомнений и не могло возникнуть, изначально предполагалось, что ее идеальные конструкции и лежат в основе реального мира, а возможные несоответствия вызваны исключительно неточностью измерений.

В XIX веке произошло невероятное событие – была открыта другая геометрия. Лобачевский, взяв за основу аксиомы Евклида и заменив постулат о параллельных на противоположный, построил геометрию, логически равноправную с геометрией Евклида, но, в отличие от нее, не имеющую никакого явного соответствия с реальным миром. После некоторой неразберихи стало ясно, что обе геометрии являются чисто математическими объектами, а вопрос о том, какая геометрия на самом деле лежит в основе реального мира, должны решать не математики, а физики. И хотя для геометрии Лобачевского позже и было найдено некоторое соответствие с реальностью, это уже не имело никакого значения и математики с энтузиазмом принялись конструировать все новые и новые геометрии. Появились пространства с произвольным и даже бесконечным числом измерений (Грассман, Кэли, Риман), с евклидовым, различными неевклидовыми расстояниями между объектами и даже совсем без метрики, аффинная и проективная геометрии, и т.д. Этому способствовало и то, что и в евклидовой геометрии к середине XVII века наконец появились координатные оси (Декарт). Для следующего шага, кажущегося сейчас очень простым, понадобился гений Ньютона, который ввел отрицательные координаты. Физики быстро добились огромных успехов, применяя геометрический подход и рассматривая многие свои задачи в подходящих пространствах большого, иногда бесконечного числа измерений и выбирая соответствующую метрику и удобную систему координат. Примерами могут служить теория относительности и квантовая механика.

Геометрический подход перспективен и для биологии. Он позволяет с единых позиций исследовать различные формы многомерной изменчивости биологических объектов, включая генетические, морфологические, функциональные и этологические характеристики особей, структуру, численность, пространственное распределение и динамику популяций и их параметров, а также влияние внешних и внутренних факторов. Таким единообразным способом могут быть решены научные проблемы самых различных областей биологии, которые не поддаются изучению традиционными биологическими средствами.

В связи с этим существует и очень актуальна следующая проблема: последовательный и корректный перевод биологических задач на язык геометрических расстояний и пространств для исследования математическими методами и интерпретация полученных результатов с целью выработки новых теоретических концепций биологии.

Подобная проблема стоит не только перед биологией. Как научные направления сформировались, например, психометрика – в психологии, хемометрика – в химии (Шараф и др., 1987; Родионова, Померанцев, 2006; Родионова, 2007), эконометрика – в экономике или клиометрия – в истории (Миронов, 1991). Однако математический аппарат в этих науках (кроме психометрики) на начальном этапе был полностью заимствован из биометрии, которая исторически возникла вследствие усилий небольшой группы английских генетиков начала XX века, Ф.Гальтона, К.Пирсона, Р.Фишера, и американского экономиста Г.Хотеллинга. Сейчас эта область науки носит название многомерного статистического анализа (Кендалл, Стьюарт, 1976; Айвазян, 1985). К классическим методам многомерного статистического анализа относятся множественная регрессия, метод главных компонент, дискриминантный и канонический анализы. Психометрика развивалась параллельно и почти независимо от биометрии. К ее основным достижениям в области разработки математического аппарата относятся факторный анализ и многомерное шкалирование.

В биологии потребность в многомерных методах первыми, по-видимому, ощутили систематики (Гейнке, Смирнов; цит по Любищев, 1982) и геоботаники, работающие со списками и обилиями видов в растительных сообществах, которые в начале ХХ века предложили различные эмпирические и по этой причине, как правило, неевклидовы, индексы сходства. Однако уместно отметить, что "расстояние" между объектами, измеряемое этими индексами, обычно рассматривалось без пространства, в котором можно было бы отобразить их взаимное расположение, и до сих пор наиболее употребительным для этих целей остается применение методов кластерного анализа, например, плеяд П.В.Терентьева или малоинформативных дендрограмм. Реже дело доходило до ординации объектов, т.е. расположения их в линейном порядке, наиболее совпадающем с матрицей взаимного сходства. И только самые компьютеризированные биологи используют сегодня методы многомерного шкалирования неевклидовых расстояний для визуального представления взаимного расположения изучаемых ими объектов в многомерном евклидовом пространстве (напр., Васильев и др., 2003) или самоорганизующиеся карты признаков Кохонена (Kohonen, 1982).

С евклидовым расстоянием дело обстояло намного проще, поскольку при его использовании изначально предполагается, что объекты помещены в некоторое многомерное координатное признаковое пространство. В начале XX века К.Пирсон предложил множественную регрессию и метод главных компонент, который сильно опередил свое время и остался незамеченным. В 1930-е годы Р.Фишер разработал, в первую очередь, для систематиков, дискриминантный анализ, сутью которого является определение направлений, в отображении на которые в максимальной степени различаются группы объектов. В те же годы Хотеллинг переоткрыл метод главных компонент – выявление направлений, в проекции на которые в максимальной степени различаются объекты внутри одной группы – а также канонический анализ. После этого стало ясно, что одними и теми же методами можно обрабатывать данные любой природы. А когда в 50-е годы к ним присоединился факторный анализ, который вообще пришел из психологии, и обнаружилось, что это те же главные компоненты, только с вращениями, то со спецификой обрабатываемых данных было покончено окончательно, она полностью ушла в интерпретацию.

Исторически многомерный анализ биологических данных начался с работ Френсиса Гальтона (1822–1911), который попытался рассмотреть зависимость между средним ростом родителей и средним ростом их потомков. Таким образом, каждая семья характеризовалась значениями двух переменных. Предположив линейный характер зависимости и построив ее график по методу наименьших квадратов, он обнаружил, что потомки в среднем ближе к популяционной средней, чем родители. Гальтон назвал это явление "регрессией" и с тех пор так называется любая функциональная зависимость одной переменной от одной или нескольких других, подобранная статистическими методами. {Ф.Гальтон – двоюродный брат Ч.Дарвина. Открыл антициклоны, основал дактилоскопию, евгенику, психометрику, генетику количественных признаков и биометрию (1889).}

Следующим был Карл Пирсон (1857–1936), который теоретически обосновал и разработал хорошо всем известный коэффициент линейной корреляции (коэффициент Браве–Пирсона) и много других коэффициентов, а также ввел понятие "множественной регрессии", т.е. функциональной зависимости одной переменной от нескольких других. Важнейшим частным случаем является множественная линейная регрессия. Кроме того, он первым предложил метод построения главных компонент (Pearson, 1901). Однако в то время на эту работу не обратили никакого внимания, да и сам Пирсон больше к ней не возвращался. Он же вместе с Уэлдоном и Гальтоном (консультант-редактор) основал журнал "Биометрика" для статистического изучения биологических проблем (1901).

Однако наиболее известным статистиком XX века, безусловно, является Рональд Фишер (1890–1962), который заложил основы дисперсионного анализа. Кроме того, он первым начал систематически рассматривать объекты и выборки в многомерном пространстве и анализировать их разнообразие и взаимное расположение. Ему принадлежит заслуга разработки многомерного обобщения дисперсионного анализа – дискриминантного анализа – как способа нахождения одномерного направления, в проекции на которое наиболее различаются выборки (лекция 5). И хотя сам дискриминантный анализ, как сейчас становится ясным, не совсем адекватен биологической реальности и им нужно пользоваться, принимая некоторые меры предосторожности, для своего времени это был мощный шаг вперед. Следует отметить, что Гальтон и Фишер были биологами по основному образованию (Кембридж) и роду деятельности (генетики). {Термин "корреляция", безусловно, имеет биологическое происхождение, восходя к Кювье и отражая представления о целостности организмов и взаимозависимости его частей. В XX веке эти представления активно развивались И.И.Шмальгаузеном (1982).} Пирсон получил сначала юридическое образование, потом стал математиком, затем увлекся теорией эволюции и генетикой и даже заведовал кафедрой евгеники.

В связи с ними нельзя не упомянуть имя Гарольда Хотеллинга (1895–1973), который предложил метод главных компонент (не зная работы К.Пирсона) и канонический корреляционный анализ (Hotelling, 1933, 1936). Последний метод в общем виде не нашел применения из-за трудностей в интерпретации (следует иметь в виду, что иногда каноническим называется дискриминантный анализ Фишера, который является частным случаем канонического анализа Хотеллинга, а иногда – совсем другие методы). Метод главных компонент сейчас применяется наиболее широко из всех многомерных методов и в следующих лекциях мы увидим, что это совсем не случайно. Хотеллинг был выдающимся американским экономистом, однако свою основополагающую работу по многомерному анализу опубликовал в психологическом образовательном журнале.

Все они заложили основы математической статистики и многомерного анализа, попутно разрабатывая недостающие разделы теории вероятностей, которой в оформленном виде тогда еще не существовало. Аксиоматическая теория вероятностей была создана позднее А.Н.Колмогоровым (1936). Далее обнаружилось, что биометрические методы применяются или их можно применять и в других науках и, следовательно, они не являются специфически биологическими. Произошло слияние и поглощение биометрии математической статистикой и теорией вероятности, которые разрабатываются профессиональными математиками.

Тем временем психологи шли своим путем. Начало научному тестированию в психометрике (сама психометрика развивалась к тому времени уже несколько десятков лет) положил все тот же Ф.Гальтон, который пришел к необходимости измерять, кроме прочих, и психические характеристики человеческой личности: «Психометрия, необходимо твердо сказать, означает искусство охватывать измерением и числом операции ума (mind)», «Пока феномены какой-нибудь отрасли знания не будут подчинены измерению и числу, они не могут приобрести статус и достоинство науки» (Galton, 1879; цит. по Бурлачук, 2002). Ясно понимая, что человека нужно рассматривать по всей совокупности свойств как единое целое, он предложил схему обследования, в которую входили морфологические (рост, вес), физиологические (сила удара, скорость реакции) и психологические (ответы на тесты) признаки и обследовал более 9 тыс. человек. Примерно в это же время Дж.Кеттел, ученик Ф.Гальтона, предложил набор тестов, направленных именно на измерение психических свойств человека, т.е., тех, которые, с точки зрения обыденного сознания, меньше всего поддаются измерению (Cattell, 1890). Достаточно быстро выяснилось, что для измерения любого свойства необходима шкала, в которой можно выражать результаты измерений с тем, чтобы можно было сравнивать различных людей или одних и тех же в разные моменты времени или в разных условиях, а также исследовать влияние различных факторов, например, наследственности и среды. В естественных и технических науках измерение означает сравнение с эталоном. Однако в психологии, в отличие от естественных и технических наук, очень трудно предложить какие-либо универсальные эталоны, вроде метра или килограмма. Поэтому каждый психолог разрабатывал свой собственный набор характеристик личности, а также набор тестов для их выявления. В конце концов психологи, и в этом состоит их несомненная заслуга, сформировали расширенное понятие измерения: измерение есть приписывание чисел свойствам объектов по определенным правилам (Stevens, 1946; Стивенс, 1960).

Наряду с бесчисленным множеством разработанных и вновь разрабатываемых тестов (уже в двадцатых годах прошлого века их насчитывалось больше тысячи) велась кропотливая работа по разработке теории тестирования и математической обработке получаемых результатов. Еще Ф.Гальтон заметил, что результаты тестов должны коррелировать друг с другом (и использовал соответствующий коэффициент, который сейчас называется коэффициентом линейной корреляции Браве-Пирсона), а Ч.Спирмен (Spearman, 1904а, 1904б, 1927) положил это в основу своей теории -фактора – генерального фактора, который должен обнаруживаться во всех тестах и который можно интерпретировать как проявление некоей умственной энергии. Он же предложил ранговый коэффициент корреляции, носящий теперь его имя. Фактически речь шла об одномерной шкале измерения интеллектуальных способностей. Но для того, чтобы отобразить какие-либо психологические особенности личности на числовой шкале, можно было воспользоваться двумя путями. Первый – измерять как можно больше разнообразных характеристик, отражающих эту особенность, и брать их линейную или нелинейную комбинацию – факторный анализ (Thurstone, 1935, 1938) или метод главных компонент (Pearson, 1901; Hotelling, 1933). По историческим причинам психометрики применяли факторный анализ, а биометрики – метод главных компонент. Второй – предположить, что человек (эксперт) интуитивно ощущает расстояние на этой шкале и относительно двух объектов всегда может сказать, у какого из объектов эта особенность более выражена, чем у другого, или относительно двух пар объектов всегда может сказать, какая пара находится друг к другу ближе, чем другая. Отсюда с помощью математических операций можно определить упорядочивание на самой шкале или даже координаты объектов – шкалирование, неметрическое или метрическое.

В оба направления важный вклад внес Л.Терстоун, который использовал метод парных сравнений Кона для шкалирования одномерных различий между объектами (Thurstone, 1927), а также свой вариант факторного анализа (Thurstone, 1935, 1938). В отличие от подхода Ч.Спирмена, где интерпретация была определена заранее, факторный анализ Терстоуна допускал несколько групповых факторов и мог применяться к данным любой природы, а не только психологическим. Следует специально отметить, что у психологов речь шла не столько о математической модели, в которой естественно рассматривать несколько факторов, а один – считать просто частным случаем, сколько о том, какой именно вариант реализуется в действительности. Фактически Л.Терстоун предложил технологию, в которой сначала на основе метода парных сравнений строились одномерные шкалы, а затем из них конструировались групповые факторы с помощью факторного анализа. Таким образом, каждый объект получал набор координат и мог быть представлен точкой в многомерном пространстве. Факторный анализ Терстоуна требовал дополнительной интерпретации, что не нравилось многим психологам и вызвало их критику, но универсальность постановки привела к тому, что через некоторое время он вышел за пределы психологии и де-факто стал стандартом для других наук. Довольно скоро стало ясно, что, по сути, это те же главные компоненты, только с вращениями.

Если считать, что эксперт может оценить различия между парами объектов настолько, что можно их упорядочить, то можно поставить задачу определения координат объектов в многомерном пространстве с заданной метрикой (удобнее всего, евклидовой) таким образом, чтобы ранги различий как можно ближе соответствовали рангам дистанций между этими же парами в многомерном пространстве. Эти соображения легли в основу дистанционной модели М.Ричардсона (Richardson, 1938) – первого варианта неметрического многомерного шкалирования. Однако, из-за отсутствия вычислительных возможностей в то время этот метод не мог быть реализован. Поэтому В.Торгерсон предложил рассматривать различия между парами объектов как прямые аналоги расстояний в многомерном пространстве и разработал метод, позволяющий приписывать объектам координаты с сохранением расстояний – метрическая модель Торгерсона (Torgerson, 1952; Торгерсон, 1972). Эту модель уже можно было реализовать на компьютерах, что и было сделано. Но ее условия применимости оказались слишком жесткими, многие меры близости, применяемые психологами, явно не соответствовали аксиомам метрического расстояния, поэтому Р.Шепард и Дж.Крускал вернулись к первоначальным предположениям дистанционной модели М.Ричардсона (Shepard, 1962; Kruskal, 1964а, 1964б; Шепард, 1981). Р.Шепард построил алгоритм неметрического шкалирования, минимизирующий различия между двумя упорядочениями: различий в исходной матрице данных и дистанций в многомерном пространстве. Особенно обнадежило то обстоятельство, что при неметрических предпосылках алгоритм практически однозначно воссоздавал метрическую структуру данных за счет избыточности числа связей между объектами. Дж.Крускал модифицировал этот алгоритм, предложив использовать квазиметрическую меру различий между двумя упорядочениями (“стресс”), сохраняющуюся при монотонных преобразованиях, и известные градиентные методы минимизации функций многих переменных.

Ситуация значительно улучшилась по сравнению с метрической моделью Торгерсона, однако по трудоемкости вычислений алгоритм Крускала имел четвертый порядок относительно числа объектов. Даже на современных персональных компьютерах это означает обработку не более сотни объектов. Для многих психологических работ этого вполне достаточно, но с многомерным шкалированием случилось то же самое, что и с факторным анализом, – он вышел за пределы психологии и стал применяться в других науках, а там часто требуются другие объемы, например, в молекулярной генетике. Совсем недавно Й.Тагучи и Й.Ооно (Taguchi, Oono, 2005) обнаружили, что возврат к первоначальной схеме Р. Шепарда сокращает время счета более чем на порядок и, соответственно, позволяет обрабатывать тысячи объектов. Это означает резкое расширение потенциальной сферы применимости методов многомерного шкалирования. В ближайшие 10-15 лет следует ожидать взрыва работ по этой тематике, в том числе, и в биологических и психологических исследованиях.

Все эти методы пережили второе рождение с появлением компьютеров, особенно персональных. Сложность вычислительных процедур и объем данных перестали быть ограничением и сейчас классические многомерные методы биометрии входят практически во все профессиональные пакеты статистического анализа данных. Хемометрики активно используют -регрессию, первоначально появившуюся в эконометрике (Boardman et al., 1981; Wold, 1985). Кроме того, за пределами многомерного статистического анализа, наряду с факторным анализом (Иберла, 1980) и многомерным шкалированием (Дэйвисон, 1988), появились специфические компьютерные методы, такие, как самоорганизующиеся карты признаков (Kohonen, 1982) и нейронные сети (Горбань, Россиев, 1996). В отличие от классических методов многомерного анализа, они не опираются ни на какие предположения о распределении данных в генеральной совокупности и не используют расчета достоверности. По строгости теории они значительно уступают методам многомерного статистического анализа. Их прообразом является кластерный анализ (Дидэ, 1985), который тоже появился на заре XX века, однако, вряд ли его можно относить к многомерным методам, так как в нем вообще нет идеи геометрического пространства, в котором расположены объекты. И шкалирование и карты Кохонена как раз дополняют кластерный анализ геометрией взаимного расположения объектов.

С точки зрения практических приложений ситуация выглядит иначе. Очень широко применяются в биологических исследованиях и хорошо поддаются содержательной интерпретации факторный анализ и его разновидность, метод главных компонент, и кластерный анализ, как правило, в виде дендрограмм. Из-за трудностей в интерпретации практически не используется канонический анализ. Часто применяются множественная регрессия и дискриминантный анализ, однако интерпретировать их с биологических позиций гораздо труднее, чем факторный и кластерный анализы. Карты Кохонена и нейронные сети очень перспективны, однако они только входят в практику обработки биологических данных. Заслуживают большего внимания, хорошо интерпретируются, но редко используются методы многомерного шкалирования. Очень мало используется биологами, и совершенно напрасно, -регрессия.

Вместе с тем, ситуация в биологии и смежных науках продолжает оставаться неудовлетворительной. Во-первых, основная масса биологов недостаточно знакома с математикой и информатикой и предпочитает использовать более простые, хотя и давно устаревшие приемы. В качестве примера можно указать на большую популярность дендрограмм даже среди лидеров современной биологии – молекулярных генетиков, не говоря уж о геоботаниках и систематиках.

Во-вторых, в основном, по историческим причинам, геометрическая суть методов многомерного анализа оказалась скрыта за плотной завесой вероятностно-статистических представлений и понятий. В результате вместо анализа содержательной, биологической стороны дела вопрос все чаще сводится к крайне важному, но все же никак не первичному, определению достоверности полученных результатов. Это не означает, что нужно совсем отказываться от расчета достоверности. Иметь представление о статистической устойчивости получаемых результатов, безусловно, нужно. Хорошим вспомогательным, специфически компьютерным и вполне оправдавшим себя на практике средством, является, например, бутстреп-метод (Efron, 1979, 1982; Диаконис, Эфрон, 1983) (лекция 7). Не нужно только абсолютизировать значимость подобных расчетов.

В-третьих, некоторые из широко распространенных и стандартных методов многомерного статистического анализа, в частности, дискриминантный анализ и множественная регрессия, используют такие линейные преобразования пространства, которые изменяют расстояния между объектами в ходе обработки и, соответственно, искажают содержательный смысл получаемых результатов. Оставаясь безупречно правильными с математической точки зрения, эти методы вместе с рассчитываемой ими достоверностью не совсем адекватны той реальности, для изучения которой предназначены (лекции 5–6).

Таким образом, степень использования многомерных методов в биологии зависит не столько от того, насколько они теоретически обоснованы, сколько от того, насколько они помогают получать биологически интерпретируемые результаты. Это, в свою очередь, зависит от того, насколько биологическая сущность сходства и различия объектов воспроизводится геометрией взаимного расположения отображающих их точек в многомерном пространстве. Наиболее работоспособны те методы, которые в минимальной степени искажают задаваемые исследователем расстояния между объектами.

Особенностью предлагаемого курса является анализ не взаимосвязей между признаками, а расположения объектов в образованном признаками пространстве и направлений изменчивости через корреляции с признаками, а также доведения этого анализа до биологической интерпретации. Главная ценность многомерного анализа заключается не столько в определении достоверности получаемых результатов, сколько в содержащейся в нем возможности визуализировать промежуточные и окончательные результаты анализа и интерпретировать их с биологической точки зрения. Прежде, чем исследовать гипотезу, ее сначала надо выдвинуть. А до того, как выдвинуть, ее еще надо увидеть. Современная тенденция как раз и заключается в стремлении визуализировать данные, даже в ущерб достоверности и теоретической обоснованности. Хороший результат должен быть представлен в такой форме, чтобы он был очевиден (оче-виден = виден очам) для специалистов в соответствующей предметной области. Когда такой очевидности достигнуть не удается, приходится прибегать к статистическим критериям.

Математическая статистика как наука сформировалась только во второй половине XX века, а представление, что естественно-научные результаты только тогда являются доказательными, когда они обоснованы статистически, стало более или менее общепринятым только в последней четверти XX века. Возникает вполне законный вопрос: а как же наука обходилась без такого обоснования несколько тысяч лет? Архимед не садился в ванну сто раз, чтобы набрать статистику. Согласно легенде, ему хватило одного, чтобы увидеть закон. Обошелся без статистических критериев и Ньютон, когда записал в виде математического выражения закон всемирного притяжения (сам закон принадлежит Гуку). В его время оценка показателя степени при в формуле



была возможна с точностью порядка 4%. Но он не усомнился в том, что этот показатель строго равен двум для всей Вселенной, явно и далеко выходя за пределы статистической обоснованности. И оказался прав. Сейчас точность оценки этого показателя составляет около десятка нулей после запятой и он по-прежнему считается равным двум, хотя время от времени и выдвигаются предположения, что он все-таки чуть-чуть отличается от двойки.

Что касается достоверности, то надо ясно понимать ее место. Обычная статистическая практика заключается в том, что мы идеализируем те условия, в которых были получены данные, например, предполагаем существование и многомерную нормальность распределения объектов, отсутствие систематических ошибок, бесконечно большой размер выборки и т.д. В этих идеализированных условиях мы рассчитываем вероятность случайного получения нашего результата и, если она оказывается достаточно мала, делаем вывод, что наша гипотеза статистически подтверждается. Безусловно, это очень важный косвенный довод в пользу гипотезы, но никак не окончательный вердикт. Это примерно то же самое, что предполагать, что чемпион по стрельбе в тире будет самым лучшим охотником в тайге или снайпером на войне. Поэтому главным критерием всегда останется биологический смысл, а окончательное слово всегда принадлежит специалистам в соответствующей предметной области.

В курсе рассмотрен ряд задач, в основном, из области популяционной экологии животных, которые решаются с помощью методов многомерного анализа и которые нельзя было бы решить без этих методов. Спектр задач достаточно широк и хорошо иллюстрирует возможности геометрического подхода к анализу биологических объектов.

Чего нет в этом курсе? Нет дисперсионного анализа и теории планирования эксперимента. Нет теории проверки гипотез и критических областей, традиционно входящих в курсы математической статистики. Нет проверки нормальности. Для временных рядов нет спектрального анализа, устранения тренда и разложения в ряд Фурье. Все, кому это интересно, отсылаются к специальной литературе.
ЛЕКЦИЯ 2. Предварительная работа с данными

Для проведения многомерного анализа нужно представить исходные данные в виде таблицы "объект–признак", в которой каждый объект характеризуется значениями признаков. Понятие объекта является первичным. Предполагается, что существует некоторая генеральная совокупность объектов и у всех объектов имеются одни и те же свойства (атрибуты, характеристики, параметры) или на них влияют одни и те же факторы, значения которых можно определить для каждого объекта. Множество значений одного свойства или фактора для всей совокупности объектов называется признаком. Обычно мы имеем некоторую выборку объектов, случайную или неслучайную, которая в частных случаях может совпадать со всей генеральной совокупностью. Поскольку каждый реальный объект может характеризоваться необозримым числом свойств, нам приходится выбирать некоторый ограниченный набор признаков, однако понятие выборки к признакам, как правило, не применяется. Объекты должны быть более или менее однородными и обладать некоторым внутренним единством, тогда как признаки могут быть весьма разнокачественными по своей природе.

В некоторых случаях объекты и признаки можно менять местами. Например, если мы рассматриваем смертность мужчин от инфекционных заболеваний за ряд лет по всем экономическим регионам, то за объекты можно принять как регионы, так и годы. Причиной является то обстоятельство, что на самом деле у нас есть один признак – смертность мужчин, измеренный для всех пар «регион–год», которые фактически и есть «настоящие» объекты. В зависимости от целей исследования мы можем принять первые члены пары за объекты, а вторые – за признаки и наоборот. Более сложная ситуация возникает, когда мы рассматриваем смертность от инфекционных заболеваний за ряд лет по всем экономическим районам в зависимости от пола, т.е. фактически имеем тройку «регион–год–пол» в качестве первичного объекта и смертность – в качестве признака. Тогда в качестве объектов мы можем принять и регионы, и годы, и мужчин (женщин), и пары «регионы–годы», «регионы–мужчины (женщины)», «годы–мужчины (женщины)» а в качестве признаков – оставшиеся члены троек.

Признаки делятся на качественные (номинальные), ранговые (порядковые, ординальные) и количественные (интервальные) (Stevens, 1946; Стивенс, 1960). Значения качественных признаков (градации) можно сравнивать только на совпадение. Например, признак «виды» в знаменитых данных Р.Фишера для объектов «ирисы» имеет градации «setosa», «versicol», «virginic» (Fisher, 1936). Качественными могут быть и числовые признаки, например, номера маршрутов городского транспорта.

Отдельного разговора заслуживают ранговые признаки, измеряемые в порядковой шкале. Здесь возможны две ситуации. Значения ранговых признаков могут отражать только отношение порядка в данной выборке объектов. В этом случае их значения для конкретного объекта зависят от других членов рассматриваемой выборки и могут измениться при добавлении в выборку новых объектов. Эту ситуацию необходимо отличать от ситуации, когда упорядоченным является исходное множество значений признака, например, возраст грызунов, выраженный градациями juvenis, subadultus, adultus, senex, или стадия развития лягушек (Северцов, 2000). При добавлении в выборку новых объектов значения старых уже не изменятся. И в том и в другом случае градациям можно приписать порядковые номера и обращаться с таким признаком, как с количественным. Разница состоит в том, что в первом случае, поскольку номера идут подряд и каждый номер встречается ровно один раз, ранги подчиняются равномерному распределению, во втором – распределение произвольно.

Значения количественных признаков получают путем счета (счетные, меристические признаки) или измерения (мерные, метрические, пластические). Значения каждого количественного признака можно представить в виде точек числовой оси и для них, кроме отношения «меньше–больше», имеет смысл вопрос «насколько?». Кроме того, для длин интервалов имеет смысл вопрос «во сколько раз?». Примерами количественных признаков могут служить температура в шкалах Цельсия и Фаренгейта, долгота и широта географических пунктов и т.п. Говорят, что качественные признаки измерены в номинальной, а количественные – в интервальной шкале. Иногда среди количественных признаков выделяют признаки, измеренные в шкале отношений, например, длина и масса тела животного, температура в шкале Кельвина и т.д., для которых фиксировано начало отсчета (нуль), все значения положительны и имеет смысл отношение самих значений («во сколько раз?»), но на практике с ними поступают, как с обычными интервальными признаками. Однако, тем не менее, уместно заметить, что широко известный коэффициент вариации имеет смысл только для признаков, измеренных в шкале отношений.

Отнесение признаков к тому или иному типу достаточно условно. Например, счетные признаки при малом числе принимаемых ими значений ведут себя, как качественные, а при большом – как мерные. Такой признак как «зональность», имеющий градации «арктическая тундра», «субарктическая тундра», «лесотундровое редколесье», «северная тайга», «средняя тайга», «южная тайга», «подтаежные леса», «северная лесостепь», «южная лесостепь», «степь» – хотя и выглядит качественным, но его можно рассматривать и как ранговый, так как градации упорядочены в широтном направлении. Любой ранговый признак фактически является счетным, так как его значение для любого объекта равно числу значений меньше него плюс единица. Мерные признаки всегда измеряются с некоторой точностью, поэтому множество принимаемых ими значений можно считать конечным. Любой признак, измеренный в шкале отношений, можно превратить в обычный интервальный признак, если изменить начало отсчета (например, отцентрировать). Из любого количественного признака легко получить ранговый, правда, с потерей информации, упорядочив его значения и взяв в качестве новых значений их порядковые номера. Еще один способ, также с потерей информации, заключается в разбиении значений количественного признака на ряд классов и отнесении каждого из объектов к одному из классов. Например, рост людей можно измерять в сантиметрах, а можно грубо разбить на три класса: низкорослые, среднего роста, высокие. Такой признак можно считать как ранговым, так и качественным. Далее мы увидим, что признаки всех типов можно обрабатывать одними и теми же алгоритмами.

После того, как определены значения признаков для всех объектов выборки, можно заняться статистикой, то есть подсчетом того, сколько и каких объектов имеется в выборке и представлением этих сведений в обозримом и сжатом виде. Исторически с древнейших времен и до конца XIX века статистика ничем другим и не занималась, а математическая статистика, как наука, сложилась и оформилась только во второй половине XX века. Само слово "статистика" происходит от латинского слова "status" – положение или состояние. От него же происходит и слово “штаты” (государственный аппарат, государство). Сведения для государственного аппарата собирались еще в глубокой древности, как правило, в целях налогообложения. Известны китайский сборник Шу-Кинг (VI век до н.э.), сообщения Геродота о деятельности Дария и Ксеркса (VI–V век до н.э.), "Политика" Аристотеля (IV век до н.э.), цензы древнего Рима и т.д. На Руси первым примером систематического сбора статистических сведений могут служить переписи населения, проведенные татаро-монголами в XIII веке для упорядочения сбора дани.

Современное название этот предмет получает в середине XVIII века в заглавии книги "Notitia rerum politica vulgo statistica" ("Сведения о делах государственных, в просторечии называемые статистикой"). В XX веке статистикой стали называть учение о методах наблюдений любых массовых явлений (Терентьев, 1971).

Любой способ определения значений признаков, включая визуальный и экспертный, будем называть измерением. Например, глаз опытного специалиста способен различить 120 оттенков черного цвета ткани. Главная цель измерения признаков, которую никогда нельзя упускать из виду – это определение сходства или расстояния между объектами. Признаки нужны не сами по себе, а для различения объектов. Если какой-то даже очень важный признак имеет одно и то же значение для всех объектов, то для обработки он абсолютно бесполезен. Поэтому всегда нужно обращать внимание на то, насколько выбранная шкала отражает те содержательные различия, которые нужно измерить. Например, при использовании ранговых признаков предполагается, что нам известен только порядок следования объектов. Поэтому надежнее всего считать, что расстояние между соседними градациями одинаково. Если же это предположение нас не устраивает, то это значит, что у нас на самом деле имеется некая явная или неявная дополнительная информация. Но шкалу всегда можно переопределить. Например, в автогонках по Формуле1, а также в командном зачете на Олимпиадах, очки даются за первые шесть мест, причем за первое место 9 очков, за второе – 6, за третье – 4 и далее 3, 2, 1 очко. Это означает, что расстояние между победителем и вторым призером приравнивается к трем условным единицам, а расстояние между седьмым и последним участником – к нулю. {Предельный случай. В средневековом городе состоялся турнир рыцарей. Победитель получает руку и сердце прекрасной дамы. Участникам, занявшим второе–тридцатое места, предоставлены лучшие места на городском кладбище.} Часто применяемыми способами переопределения шкалы являются логарифмическое преобразование или извлечение корня некоторой степени. Эти преобразования меняют расстояния между объектами. Критерием правильности подбора преобразования служит соответствие полученных расстояний содержательному биологическому смыслу. Ответственность за выбор шкалы лежит на исследователе.

Если признак может принимать всего два значения, например, пол, то расстояние между этими значениями всегда одинаково и проще всего кодировать их значениями 0 и 1 на числовой оси. В этом случае признак называется бинарным, двоичным, дихотомическим, индикаторным или характеристическим. Бинарный признак фактически является количественным.

Если номинальный признак может принимать больше двух значений, то расстояние между разными градациями тоже всегда считается одинаковым, но одномерную шкалу в этом случае подобрать нельзя и нужно кодировать такой признак несколькими бинарными, сопоставляя каждой градации отдельный признак и ставя 1, если номинальное значение совпадает с этой градацией, и 0 – в противном случае.

Будем считать, что для рассматриваемой выборки номинальные признаки, если они есть, уже представлены в двоичном виде, значения порядковых признаков заменены их рангами, а для количественных признаков подобраны адекватные шкалы. Это означает, что все признаки можно считать количественными. Тем не менее, остается еще несколько проблем.

Первая: признаки могут быть несопоставимы между собой по единицам измерения, например, вес, длина и пол, или давление и возраст. Вторая – признаки, измеренные в одних и тех же единицах, могут сильно отличаться по абсолютной величине, например, длина черепа и межглазничная ширина. Третья – необходимо измерять расстояние между объектами одновременно по нескольким признакам.


Многомерное пространство. Центрирование и нормирование

Если мы умножим значения любого количественного признака на любую ненулевую константу и прибавим к ним любую константу, то это никак не изменит относительных расстояний между объектами по этому признаку. Поэтому мы можем использовать преобразования сдвига и масштаба для приведения разных признаков в соответствие друг с другом. Преобразование:



где – среднее значение, – число объектов, называется центрированием. После центрирования новое среднее признака равно 0:



.

Преобразование:



где – дисперсия признака (вместо часто применяется ), называется нормированием. После такого преобразования все признаки становятся безразмерными, а новая дисперсия равна 1:



Каждый объект через значения измеренных у него признаков можно представить в виде точки в многомерном евклидовом пространстве. Каждый признак является в этом пространстве отдельной координатной осью, ортогональной всем остальным. Все объекты образуют в этом пространстве некоторое "облако". Координатами точек являются значения признаков. До нормировки это "облако" может находиться в стороне от начала координат, которое расположено в точке с нулевыми значениями всех признаков. Как мы уже знаем, исходные признаки, как правило, центрируются и нормируются. Центрирование геометрически означает перенос начала координат в "центр тяжести облака" – точку со средними значениями всех признаков, которая называется центроидом. Очевидно, что взаимное расположение объектов при центрировании не меняется. Нормировка признаков приводит к изменению масштабов пространства таким образом, что разброс точек вокруг среднего (равного нулю после центрирования) становится одинаковым по каждой оси и равным единице, то есть все признаки уравниваются в правах и приобретают равный вес. Одним из мифов, сложившихся вокруг многомерного анализа, является представление о том, что нормировка – обязательный элемент этого метода. Это не так. Наиболее четко ситуация обрисована в трехтомнике Кендалла и Стьюарта (1976): "Решение о нормировке должно приниматься, исходя из нестатистических соображений". Если по каким-то содержательным причинам нужно придать разные веса исходным признакам или оставить первоначальные (например, работая с частотами), то исследователь вправе это делать по своему усмотрению. Весом признака служит величина разброса вокруг среднего, а не его абсолютные значения.

{Поэтому общепринятые правила судейства в наших КВН являются не совсем объективными. Важность конкурсов задается предельным числом очков, которые можно за него поставить, например, 4 – за разминку и 7 – за домашнее задание. Однако в первом случае судьи (кроме Гусмана), как правило, выбирают между 3 и 4, во втором – между 6 и 7. Это означает, что фактически все конкурсы равноправны и команда, проигравшая разминку с крупным счетом, уже имеет мало шансов отыграться на более важных конкурсах. Правильнее было бы судить все конкурсы из 10 баллов, а их важность оценивать коэффициентами, на которые нужно умножить результаты каждого конкурса.}

Надо всегда учитывать, что любая нормировка заново определяет евклидово расстояние между объектами. На практике количественные признаки, как правило, нормируются, исходя именно из желания исследователя так определить расстояние между объектами, чтобы все признаки участвовали в его определении в равной мере. Однако, коррелирующие признаки в какой-то степени дублируют друг друга и это неизбежно влияет на расстояние между объектами. В качестве попытки решить эту проблему было предложено расстояние Махаланобиса (лекция 3). Возможны и другие нормировки и другие расстояния, которые могут даже не быть расстояниями в том смысле, что для них не выполняются аксиомы метрики. В этом случае они называются различиями.

Возможна ситуация, когда координаты объектов не заданы, а вместо этого сразу дана матрица расстояний (количественный признак на парах объектов) или различий (ранговый признак). (Если задана матрица сходства, то ее всегда можно преобразовать в матрицу различий.) Чтобы приписать объектам координаты, применяются методы многомерного шкалирования (лекция 7).
ЛЕКЦИЯ 3. Линейная алгебра

Основным объектом многомерного анализа является таблица "объект–признак". Все признаки можно считать количественными. Каждый признак отображается на числовую ось и отражает расстояние между объектами. Каждый признак имеет определенный вес, характеризующий относительную важность этого признака и равный его дисперсии. После стандартной нормировки на среднеквадратичное отклонение все признаки имеют равный вес. Веса объектов считаются равными. Более сложную ситуацию, когда объектам тоже приписываются разные веса, рассматривать не будем. Отметим только, что она не сводится ни к случаю еще одного признака, ни к умножению значений объектов на веса.

Введем следующие определения:

Скаляр – действительное число.

Вектор – набор скаляров.

Матрица – набор векторов одинаковой длины.

Вектор-строка – матрица из одной строки.

Вектор-столбец – матрица из одного столбца.

Операции:

Умножение матрицы на скаляр.

Cкалярное произведение векторов и :

Умножение матрицы на вектор.

Умножение матрицы на матрицу.

Сложение матриц.

Транспонирование матрицы. .

Единичная матрица . Диагональная матрица .

Ортогональная матрица. .

Будем считать известными понятия скаляра, вектора, матрицы (единичная, диагональная, ортогональная) и операций на ними: умножение матрицы на скаляр, скалярное произведение векторов и , умножение матрицы на вектор, умножение матрицы на матрицу, сложение матриц, транспонирование матрицы (Ланкастер, 1978).

Таблица "объект–признак" является матрицей, а каждый объект – вектором. Каждый признак тоже является вектором. Геометрическое представление: если в качестве осей выбрать признаки, то каждый объект может быть представлен точкой в этом пространстве. Координатами точки служат значения признаков. Такое пространство будем называть пространством объектов или основным. Если в качестве осей выбрать объекты, то каждый признак может быть представлен точкой в этом пространстве. Будем называть его пространством признаков или двойственным. Оба пространства определены одновременно на основе одной и той же матрицы. Если значения в матрице меняются, то одновременно меняются положения объектов и признаков, как точек в соответствующих пространствах.

Размерность – важнейшее свойство пространства. Размерность основного пространства – число признаков. Размерность двойственного – число объектов. Если размерность равна единице, то точки можно расположить на числовой оси. Если размерность равна двум, то их можно расположить на плоскости. Если размерность равна трем, то совокупность точек еще можно представить наглядно в привычном для наших органов чувств виде, разместив их в пространстве. Если размерность пространства больше трех, то взаимное расположение точек в этом пространстве можно представить только мысленно, хотя и существуют различные хитроумные приемы для визуального отображения пространств большей размерности: физико-географические карты (цвет), полигоны, лица Чернова и т.д.

Определим в пространстве расстояние между точками по формуле: . Такое расстояние является многомерным обобщением обычного пифагорова расстояния и называется евклидовым. Евклидовым называется и все пространство, если в нем определено евклидово расстояние. Каждую точку можно рассматривать как вектор относительно начала координат.

Вычислим скалярное произведение вектора само на себя . Показатель называется длиной вектора и является расстоянием до точки от начала координат. Определим угол между и по формуле: . Показатель называется коэффициентом корреляции между признаками.

Свойства:

Если ко всем значениям одного признака прибавить или вычесть одно и то же число, то расстояние между объектами не изменится. Произойдет перенос начала координат. Центроид – вектор средних. Центрирование – перенос начала координат в центр тяжести выборки.

Если все значения всех признаков умножить или разделить на одно и то же ненулевое число, то взаимное расположение объектов не изменится. Все расстояния пропорционально возрастут или уменьшатся. Все углы останутся прежними.

После центрирования и нормировки на среднеквадратичные отклонения длины всех признаков одинаковы и равны , то есть зависят от числа объектов. Разделим все значения всех признаков на . Тогда в двойственном пространстве все признаки будут расположены на единичной окружности, длины всех признаков равны 1, а для любой пары признаков.

Поэтому для одной выборки с матрицей будем всегда считать, что признаки центрированы и нормированы на их длину. Произведение матриц есть матрица коэффициентов корреляции.

Раскроем скобки в определении расстояния между объектами:


.

Произведение – это матрица, по которой можно легко вычислить расстояния между объектами. Действительно, диагональные элементы равны , а недиагональные . Поэтому



.

Умножим матрицу на произвольную ортогональную матрицу : . Произведение не изменится. Следовательно, не изменятся и расстояния между объектами. Геометрически умножение на ортогональную матрицу означает поворот в основном пространстве объектов. Так как произведение ортогональных матриц - тоже ортогональная матрица, то последовательность поворотов – тоже поворот.

Матрица – матрица новых признаков. При повороте меняются дисперсии признаков и корреляции между ними. Таким образом, из одного набора старых признаков мы можем с помощью поворотов получить бесконечное число наборов новых признаков. Однако расстояния между объектами и сумма дисперсий признаков при повороте не меняются. Если мы хотим, чтобы после нормировки никакие методы обработки не меняли взаимных расстояний между объектами, то такие методы должны базироваться на поворотах. Некоторые стандартные алгоритмы факторного анализа – это нахождение поворотов, удовлетворяющих определенным критериям (варимакс, квартимакс и т.д.).

Почему бинарные признаки можно обрабатывать так же,

как количественные

В большинстве статистических учебников вопросы обработки качественных и количественных признаков излагаются раздельно. Алгоритмы и методы выглядят столь различно, что не возникает и мысли об их внутреннем единстве. В настоящем разделе будет показано, что основные формулы, применяемые для анализа качественных признаков, прямо выводятся из соответствующих формул для количественных признаков.

Пусть признак у объектов принимает только два значения: 0 и 1. Пусть число единиц равно . Вычислим среднее и дисперсию признака по формулам для количественных признаков (Васильева, 2000):



,

где – частота признака, .

Таким образом, и среднее, и дисперсия признака полностью выражаются через его частоту. Распределение подчиняется биномиальному закону, который приближенно аппроксимируется нормальным распределением с параметрами и . Приближение применимо при (Корн, Корн, 1970). Поэтому грубое сравнение двух средних для бинарных признаков можно проводить, как и для количественных признаков, с помощью обычного -критерия. Для более точного сравнения необходимо, конечно, применять -преобразование Фишера (Плохинский, 1961).

Пусть теперь значения двух признаков, и , у объектов равны только 0 или 1. Вычислим корреляцию между признаками по формулам для количественных признаков:















,
где – число объектов со значениями 1 обоих признаков;

– число объектов со значениями 1 признака и 0 – признака ;

– число объектов со значениями 0 признака и 1 – признака ;

– число объектов со значениями 0 обоих признаков;

– частота признака ;

– частота признака ;

.

Результат полностью совпадает с формулой коэффициента корреляции φ для бинарных признаков, который вычисляется по так называемой четырехпольной (тетрахорической) таблице (табл. 3.1). Впервые это было показано еще К. Пирсоном (Pearson, 1900), автором коэффициента φ.


Таблица 3.1

Четырехпольная таблица сопряженности двух бинарных признаков




x\ y

1

0

Σ

1

a

b

+ b

0

c

d

c + d

Σ

+ c

b + d

N

Рассмотрим теперь ситуацию, когда один из признаков, например, , является количественным и подчиняется нормальному распределению, а другой – – может принимать только два значения, 0 и 1. Пусть число единиц в x равно , а число нулей – . Фактически выборка разбивается на две с числом объектов и , . Вычислим корреляцию между признаками по формулам для количественных признаков:











,
где – среднее единичной выборки;

– среднее нулевой выборки;

– среднее всей выборки

– дисперсия единичной выборки;

– дисперсия нулевой выборки.
Отсюда

Умножая обе части на получим


В случае нормального распределения для двух количественных признаков при нулевой гипотезе статистика справа имеет -распределение с степенями свободы. Cтатистика слева есть -критерий Стьюдента равенства средних для двух выборок объема и из одного и того же нормального распределения и также подчиняется -распределению с степенями свободы (Большев, Смирнов, 1983). Отсюда следует, что в случае бинарного и количественного признаков вычисление коэффициента корреляции между ними и определение его достоверности можно проводить по формулам для двух количественных признаков. В этом случае критерий достоверности коэффициента корреляции совпадает с критерием Стьюдента равенства средних для двух выборок (см. замечание в лекции 5).

Таким образом, вычисление среднего значения бинарного признака по формуле для количественного признака эквивалентно вычислению его частоты. Сравнение двух средних для бинарных признаков можно проводить, как и для количественных признаков, с помощью обычного -критерия. Вычисление корреляции между количественным и бинарным признаками по формулам для количественных признаков эквивалентно сравнению средних по -критерию Стьюдента. Вычисление корреляции между двумя бинарными признаками по формулам для количественных признаков эквивалентно вычислению коэффициента сопряженности Пирсона по тетрахорической таблице корреляции. Поэтому во всех случаях вычисления можно проводить по формулам для количественных признаков, пользуясь, например, стандартными статистическими пакетами.
Метод главных компонент

Пусть имеется матрица , содержащая строк (объектов) и столбцов (признаков). Обозначим через транспонированную матрицу, в которой строки и столбцы меняются местами, и положим . Пусть – матрица собственных векторов матрицы , – диагональная матрица ее собственных значений и – единичная матрица. Пусть . Тогда (Кендалл, Стьюарт, 1976):





.

Поскольку матрица ортогональна, то умножение на нее – это фактически поворот осей в многомерном пространстве, сохраняющий эвклидово расстояние между объектами. Матрица имеет те же размеры, что и , однако ее столбцы не коррелируют между собой. Дисперсии столбцов матрицы являются собственными значениями матрицы и диагональными элементами матрицы . Сами столбцы являются линейными комбинациями столбцов матрицы с суммой квадратов коэффициентов, равной единице, и называются главными компонентами. Каждая компонента имеет дисперсию, максимально возможную из всех линейных комбинаций, ортогональных предыдущим компонентам. Обработка матрицы методом главных компонент заключается в вычислении матриц , и . Программы вычисления собственных векторов и собственных значений имеются в стандартном математическом обеспечении современных компьютеров (Агеев и др., 1976; Гайдышев, 2001). Если собственные векторы матрицы умножить на квадратные корни из собственных чисел , то мы получим коэффициенты корреляции между компонентами и столбцами матрицы , достоверность которых можно определять по стандартным статистическим таблицам.

Матрица называется матрицей вторых или смешанных моментов. Если столбцы матрицы центрированы , то матрица называется ковариационной, а если и нормированы на длину , то корреляционной. Как правило, методу главных компонент предшествует центрирование и нормирование матрицы .

Как мы уже видели, и ранговые и двоичные признаки можно обрабатывать как количественные и вместе с ними, хотя во многих руководствах и учебниках утверждается обратное (Ким, Мьюллер, 1989). Коэффициенты линейной корреляции в этом случае автоматически переходят в соответствующие ранговые, бисериальные и тетрахорические коэффициенты, следовательно, матрица корреляций никогда не будет иметь отрицательных собственных значений, вопреки мнению М.Кендалла и А.Стьюарта (1976).

Если поменять объекты и признаки местами, то получим транспонированную матрицу . Ее также можно обрабатывать методом главных компонент. Пусть , и - матрицы, полученные в результате такой обработки и . Тогда:

а) ненулевые собственные значения матриц и равны и их не более ;

б) первые столбцов нормированной матрицы компонент совпадают с первыми p столбцами (собственными векторами) матрицы ;

с) первые столбцов нормированной матрицы компонент совпадают с первыми p столбцами (собственными векторами) матрицы .

Удобнее обрабатывать матрицу, у которой число столбцов меньше, чем число строк.

Главные компоненты не коррелируют между собой. Каждая из них отвечает за свою долю изменчивости. Так как сумма дисперсий при поворотах не меняется, то смысл имеет только доля каждой компоненты. Обычно она выражается в процентах. Главный смысл применения главных компонент заключается в том, что первые компоненты могут взять на себя значительную часть общей дисперсии и выявить реальную размерность данных.

Поворот с помощью матрицы , очевидно, не меняет расстояний между объектами. А вот нормировка главных компонент собственными значениями приводит к изменению расстояний. Новое пространство называется пространством Махаланобиса, а расстояние в нем – расстоянием Махаланобиса. Для чего это делается?

Корреляция между исходными признаками означает, что признаки в некоторой мере дублируют друг друга. Если, например, корреляция равна 1, то дублируют полностью. В этом случае у нас фактически один признак, повторенный дважды. Очевидно, что второй признак никакой новой информации не несет. Однако он дает вклад как в расстояние между объектами, так и в дисперсии главных компонент, в которые входит. Кроме того, порождается еще одна компонента с нулевой дисперсией, которая начинает приносить неприятности в множественной регрессии и дискриминантном анализе. Можно, конечно, дублирующий признак просто отбросить, как рекомендуется в некоторых статистических руководствах. Но, если корреляция между признаками по модулю меньше 1, то, отбрасывая один из них, мы, наряду с дублируемой, лишаемся и какой-то уникальной информации. Дублирование информации выражается в увеличении дисперсий первых главных компонент и в появлении новых компонент с малыми и нулевыми дисперсиями. Если пронормировать главные компоненты, то мы уберем это дублирование, сохранив всю необходимую информацию.

К сожалению, у этой красивой идеи есть очень большой недостаток – при переходе в пространство Махаланобиса нормируются все компоненты, а не только имеющие большие дисперсии. Это приводит к тому, что неоправданно большой вес получают дальние компоненты с малыми дисперсиями. Мы искусственно увеличиваем масштаб изменчивости по направлениям, которые совершенно этого не заслуживают, фактически умножаем «шум». На сегодняшний день эта проблема, несмотря на несколько десятков лет исследований, еще не имеет приемлемого решения. Практическая рекомендация заключается в том, что нужно вообще выбросить из анализа дальние компоненты с малыми или нулевыми дисперсиями. Другим практическим выходом из положения является -регрессия (лекция 6).
Метод нелинейных главных компонент

В ситуации, когда множество точек в многомерном пространстве на самом деле укладывается в изогнутое подмножество меньшей размерности, применимы методы, изложенные в (Principal Manifolds…, 2007)..


Поворот осей. Факторный анализ

Иногда распределение объектов на плоскости главных компонент, особенно в случаях, сильно отклоняющихся от нормального распределения, удобнее анализировать, если плоскость повернуть на некоторый угол. Однако надо сразу оговориться, что в этом случае оси в общем случае перестают быть ортогональными. В факторном анализе этот прием является основным, так как в нем ортогональности не требуется изначально. Именно поэтому многие алгоритмы факторного анализа начинают с метода главных компонент, а потом добавляют к нему поворот, исходя из каких-либо соображений наподобие простоты структуры нагрузок, как в известных критериях “варимакс “ или “квартимакс”. Однако соображения могут быть и любые другие, например, расположение оси в направлении некоторой интересной или отклоняющейся группы объектов и т.д. Технически это осуществляется следующим образом. Пусть – угол поворота, а и – векторы нагрузок (собственные векторы, вклады признаков, веса), соответствующие осям плоскости и . Определим новые оси и новые векторы нагрузок через формулы:









Так как и , то легко видеть, что и новые векторы нагрузок будут удовлетворять этим же соотношениям. Поэтому после поворота можно анализировать вклады признаков в новые оси точно так же, как и в старые (Однако в общем случае после поворота корреляции новых компонент с исходными признаками уже не будут пропорциональны коэффициентам векторов нагрузок.) Дисперсии новых компонент будут равны:







ЛЕКЦИЯ 4. Внутривыборочная изменчивость

Цель настоящей лекции – подробнее разобраться в том, насколько полезен многомерный анализ как средство поиска биологического смысла при анализе изменчивости биологических объектов. Прежде всего, у нас есть объекты, есть признаки и есть значения признаков для каждого объекта, сведенные в таблицу "объект – признак". Что такое объекты – объяснять не надо. От них требуется, чтобы они были биологическими по своей природе, иначе ни о каком биологическом смысле говорить не придется, и обладали некоторым внутренним единством. Для определенности – пусть это будут черепа полевок, взятых в одной или нескольких географических точках. Что такое признаки, подробно разбиралось в лекции 2. Примерами количественных признаков могут служить промеры черепов, сделанные штангенциркулем: кондилобазальная длина, длина мозговой части, межглазничная ширина и т.п. Признаки получаются путем применения к объектам некоторой измерительной процедуры, например, сравнения с некоторым эталоном, и называются исходными.

Но как быть с признаками, которые получаются путем вычислений из исходных признаков, например, с очень широко распространенными среди морфологов индексами? Мы знаем, что у биологических объектов размеры сильно варьируют, и хотим избавиться от их влияния, чтобы изучать форму в чистом виде. Поэтому берем отношение одного признака к другому, например, длины мозговой части к кондилобазальной длине, и считаем его новым признаком, имеющим те же права, что и исходные признаки. (Примечание 1. Еще лучше взять логарифм отношения, тогда абсолютная величина нового признака не будет зависеть от того, берем ли мы отношение меньшего признака к большему или наоборот. Примечание 2. Эта операция применима только к признакам, измеренным в шкале отношений. Примечание 3. По мнению академика А.Д.Александрова (1987) само понятие вещественного (действительного) числа выросло из отношения длин отрезков).

Имеет ли признак, полученный таким образом, биологический смысл? Любой систематик ответит на этот вопрос утвердительно, исходя из многолетнего опыта своей науки. Можно ли вычислить, например, его наследуемость? А почему бы и нет, ответит любой генетик, конечно, можно, если нас интересует наследуемость именно формы. Является ли новый признак "математической переменной", непосредственно не измеряемой никаким инструментом? Вне всякого сомнения. Откуда же у "математической переменной" взялся биологический смысл? И вслед за этим второй вопрос – а был ли биологический смысл у исходных признаков и какой именно? Ведь то, что мы умеем что-то измерять, вовсе не означает, что само измерение осмысленно. Ответ зависит от того, для какой цели мы проводим измерения или вычисляем новые признаки.

В случае с черепами ответ более или менее очевиден. Основной причиной вариабельности промеров черепа в выборках из природных популяций является возрастная изменчивость. Но не единственной. Даже если брать только взрослых особей, например, перезимовавших полевок, или даже строго одновозрастных лабораторных крыс (Atchley et al., 1981), то наиболее заметными все равно будут различия в размерах. Растущему организму проще всего среагировать на любые внешние влияния или проявить внутренние отличия от других особей замедлением или ускорением развития организма в целом или отдельных его частей. Вычисление индексов исходит из не всегда осознаваемого предположения, что с увеличением размеров все промеры увеличиваются пропорционально, не меняя формы объекта, которая, таким образом, является инвариантом. (Более аккуратные рассуждения учитывают возможную аллометрию, но суть от этого не меняется). А разница в индексах означает разницу именно в форме, которая часто более интересна биологам, особенно систематикам, чем разница в размерах. Получается, что "математическая переменная" может иметь бόльший биологический смысл, чем те исходные признаки, из которых она вычислена. А они, в свою очередь, служат лишь вспомогательными, промежуточными звеньями для достижения цели.

Перейдем теперь к многомерному анализу. Каждый объект через значения измеренных у него признаков можно представить в виде точки в многомерном евклидовом пространстве. Каждый признак является в этом пространстве отдельной координатной осью, ортогональной (перпендикулярной) всем остальным. Все объекты образуют в этом пространстве некоторое "облако". Координатами точек являются значения признаков. В случае промеров черепа, которые всегда положительны, это "облако" находится в стороне от начала координат, которое расположено в точке с нулевыми значениями всех признаков. Кроме того, некоторые признаки имеют заведомо бόльшие значения, чем другие, например, кондилобазальная длина всегда больше межглазничной ширины, и "облако" вдоль таких признаков будет более сдвинутым и более вытянутым. Возможна ситуация, когда они отличаются и по размерности, например, если мы будем дополнительно брать вес черепа и нижней челюсти. Поэтому исходные признаки, как правило, центрируются и нормируются (лекция 2).

После центрирования и нормирования все объекты получают новые координаты – значения центрированных и нормированных признаков. Эти признаки обладают следующим математическим свойством: если взять скалярное произведение любых двух признаков (сумму попарных произведений координат объектов), то она будет равна линейному коэффициенту корреляции между ними (лекция 3). Положительный коэффициент корреляции означает, что с увеличением одного признака, как правило, увеличивается и другой, отрицательный – что другой уменьшается. Иными словами, поведение одного признака дает нам некоторую информацию о поведении другого. Нулевой коэффициент корреляции означает отсутствие линейной статистической связи между признаками, то есть при увеличении или уменьшении одного из признаков, другой изменяется произвольным образом. Обычно достоверность коэффициента корреляции определяется, исходя из предположения о двумерной нормальности распределения объектов по исследуемым признакам. Однако еще одним из распространенных мифов о методе главных компонент является представление о том, что он обязательно требует многомерной нормальности распределения. Это абсолютно не так. Объекты могут быть распределены как угодно, образовывая одно "облако" или несколько любой нелинейной формы, например, в виде подков или петель, скалярное произведение признаков все равно будет являться линейным коэффициентом корреляции. Нормальность требуется только при определении достоверности коэффициента корреляции и то только потому, что мы не умеем ее вычислять в случае других распределений. Еще она желательна, но не обязательна, когда мы трактуем компоненты как действие независимых причин.

Теперь переходим к самому главному – а есть ли биологический смысл в распределении "облака" точек, представляющих наши объекты в признаковом пространстве, и их взаимном расположении? То, что такой смысл есть в распределении объектов по каждому отдельному признаку, никто не сомневается, так как обычно именно по отдельным признакам ведется содержательный анализ. Однако математически оба представления эквивалентны. Геометрически каждый признак представляет собой всего лишь некоторое направление, на которое спроецировано многомерное "облако" объектов. И, наоборот, из распределений объектов по всем признакам "облако" восстанавливается однозначно. Следовательно, содержательный смысл у обоих представлений абсолютно одинаков. Разница заключается только в том, что, анализируя признаки по отдельности, мы не видим того общего, что их объединяет, а многомерный анализ позволяет охватить всю картину разом, предоставляя для этого некоторые дополнительные возможности. Например, если рассмотреть любое другое направление в многомерном пространстве и спроецировать на него это "облако", то мы можем изучать распределение объектов и по нему точно так же, как и по любому исходному признаку. Каждый объект получит некоторое значение, являющееся его координатой на новой оси, т.е. фактически мы получим новый признак. То, что мы непосредственно не измеряли его значений, а вычислили их из значений исходных признаков, как мы уже видели выше на примере индексов, никакой роли не играет. Более того, мы можем рассмотреть любой набор взаимно перпендикулярных направлений, число которых равно числу исходных признаков, и спроецировать на них наше "облако". Геометрически это означает поворот в пространстве, который не меняет расстояний и взаимного расположения объектов. Такой поворот называется ортогональным. Наглядным примером может служить перемещение точек изображения на экране дисплея относительно осей комнаты, когда мы его поворачиваем для того, чтобы лучше рассмотреть изображение.

Какой из возможных поворотов выбрать, зависит исключительно от целей, которые мы перед собой ставим. Например, если у нас есть две группы объектов, о которых у нас есть некоторая дополнительная информация, мы можем одну из осей провести через них и посмотреть, как на этой оси расположатся другие объекты. Мы можем выбрать поворот и из соображений удобства. (Кстати, именно это и делает факторный анализ (лекция 3).) Ведь иметь дело с исходными признаками как раз не очень удобно. Так как дисперсия каждого признака после нормировки равна единице, каждый признак вносит равную долю информации. Однако визуально анализировать расположение точек в более чем трехмерном пространстве наши органы чувств не приспособлены. Даже перебор всех сочетаний по два или три признака достаточно утомителен, хотя никому и не возбраняется. Но охватить всю картину и увидеть ее целостность, если она, конечно, есть, мы все равно не в состоянии.

Вот здесь и выступает на сцену коррелированность признаков. Если признаки коррелируют между собой, то это означает, что "облако" объектов в многомерном пространстве вытянуто вдоль некоторого направления, не совпадающего ни с одной из осей, и тем больше вытянуто, чем сильнее они коррелируют. И распределение объектов по этому направлению имеет дисперсию больше единицы, то есть формально содержит больше изменчивости, чем любой исходный признак. Поэтому мы можем поставить математическую задачу: найти направление, на котором достигается максимальная дисперсия проекции "облака". Именно эта задача решается в методе главных компонент (Pearson, 1901; Hotelling, 1933). Точнее говоря, в методе главных компонент ищется весь набор направлений, сохраняющий всю информацию об "облаке" и обладающий одним дополнительным свойством: если упорядочить направления по величине из изменчивости, то суммарная дисперсия любого числа первых компонент максимальна. На практике нередки случаи, когда, например, на первые две-три компоненты приходится 70-80% всей дисперсии. Поскольку с геометрической точки зрения переход к новым признакам означает всего лишь поворот всего "облака" в пространстве без изменения расстояний и взаимного расположения объектов, то информация не добавляется и не исчезает, просто это же "облако" объектов мы видим в несколько ином ракурсе, наиболее удобном для обозрения. Каждый новый признак является линейной комбинацией старых (суммой с некоторыми коэффициентами, которые могут быть как положительными, так и отрицательными). Верно и обратное, каждый старый признак является линейной комбинацией новых, что лишний раз подчеркивает сохранность исходной информации при этих преобразованиях.

(Кстати, попутно развеем еще пару мифов, сложившийся вокруг главных компонент. Для метода главных компонент совершенно необязательно вычислять корреляционную или ковариационную матрицу и поэтому число объектов абсолютно не обязано быть таким, чтобы коэффициенты корреляции были достоверными. Тем более не обязательно, чтобы число объектов превышало число признаков. Другое дело, что расчет через корреляционную матрицу технически очень удобен и излагается во всех статистических руководствах и применяется во всех статистических пакетах. Некоторые пакеты даже не умеют вычислять главные компоненты, если число объектов меньше числа признаков. Однако эквивалентные результаты можно получить и прямым вычислением главных компонент без всякой корреляционной матрицы, так называемым “разложением по сингулярным числам” (SVD). При этом корреляции между компонентами все равно окажутся равными нулю, причем независимо от формы "облака". Второй миф заключается в том, что, поскольку коэффициент корреляции является линейным, т.е. измеряет только степень приближения "облака" к прямой линии, то вся информация, содержащаяся в возможном нелинейном расположении объектов, пропадает. На самом деле эта информация никуда не девается, при ортогональных поворотах "облака" взаимное расположение объектов полностью сохраняется и при проекции на главные компоненты нелинейность очень хорошо визуализируется. Естественно, коэффициенты корреляции, в силу своей линейности, ее не отражают и требуются какие-нибудь специальные нелинейные меры, если нужно выразить ее численно, но главные компоненты этому ничуть не мешают, скорее наоборот. Часто бывает достаточно самой визуализации через компоненты, чтобы правильно понять биологический смысл наблюдаемой нелинейности.)

После расчета компонент мы можем оставить для рассмотрения только первые две-три из них и потерять при этом всего лишь 20-30% общей изменчивости. Если в распределении объектов в исходном признаковом пространстве был какой-то биологический смысл, то мы его потеряли в минимально возможной степени. Причем, скорее всего, потеряли не столько информацию, сколько "шум", неизбежно присутствующий в реальных данных из-за ошибок измерения и действия малозначимых или случайных причин. А что приобрели взамен? А приобрели возможность анализировать распределение объектов в дву- или трехмерном пространстве вместо -мерного, где зачастую равняется нескольким десяткам или даже сотням признаков и с которым мы все равно не могли справиться. А так как компоненты, как мы уже видели, являются новыми признаками, то получается, что два-три таких новых признака заменяют все старые с минимальной потерей информации. Но у таких мощных признаков очень даже может быть биологический смысл!

Вот тут-то и нужна компетентность биолога. Трактовка результатов всегда зависит от природы объектов, с которыми мы имеем дело, и от задачи, которую мы перед собой поставили. Интерпретация компонент предъявляет довольно высокие требования к квалификации биолога, так как нужно одновременно понимать геометрический смысл проведенных преобразований и биологический смысл получаемых результатов. Например, нулевые корреляции между компонентами, как мы уже знаем, означают статистическую независимость, т.е. поведение одной компоненты статистически ничего нам не говорит о поведении другой. Поэтому вполне осмысленным и часто оправдывающимся на практике является предположение, что и биологически эти новые признаки достаточно автономны, например, отражают разные процессы или фазы развития особей. Само собой разумеется, что это только предположение и его каждый раз нужно обосновывать биологически, например, анализируя вклады признаков в компоненты (Васильев и др., 2003).

В случае с черепами грызунов "облако" объектов, как правило, имеет эллипсовидную форму, а первая компонента всегда представляет общие размеры, так как почти все или даже все признаки дают в нее вклад одного знака, часто близкий по величине. Но поскольку в ней участвует много признаков, то эти размеры определены надежнее и универсальнее, чем если бы использовали только какой-то один из них, например, кондилобазальную длину. Во вторую компоненту, тоже практически всегда, основной вклад вносит межглазничная ширина, а большинство вкладов остальных признаков противоположно ей по знаку. Это означает, что когда значения второй компоненты увеличиваются, то увеличивается и межглазничная ширина, а значения большинства остальных уменьшаются и наоборот. Межглазничная ширина в процессе онтогенеза ведет себя очень самостоятельно (Виноградов, 1921; Европейская рыжая ..., 1981). Во-первых, она раньше остальных останавливается в росте, вероятно, потому, что растущий организм не может позволить себе роскошь отложить на потом формирование системы зрения, как, например, половое созревание. Видеть надо всегда, а глазная система слишком тонкий инструмент, чтобы успевать постоянно подстраиваться под слишком сильные изменения межглазничного расстояния. Поэтому дальнейшее развитие черепа происходит таким образом, чтобы в минимальной степени затрагивать уже сформировавшуюся систему зрения. Во-вторых, относительная изменчивость межглазничной ширины, если ее измерять, например, коэффициентом вариации, заметно больше изменчивости других признаков, что, вкупе с ранней остановкой в росте и, следовательно, меньшей зависимостью от среды, позволяет предполагать проявление в ней наследственных отличий между особями (Ковалева, 1999). По литературным данным, наследуемость промеров черепа, включая межглазничную ширину, колеблется в диапазоне 0.4–0.6 (Atchley et al., 1981). Но генетической трактовке мешает то, что, хоть и в меньшей степени, межглазничная ширина тоже участвует в росте и в ее изменчивости наследственные различия между особями могут быть смешаны с размерной изменчивостью. Здесь-то и помогает многомерный анализ. Как мы уже видели, главные компоненты обладают одной важной особенностью: они статистически независимы по построению. Поэтому, если в первой компоненте сосредоточена вся размерная изменчивость, то во второй и последующих она "снята". И поэтому предположение о значительной доле наследственных факторов в изменчивости второй компоненты имеет больше шансов оказаться справедливым, чем такое же предположение насчет изменчивости самой межглазничной ширины. Следовательно, и первая и вторая компоненты, рассматриваемые как новые признаки, могут нести в себе содержательную информацию в некотором "очищенном", в отличие от обычных признаков, виде.

Что касается биологического смысла самой межглазничной ширины, то этот вопрос довольно подробно исследовался еще академиком С.С.Шварцем. По его мнению, одним из существенных факторов, определяющих различия в пропорциях черепа, является скорость роста животных. "У медленно растущих животных кондилобазальная длина черепа, скуловая ширина, длина зубного ряда, и лицевой части больше, а высота черепа и ширина межглазничного промежутка меньше, чем у растущих быстро" (Шварц, 1980). Поэтому, учитывая, что первая компонента "снимает" размерную изменчивость, а основной вклад во вторую компоненту, противоположный по знаку вкладам большинства других признаков, дает межглазничная ширина, есть все основания полагать, что изменчивость по второй компоненте отражает различия между особями по скорости роста, причем в значительной степени обусловленные наследственными факторами, т.е. различия в генетических программах развития особей.

Следует заметить, что точками в многомерном пространстве можно представлять не только особей, но и любые другие биологические объекты, например, популяции. В работах (Косова и др., 1992; Галактионов и др., 1995) исследованы 50 выборок половозрелых особей остромордой лягушки. Совокупность средних значений 14 морфометрических признаков по всем выборкам обработана методом главных компонент. Все признаки внесли в первую компоненту положительный вклад. Поэтому логично назвать эту компоненту размерно-возрастной. Подобная трактовка первой компоненты достаточно универсальна, так как преобладающая изменчивость общих размеров проявляется практически во всех морфометрических исследованиях (Галактионов, 1981; Животовский, 1984; Акимов и др., 1993). Какой-либо связи с ландшафтами и географией в распределении выборок по первой компоненте не обнаруживается, что, по-видимому, свидетельствует о том, что выборки брались достаточно рандомизированно по отношению к их средним размерам.

Ландшафтная специфика выборок раскрылась в пространстве II и III главных компонент (рис. 4.1). Выборки сгруппированы по их географическому положению: северная группа – выборки Поозерской провинции, включая выборку 48 и тяготеющие к ним выборки 12, 13; центральная – выборки Белорусской Возвышенной (без 12, 13), Предполесской (без 50) и Восточно-Белорусской провинций; южная – выборки Полесской провинции. Южная группа, в свою очередь, разбита на две группы выборок, относящихся к Брестской (включая выборку 50) и Гомельской областям (Косова и др., 1992).

Все выборки, относящиеся к центральной группе, сместились вниз по третьей компоненте (рис. 4.1). Выборки из южной группы занимают крайнее левое положение. Очевидно, вторая компонента отражает направление изменчивости «юг-север», т.е. связь с температурным градиентом среды. Выборки центральной группы отличаются от всех остальных тем, что они приурочены к возвышенной части территории Беларуси, а наиболее отклоняющиеся по третьей компоненте выборки 18, 15, 16 располагаются ближе других к самой ее высокой точке. Для понимания фенотипических различий между ландшафтными популяциями следует учесть, что северная и южная группы занимают низменные, наиболее заболоченные части территории Беларуси. Таким образом, третья компонента отражает изменчивость, связанную с направлением «возвышенность» – «низменность», т.е. с высотным градиентом среды.

В третью компоненту фактически дали вклады только промеры бедра и голени и, с обратным знаком, длина внутреннего пяточного бугра (рис. 4.2). Это означает, что даже приведенные к равным общим размерам за счет отбрасывания первой компоненты выборки из центра Белоруссии дополнительно отличаются длинноногостью. Морфогенетическая интерпретация напрашивается сама собой - адаптация к более сухопутной жизни. (По этой логике длина внутреннего пяточного бугра должна означать адаптацию к плаванию.)


Рис. 4.1. Расположение ландшафтных выборок остромордой лягушки

в пространстве II и III главных компонент изменчивости средних

значений выборок

Рис. 4.2. Вклады признаков во II и III главные компоненты изменчивости

средних значений ландшафтных выборок остромордой лягушки
Интерпретация второй компоненты не столь очевидна. У северных лягушек, при равных размерах, более узкая и короткая морда и более длинные глаза и барабанные перепонки по сравнению с южными. Причины сопряженного варьирования признаков по каждой из главных компонент могут быть установлены, если вклады признаков рассматривать через призму индивидуального развития животных, через возможное взаимодействие признаков на отдельных этапах онтогенеза.

Есть ли такая стадия онтогенеза, на которой формируются различия главным образом по ширине морды, длине глаз и ушей? Такая стадия есть, причем у всех, а не только у земноводных, и очень ранняя. Морды еще нет, глаза с разных сторон и глядят в противоположные стороны. В дальнейшем постепенно формируется лицевая часть – обе стороны выгибаются, пока не образуют одну плоскость. Морда при этом становится шире, глаза и уши – короче. Достаточно предположить, что у южных этот процесс заходит дальше, чем у северных, под влиянием температуры, и различия сохраняются вплоть до взрослого состояния. Возможный адаптивный смысл недоразвития лицевой части у северных лягушек заключается в экономии времени для завершения полного цикла развития. Это может давать преимущество в северных районах, где размножение чаще всего начинается на 15–20 дней позже, чем на юге.

Таким образом, многомерный анализ позволяет исследовать и визуализировать внутреннюю структуру изменчивости некоторой совокупности объектов, определяемую их природой. Для животных из природных или лабораторных популяций, как хорошо известно биологам, основными факторами фенотипической изменчивости особей являются их генетическая изменчивость и эволюционно сформировавшиеся закономерности развития особей, вытекающие из необходимости поддерживать целостность и функционирование организма при взаимодействии со средой на всех этапах онтогенеза. Действие именно этих факторов и выявляется методом главных компонент.

ЛЕКЦИЯ 5. Межвыборочная изменчивость

Пусть теперь матрица разбита на групп объектов. Это могут быть объекты, принадлежащие одной популяции, например, самцы и самки, или возрастные группы, или выборки за разные годы и т.д. Это могут быть также выборки из разных популяций, например, из географических точек, далеко отстоящих друг от друга. Внутри каждой выборки имеется некоторая изменчивость. Кроме того, есть изменчивость и между группами. Разбиение на группы задается исследователем, исходя из содержательной задачи, и является номинальным признаком. Этот признак служит внешним фактором, возможно, влияющим на изменчивость между объектами. Цель анализа – определить характер и степень этого влияния.

Обычно для этих целей используется дискриминантный анализ. В пространстве объектов ищется такое направление (линейная комбинация признаков), чтобы в проекции на него отношение межвыборочной дисперсии к внутривыборочной было максимальным. Если групп всего две, то одно направление, проходящее через центры групп, исчерпывает всю межвыборочную изменчивость. Если при этом признак только один, то дискриминантный анализ сводится к хорошо известному -критерию Стьюдента:


Заметим, что в отечественной биометрической литературе (Плохинский, 1961; Животовский, 1991) под именем критерия Стьюдента традиционно используется другая статистика, также имеющая -распределение (Крамер, 1975) и, на самом деле, принадлежащая Уэлчу (Уэлшу) (Welch, 1938):


Надо заметить, что нашим биологам повезло. Критерий Стьюдента, кроме нормальности распределения, требует предположения о равенстве неизвестных дисперсий. Критерий Уэлча работает и при неравных дисперсиях, в нем фактически проверяется гипотеза об отклонении нормально распределенной разницы средних от нуля. Таблица критических значений для различных уровней значимости одна и та же в обоих случаях.

Если групп три, то их центры образуют плоскость, на которой сосредоточена вся межвыборочная изменчивость, при условии, что они не лежат на одной прямой, и т.д. В общем случае таких направлений насчитывается .

С формально-математической точки зрения дискриминантный анализ безупречен. На первый взгляд, и с содержательной стороной все в порядке. Действительно, что можно возразить против того, чтобы межвыборочная дисперсия была как можно больше, а внутривыборочная – как можно меньше.

Проблема состоит в возможной вырожденности или плохой обусловленности матрицы . Если реальная размерность матрицы меньше числа признаков, то может возникнуть ситуация, когда в проекции на некоторое направление внутривыборочная дисперсия очень мала, а поскольку она находится в знаменателе, то отношение к ней межвыборочной может «зашкалить» за любые мыслимые и немыслимые границы и даже привести к аварийному останову вычислений. Еще хуже, с нашей точки зрения, ситуация, когда внутривыборочная дисперсия не настолько мала, чтобы вызвать аварийный останов. В этом случае вычисления дойдут до конца и будет найдено некоторое дискриминирующее направление с формально высокой достоверностью, лишенное, тем не менее, всякого содержательного смысла. Эта ситуация вполне реальна и возникает, например, если мы изучаем асимметрию и закладываем в анализ промеры, сделанные на разных сторонах тела. Вследствие высокой корреляции между промерами парных органов матрица будет плохо обусловлена.

Обычная рекомендация заключается в том, чтобы исключить из анализа высоко коррелирующие признаки. Однако уместно поставить вопрос: а чем провинились признаки? Исследователь должен иметь право подбирать признаки по своему усмотрению, исходя из поставленной им задачи, а если математический аппарат не срабатывает, то, возможно, дело в самом аппарате?

Чтобы ответить на этот вопрос, надо поставить другой: что происходит с расстояниями между объектами в дискриминантном анализе? Алгоритм дискриминантного анализа может быть представлен в виде следующей последовательности действий (Уилкс, 1967). Сначала каждая группа центрируется своими средними для исключения межвыборочной изменчивости. Геометрически это означает совмещение центров тяжести всех выборок с началом координат и объединение выборок. К объединенной выборке , характеризующей после центрирования только внутривыборочную изменчивость, применяется метод главных компонент, то есть ищется ортогональная матрица поворота , приводящая к некоррелированным осям. Найденный поворот применяется к обеим матрицам, и . Компоненты нормируются своими дисперсиями и ими же нормируются компоненты . В полученных пространствах все направления имеют одну и ту же внутривыборочную дисперсию, равную единице, и для нахождения направления с максимальной межвыборочной дисперсией достаточно еще раз применить к метод главных компонент.

Рассмотрим подробно каждый шаг. Поворот с помощью матрицы не меняет расстояний между объектами. А вот нормировка собственными значениями приводит к изменению расстояний. Новое пространство называется пространством Махаланобиса, а расстояние в нем – расстоянием Махаланобиса (лекция 3). Деление на собственные числа приводит к тому, что все главные компоненты внутривыборочной матрицы приобретают равный вес. Математически это очень удобно, но содержательно совершенно бессмысленно. Наряду с несколькими первыми компонентами, содержащими действительно полезную информацию, (которые, возможно, и стоит нормировать), в анализ на равных правах включаются и все остальные. Однако дальние компоненты содержат, в основном, «шум», причем их тем больше, чем больше число исходных признаков и чем сильнее эти признаки коррелируют между собой. Расстояние Махаланобиса заглушает полезную информацию, умножая «шумы». Именно оно является слабым звеном дискриминантного анализа.

Стоит подчеркнуть, что в силу своего внутреннего устройства дискриминантный анализ всегда, в большей или меньшей степени, искажает реальную информацию. Возможно, именно поэтому дискриминантные оси труднее интерпретировать через вклады признаков, чем главные компоненты, и дело обычно сводится к констатации достоверности различий, чему очень способствует умножение «шумов». Кроме того, при возврате в исходное пространство признаков дискриминантные оси становятся неортогональными, а это крайне неудобно для интерпретации.

Очевидно, нужны другие алгоритмы дискриминантного анализа. Они должны максимизировать различия между межвыборочной и внутривыборочной дисперсиями и при этом не искажать расстояния между объектами. Построение таких алгоритмов – дело будущего, а пока можно рекомендовать предварительную обработку исходной матрицы данных методом главных компонент, отсечение дальних компонент с малыми дисперсиями и применение дискриминантного анализа к оставшимся первым нескольким главным компонентам. Достоверности различий между выборками резко упадут, но им можно будет верить.

Другим способом анализа величины и направления межвыборочной изменчивости может служить помещение всех выборок в компонентное пространство одной из них. Прообразом этого способа обработки является метод профилей С.Р.Царапкина (Zarapkin, 1934; Царапкин 1960). В этом методе одна из групп (обычно самая представительная) принимается за стандарт. Средние значения других групп нормируются средними и среднеквадратичными отклонениями стандарта по формуле:



,

что равносильно помещению центров тяжести других групп в центрированное и нормированное признаковое пространство стандарта.

После поворота признаков к главным компонентам, который, как мы знаем, не меняет расстояние между объектами, центры тяжести других групп оказываются в компонентном пространстве стандарта, что позволяет изучать не только величину, но и направление межпопуляционной изменчивости, а также взаимное расположение групп. Если за стандарт принять объединенную внутривыборочную матрицу, то рассматриваемый способ сводится к первому шагу дискриминантного анализа, но без преобразования Махаланобиса, что отнюдь не является недостатком.

Кроме того, никто не запрещает вычислить матрицу центроидов групп, рассматривая их как новые объекты, и исследовать ее методом главных компонент (глава 4).

Необходимо особо отметить, что направления изменчивости в многомерном пространстве можно выбирать не только из статистических, но и непосредственно из биологических соображений, например, генетических. Для примера рассмотрим метод, позволяющих находить линейные комбинации признаков с максимальной наследуемостью в узком смысле. Метод основан на исследовании взаимного расположения родителей и гибридов первых двух поколений в многомерном пространстве и выделении направлений, обусловленных гетерозиготностью, эпистатическим и аддитивным действием генов (Efimov et al., 2005).

Хорошо известно, что фенотипическая изменчивость гибридов от скрещивания двух чистых линий является ненаследственной и только начиная с в изменчивости проявляется расщепление комплексов генов, полученных от обоих родителей. Пусть имеются две чистых линии, и , и – первое поколение гибридов между ними, у которых измерены значения признаков. В простейшей, аддитивно-доминатной модели без межаллельного взаимодействия средние значения каждого признака у равны , где – среднее между родителями, – отклонение, обусловленное доминированием (Мазер, Джинкс, 1985).

В результате расщепления в следующем поколении средние значения гибридов будут равны (Мазер, Джинкс, 1985) и в -ом – , где – доля гетерозигот на локус в зависимости от системы скрещивания (самооплодотворение, инбридинг и т.д.)

Обозначим через точку в многомерном пространстве, образованную средними значениями признаков для каждого поколения . Из простых геометрических соображений следует, что точки и образуют треугольник, в котором точки расположатся на прямой линии, проходящей через точку и точку – середину отрезка, соединяющего родительские средние. Точка попадет на середину отрезка, соединяющего точки и , а остальные точки будут стремиться к точке со скоростью, зависящей от системы скрещивания (рис. 5.1).

При отклонении от аддитивно-доминантной модели наследования, например, вследствие межлокусного взаимодействия – эпистаза в широком смысле – ситуация усложняется и , вообще говоря, может оказаться в любой другой точке признакового пространства, в том числе и выходя за пределы плоскости, проходящей через и . В этом случае приходится анализировать взаимное расположение выборок в трехмерном пространстве. Однако направление в многомерном пространстве все равно будет обладать следующими свойствами. По мере расщепления гибридов будут исчезать все эффекты, связанные с гетерозиготностью, то есть, эффекты доминирования и все эпистатические эффекты, определяемые гетеро-гомозиготными и гетеро-гетерозиготными межлокусными взаимодействиями (Мазер, Джинкс, 1985). Поэтому направление с полным основанием можно назвать "осью гетерозиготности". Аддитивное действие генов и оставшиеся эпистатические эффекты, определяемые гомо-гомозиготными межлокусными взаимодействиями, проявятся в проекции на плоскость, ортогональную и проходящую через и . На этой плоскости центроиды и образуют одну точку. При справедливости аддитивно-доминантной модели эта точка должна совпасть с точкой – серединой центроидов и .

Рис. 5.1. Расположение центроидов родительских и гибридных выборок в многомерном пространстве. F1 - m – ось гетерозиготности в рамках аддитивно-доминантной модели наследования количественных признаков. Общий случай (HIA-модель): F1 - F# – ось гетерозиготности H; P1 - P2 – ось аддитивности A; m - F# – ось эпистаза I


Поэтому отклонение от нее в этой плоскости можно, в первом приближении, рассматривать как проявление эпистатических взаимодействий и, соответственно, назвать "эпистатическим направлением". Оставшееся ортогональное направление, в проекции на которое точка () уже совпадает с точкой , также с большой долей условности, можно именовать "аддитивным". Возможная аддитивность должна проявиться в увеличении дисперсии по сравнению с .

Направления, обусловленные аддитивным действием генов, наиболее подходят для отбора и его можно вести уже в , не дожидаясь дальнейшего расщепления. Кроме того, найденные направления изменчивости можно использовать как новые перспективные признаки при изучении природных популяций.


ЛЕКЦИЯ 6. Внешние факторы как возможные причины изменчивости

Пусть теперь матрица разбита на две группы признаков – внутренних и внешних . Внешние признаки называются факторами. Разбиение задается исследователем, исходя из содержательной задачи. Факторы, возможно, влияют на изменчивость между объектами. Цель анализа – определить характер и степень этого влияния, а также выяснить возможности предсказания характеристик объектов – значений внутренних признаков – по значениям внешних факторов.


Множественная линейная регрессия и ее проблемы

Обычно внутренние признаки рассматриваются поодиночке. В множественной регрессии такой внутренний признак называется зависимой переменной, а совокупность внешних факторов – независимыми переменными. Имеется некоторая совокупность объектов, которую можно считать генеральной. Для всех объектов мы знаем значения внешних факторов. Для части объектов (обучающая выборка) мы знаем значения внутренних признаков. Мы хотим узнать, можно ли по этой информации вычислить с приемлемой точностью значения внутренних признаков для остальных объектов. В классической постановке задача сводится к поиску линейной комбинации независимых переменных, в максимальной степени аппроксимирующих зависимую. Традиционно задача решается методом наименьших квадратов.

Здесь есть одно принципиальное обстоятельство. Применяя метод наименьших квадратов, мы наилучшим образом аппроксимируем линейную зависимость на обучающей выборке и почему-то думаем, что она останется наилучшей и для остальных объектов. Практика показывает, что это не так. Если проверять результаты расчетов на контрольной выборке, где на самом деле нам известны значения зависимых переменных, но мы не использовали их для расчета уравнения регрессии, то всегда оказывается, что до определенного числа параметров точность предсказания растет, а затем падает, хотя аппроксимация обучающей выборки становится все лучше и лучше. Чем больше факторов и чем выше корреляция между ними, тем хуже работает метод наименьших квадратов.

Как и в дискриминантном анализе, проблема состоит в возможной вырожденности или плохой обусловленности матрицы (проблема мультиколлинеарности независимых переменных). Точно так же возможен аварийный останов вычислений или окончание работы с непредсказуемым искажением результатов. На самом деле, это не очень удивительно, так как дискриминантный анализ формально можно рассматривать как частный случай множественной регрессии. Так же, как и в дискриминантном анализе, обычная рекомендация заключается в том, чтобы исключить из анализа высоко коррелирующие признаки. Например, это можно сделать с помощью пошагового анализа (Боровиков, Боровиков, 1997). И точно так же можно поставить вопрос: а может, дело не в признаках, а в самом анализе?

Например: имеется несколько сотен образцов бензина, для которых известны результаты лабораторных анализов качества (октановое число, содержание свинца и т.д.). Каждый образец можно легко и быстро проанализировать с помощью инфракрасного спектрометра и получить значения нескольких тысяч признаков. Так как число признаков превышает число объектов, матрица обязательно будет вырожденной и классическая множественная линейная регрессия просто не сработает. Рекомендация “выбросить признаки” тоже неприемлема, так как означает выбросить почти все признаки.

Один из методов решения проблемы – регрессия на главные компоненты. Применим к метод главных компонент, то есть найдем матрицу . Очевидно, что матрицу можно рассматривать как матрицу новых независимых переменных. С вычислительной точки зрения это даже очень удобно, так столбцы матрицы (главные компоненты) не коррелируют между собой и регрессия распадается на сумму регрессий зависимой переменной от каждого столбца матрицы , которые можно вычислять независимо друг от друга. При этом в методе наименьших квадратов обязательно происходит нормировка каждого столбца матрицы его дисперсией, а в случае плохой обусловленности или вырожденности матрицы часть этих дисперсий мала или равна нулю. Как и в дискриминантном анализе, такие столбцы не несут содержательного смысла и могут рассматриваться, как заглушающие полезную информацию. Очевидно, их можно и нужно выбросить. Что считать малой дисперсией, решает исследователь. Число оставшихся компонент всегда меньше числа объектов, но в каждую из них теоретически могли внести вклад все факторы.

Дальнейшим развитием этой идеи является -регрессия (проекция на латентные структуры). Основная идея заключается в том, чтобы позаботиться о хороших предсказательных свойствах уравнения регрессии заблаговременно. А для этого учитывается не только качество аппроксимации, но и дисперсия линейной комбинации, на основе которой делается предсказание. Чем выше ее дисперсия, тем надежнее работает линейная регрессия. Это означает, что лучше максимизировать не коэффициент корреляции (что эквивалентно методу наименьших квадратов), а коэффициент ковариации между зависимой переменной и аппроксимирующей ее линейной комбинацией независимых переменных. Если предварительно преобразовать матрицу методом главных компонент, то решение получится в виде суммы одиночных регрессий зависимой регрессии на компоненты с весами, пропорциональными дисперсиям компонент. Для компонент с нулевыми дисперсиями это эквивалентно их исключению из анализа, для компонент с малыми дисперсиями – малое влияние на окончательный результат.

Хемометрики активно используют -регрессию последние два десятка лет, в том числе, и на производстве. Нефтяные и пивоваренные компании, применившие эту технологию, получили экономию в сотни миллионов евро в год. Биологи, к сожалению, в большинстве своем даже не знакомы с таким вариантом множественной регрессии.

Однако и -регрессия представляется небезупречной. Создается впечатление, что ее практический успех обусловлен, прежде всего, тем, что она оказалась явно лучше классической линейной регрессии. Но проведем мысленный эксперимент. Представим себе, что мы берем один из внешних факторов и размножаем его в большом количестве. Никакой новой информации, очевидно, не добавляется. Однако веса компонент, в которые входит этот фактор, будут расти и, следовательно, будет расти вклад этого фактора в окончательное уравнение регрессии независимо от того, насколько он лучше остальных. По-видимому, нужно каким-то образом ограничить предельный вес дисперсии компоненты в уравнении регрессии.

В любом случае необходимо разбиение объектов на обучающую и контрольную выборки, например, с помощью бутстреп-методов (Efron, 1979, 1982; Диаконис, Эфрон, 1983) (лекция 7). Любая зависимость, установленная на обучающей выборке, должна проверяться на контрольной. Только так можно обеспечить надежность содержательных выводов.



ЛЕКЦИЯ 7. Нелинейные методы, неевклидовы расстояния

Все методы, рассмотренные в предыдущих лекциях, относятся к числу линейных, то есть объекты предполагаются размещенными в евклидовом пространстве, а направления задаются линейными комбинациями исходных признаков. Однако во многих биологических задачах, даже если каждый объект и задается своими значениями в пространстве признаков, различия между ними не обязаны быть евклидовыми расстояниями, а направления – линейными. Кроме того, нелинейной может быть и регрессия, как функция зависимой переменной от нескольких независимых. В качестве варианта нелинейной регрессии можно рассматривать нейронные сети. В последние годы интерес к искусственным нейронным сетям необычайно высок. Однако, несмотря на обилие описательной информации, библиотек программ, особенно бесплатных, для моделирования нейронных сетей не так уж много.


Нейронные сети

Пусть, так же, как и в задаче множественной регрессии, матрица разбита на две группы признаков – внутренних и внешних . Цель анализа та же – научиться предсказывать характеристики объектов (значения внутренних признаков) по значениям внешних факторов. Однако, в отличие от предыдущей задачи, о содержательной интерпретации полученных результатов речь вообще не идет. Конечным итогом анализа является обученная нейронная сеть, которая по значениям внешних факторов для новых объектов, которые не участвовали в обучении, каким-то загадочным (для внешнего наблюдателя) образом вычисляет значения внутренних признаков. Точность предсказания может быть оценена только опытным путем.



Внутреннее устройство нейронных сетей

Существует большое разнообразие типов нейронных сетей (Горбань, 1990; Горбань, Россиев, 1996; Тарков, 2006; Principal Manifolds, 2007). Однако мы будем рассматривать только полносвязные слоистые нейронные сети, так как они, с одной стороны, являются самыми простыми и, в то же время, дают достаточное представление о принципах внутреннего устройства нейронных сетей.


Нейронная сеть является крайне упрощенной вычислительной моделью человеческого мозга и состоит из нейронов, соединенных друг с другом. Одна часть нейронов воспринимает входную информацию, другая работает на выдачу результатов, остальные скрыты от внешнего наблюдателя (рис. 1).

Рис. 7.1. Полносвязная слоистая нейронная сеть


В полносвязных слоистых сетях нейроны расположены в несколько слоев, причем каждый нейрон одного слоя передает информацию всем нейронам следующего. Все сигналы находятся в диапазоне [-1, 1], поэтому столбцы матрицы должны предварительно преобразовываться, чтобы все значения попали в этот интервал. Для расширения возможностей нейронной сети в каждый слой может добавляться нейрон, всегда посылающий следующим значение 1. Каждая связь имеет весовой коэффициент в интервале [-1, 1], который может изменяться в ходе обучения. Первый слой называется входным, последний – выходным, остальные ­ – скрытыми. Число нейронов во входном слое равно числу столбцов матрицы (плюс 1), в выходном – числу столбцов матрицы , в скрытых – любое.

следующая страница >>