Многомерный анализ - umotnas.ru o_O
Главная
Поиск по ключевым словам:
Похожие работы
Название работы Кол-во страниц Размер
Учебной дисциплины «Действительный анализ» для направления 010400. 1 53.77kb.
Д. Г. Бейн анализ напряженного состояния несущего настила пола четырехосного... 1 84.84kb.
Лекция Анализ и проектирование программного обеспечения. Анализ по 1 193.37kb.
Лекция Анализ и проектирование программного обеспечения. Анализ по 1 187.61kb.
«Анализ конкурентных стратегий немецких автомобильных концернов» 2 695.88kb.
Анализ структуры книги 1 115.05kb.
Направления нир кафедры «Техническая кибернетика» (ТК) 1 10.61kb.
Экзистенциальный анализ найти согласие с жизнью 1 283.94kb.
Программа по курсу "Введение в математический анализ" 1 190.64kb.
«введение в интеллектуальный анализ данных» 1 10.37kb.
- 1 137.91kb.
Учебно-методический комплекс учебной дисциплины теория и методология... 1 230.22kb.
Викторина для любознательных: «Занимательная биология» 1 9.92kb.

Многомерный анализ - страница №3/4


ЛИТЕРАТУРА

С литературой по многомерному анализу дело обстоит плохо. Есть много учебников и пособий, требующих глубоких математических знаний и не слишком доступных для биологов. На сегодня лучшим источником информации является Интернет. Однако везде есть неточности и ошибки, поэтому все надо перепроверять по другим источникам.


Рекомендуемая литература (основная):

Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. –М.: Финансы и статистика, 1985. –487с.

Боровиков В.П., Боровиков И.П. STATISTICA® – Статистический анализ и обработка данных в среде Windows®. –М.: «Филинъ», 1997. –600с.

Васильева Л.А. Биологическая статистика. –Новосибирск: ИЦиГ СО РАН, 2000. –123с.

Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. –Новосибирск: Наука, 1996. –276с.

Горбань А.Н., Дунин-Барковский В.Л., Кирдин А.Н., Миркес Е.М., Новоходько А.Ю., Россиев Д.А., Терехов С.А., Сенашова М.Ю., Царегородцев В.Г. Нейроинформатика. –Новосибирск: Наука. Сибирское предприятие РАН, 1998. – 296с.

Дрейпер Н., Смит Г. Прикладной регрессионный анализ. В 2-кн. –М.: Финансы и статистика, 1987. –351с.

Дэйвисон М. Многомерное шкалирование. –М.: Финансы и статистика, 1988. –254с.

Иберла К. Факторный анализ. –М.: Статистика, 1980. –398 с.

Кендалл М., Стьюарт А. Cтатистические выводы и связи. –М.: Наука, 1973. –899с.

Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. –М.: Наука, 1976. –736с.

Ланкастер П. Теория матриц. –М.: Наука, 1978. –280с.

Песенко Ю.А. Принципы и методы количественного анализа в фаунистических исследованиях. –М.: Наука, 1982. –287с.

Плохинский Н.А. Биометрия. –Новосибирск: Изд-во СО АН СССР, 1961. –364с.

Родионова О.Е.. Померанцев А.Л. Хемометрика: достижения и перспективы // Успехи химии, 2006. –Т.75, –С.302-317.

Тарков М.С. Нейрокомпьютерные системы: учебное пособие. –М.: ИНТУИТ-БИНОМ, 2006. –142с.

Уильямсон М. Анализ биологических популяций. –М.: Мир, 1975. –271с.

Principal Manifolds for Data Visualisation and Dimension Reduction (Eds. Gorban A., Kegl B., Wunsch D., Zinovyev A.). –Berlin–Heidelberg–New York: Springer, 2007. –330p.


Рекомендуемая литература (дополнительная):

Агеев М.И., Алик В.П., Марков Ю.И. Библиотека алгоритмов 51б-100б. -М.: Сов. радио, 1976. -136с. (Справочное пособие; Вып.2).

Акимов И.А., Гробов О.Ф., Пилецкая И.В., Барабанова В.В., Ястребцов А.В., Горголь В.Т., Залозная Л.М., Галактионов Ю.К., Ефимов В.М., Непомнящих В.А. Пчелиный клещ Varroa Jacobsoni. –Киев: Наукова думка, 1993. –256с.

Александров А.Д., 1987. Основания геометрии. –М: Наука. –288с.

Балеску Р. Равновесная и неравновесная статистическая механика. Т.2. –М: Мир, 1978. –478с.

Бигон М., Харпер Дж., Таунсенд К. Экология. Особи популяции и сообщества. –М.: Мир, 1989. –Т.2. –477с.


Бобрецов А.В., Бешкарев А.Б., Басов В.А., Васильев А.Г., Ефимов В.М., Кудрявцева Э.Н., Мегалинская И.З., Нейфельд Н.Д., Сокольский С.М., Теплов В.В., Теплова В.П. Закономерности полувековой динамики биоты девственной тайги Северного Предуралья. –Сыктывкар: Госкомстат республики Коми, 2000. –206с.

Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. –М.: Наука, 1983. –416с.

Бурлачук Л.Ф. Психодиагностика: Учебник для вузов. 2002. // www.lbvs.kiev.ua/psydiag.

Васильев А.Г., Фалеев В.И., Галактионов Ю.К., Ковалева В.Ю., Ефимов В.М., Епифанцева Л.Ю., Поздняков А.А., Дупал Т.А., Абрамов С.А.. Реализация морфологического разнообразия в природных популяциях млекопитающих. –Новосибирск: Издательство СО РАН, 2003. –232с.

Вернадский В.И. Размышления натуралиста. пространство в неживой и живой природе. –М.: Наука, 1975. –175с.

Виноградов Б.С. Процесс роста и возрастная изменчивость черепа Arvicolidae // Изв. Петроградск. обл. станции защиты растений от вредителей. 1921. –Петроград. –Т.3. –С. 71-81.

Гайдышев И. Анализ и обработка данных: специальный справочник. –СПб: Питер, 2001. –752с.

Галактионов Ю.К. Дискретный полиморфизм по скорости роста в природной популяции водяной полевки / Научн.-техн. бюлл. СО ВАСХНИЛ, 1981. –Вып.37. –С.17-26.

Галактионов Ю.К., Ефимов В.М., Гусев В.М. Некоторые особенности анализа агрометеорологических рядов методом главных компонент. Метеорология и гидрология, 1987. №9, –С.92–97.

Галактионов Ю.К., Ефимов В.М., Пикулик М.М., Косова Л.В. Онтогенетические механизмы морфометрической адаптации остромордой лягушки Rana arvalis (ANURA, RANIDAE) к физико-географическим градиентам среды // Вестник зоологии, 1995. №1, –С.55–61.

Главные компоненты временных рядов: метод "Гусеница". (ред. Д.Л.Данилов, А.А.Жиглявский). –СПб: СПбГУ, 1997. –308c.

Горбань А.Н. Обучение нейронных сетей. –М.: изд. СССР-США СП "ПараGraph", 1990. –160 с.

Горбань А.Н. Функции многих переменных и нейронные сети // Сорос. образ. журн., 1998. –№12. –С.105-112.

Гусев С.М., Ефимов В.М. Районирование сельскохозяйственных культур по урожайности в Новосибирской области.//Вестник с.-х. наук, 1985. №3(342), –C.37–41.

Диаконис П., Эфрон Б. Статистические методы с интенсивным использованием ЭВМ. // В мире науки, 1983, 7. С.60–73.

Дидэ Э. Методы анализа данных. –М.: Финансы и статистика, 1985. –357с.

Дирак П.А.М. Воспоминания о необычайной эпохе. –М.: Наука, 1990. –208с.

Европейская рыжая полевка (ред. Башенина Н.В.). –М.: Наука. 1981. –351с.

Ефимов В.М., Галактионов Ю.К. Основы прогноза динамики численности водяной полевки. –Научн.-техн.бюл. //ВАСХНИЛ, Сиб.отд-ние, СибНИИЗХим. –Новосибирск, 1982. –Вып.22. –С.11–26.

Ефимов В.М., Галактионов Ю.К. О возможности прогнозирования циклических изменений численности млекопитающих // Ж. общ. биол., 1983. №3, –С.343–352.

Ефимов В.М., Галактионов Ю.К., Шушпанова Н.Ф. Анализ и прогноз временных рядов методом главных компонент. –Новосибирск: Наука, Сиб. отд-ние, 1988. –70с.

Ефимов В.М. Катохин А.В. Применение неметрического многомерного шкалирования для мультиплатформенной обработки микрочиповых экспрессионных данных // Вестник ВОГиС, 2009. Т.13, №1, –С.102–108.

Ефимов В.М., Ковалева В.Ю. Многомерный анализ биологических данных: учебное пособие. – Горно-Алтайск: РИО ГАГУ, 2007. –75с.

Животовский Л.А. Интеграция полигенных систем в популяциях (проблемы анализа комплекса признаков). –М.: Наука, 1984. –184 с.

Животовский Л.А. Популяционная биометрия. –М.: Наука, 1991. –271с.

Кашьяп Р.Л., Рао А.Р. Построение динамических стохастических моделей по экспериментальным данным. –М.: Наука, 1983. –383с.

Ким Дж. О., Мьюллер Ч.У., Клекка У.Р. и др. Факторный, дискриминантный и кластерный анализ. –М.: Финансы и статистика, 1989. –215с.

Ковалева В.Ю. Краниоодонтологическая изменчивость полевок // Автореф. дисс … канд. биол. наук. –Новосибирск: ИСЭЖ СО РАН, 1999. –24с.

Колмогоров А.Н. К вопросу о пригодности найденных статистическим путем формул прогноза // Журн. геофиз., 1933. –Т.3. –С.78–82. (Переизд.: Колмогоров А.Н. Теория вероятностей и математическая статистика. –М.: Наука, 1986. –С.161–167.)

Колмогоров А.Н. Основные понятия теории вероятностей. –М–Л.: ОНТИ, 1936. (2-е изд. – М.: Наука, 1974. –122с.)

Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. –М.: Наука, 1970. –720с.

Косова Л.В., Пикулик М.М., Ефимов В.М., Галактионов Ю.К. Внутривидовая изменчивость морфометрических признаков остромордой лягушки Rana arvalis (ANURA, RANIDAE) Беларуси // Зоол.журн., 1992. –Т.71, №4, –С.34–44.

Крамер Г. Математические методы статистики. –М.: Мир, 1975. –648с.

Кульбак С. Теория информации и статистика. –М.: Наука, 1967. –408с.

Любищев A.A. Проблемы формы, систематики и эволюции организмов. –М.: Наука, 1982. –280с.

Мазер К., Джинкс Дж. 1985. Биометрическая генетика. М.: Мир.–464 с.

Миронов Б.Н. История в цифрах. Математика в исторических исследованиях. –Л.: Наука, 1991. –167с.

Пуанкаре А. О науке. –М.: Наука, 1983. –560с.

Родионова О.Е. Интервальный подход к анализу больших массивов физико-химических данных // Автореф. дисс … докт. физ.-мат. наук. М.: ИФХ РАН, 2007. –48с.

Северцов А.С. Контрбаланс векторов движущего отбора как причина эволюционного стазиса //Экология в России на рубеже XXI века. –М.: МГУ, 2000. –С.27–53.

Терентьев П.В. Истоки биометрии // Из истории биологии. Вып. 3. –М.: Наука, 1971. –С.124–134.

Уилкс С. Математическая статистика. –М.: Наука. 1967. –632 с.

Фейнман Р., Лейтон Р., Сэндс М. Фейнмановские лекции по физике. –М.: Мир, 1978. –524с.

Царапкин С.Р. Анализ дивергенции признаков между двумя географическими расами и двумя видами // Применение математических методов в биологии. –Л.: Изд-во ЛГУ. 1960. Вып. 1. –С.65–74.

Шараф М.А., Иллмэн Д.Л., Ковальски Б.Р. Хемометрика. –М.: Мир, 1987. –272с.

Шараф М.А., Иллмэн Д.Л., Ковальски Б.Р. Хемометрика. –Л., Химия, 1989. –272с.

Шварц С.С. Экологические закономерности эволюции. –М.: Наука, 1980. –278с.

Шепард Р. Н. Многомерное шкалирование и безразмерное представление различий. // Психологический журнал, 1980, Т. I, № 4, с. 72—83.

Шепард Р. Многомерное шкалирование и неметрические представления. // Нормативные и дескриптивные модели принятия решений. –М.: Наука, 1981.

Шмальгаузен И.И. Организм как целое в индивидуальном и историческом развитии. –М.: Наука, 1982. –383с.


Atchley W.R., Rutledge J.J., Cowley D.E. Genetic components of size and shape. 2.Multivariate covariance patterns in the rat and mouse skull //Evolution, 1981. –V.35. –N6. –P.1037–1055.

Benjamini,Y. and Hochberg,Y. (1995) Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. J. Roy. Stat. Soc. B., 57, 289-300.

Boardman A.E., Hui B.S., Wold H. The Partial Least Squares – Fix-Point Method of Estimating Interdependent Systems With Latent Variables Communication in Statistics // Theory Meth. 1981. –Vol. A10, –No. 7. –P. 613-639.

Borovecki F., Lovrecic L., Zhou J., Jeong H., Then F., Rosas H.D., Hersch S.M., Hogarth P., Bouzou D., Jensen R.V., Krainc D. Genome-wide expression profiling of human blood reveals biomarkers for Huntington's disease // Proc Natl Acad Sci U S A. 2005. V. 102. P. 11023–11028.

Broomhead D.S., King G.P. Extracting qualitative dynamics from experimental data // Physica D. 1986a. –Vol. 20. –P.217–236.

Broomhead D.S., King G.P. On the qualitative analysis of experimental dynamical systems // Nonlinear Phenomena and Chaos / Ed. by S. Sarkar. Bristol: Adam Hilger. 1986b. –P.113–144.

Caroll J.D., Chang J.-J. Analysis of individual differences in multidimensional scaling via N-way generalization of «Ekart Young» decomposition // Psychometrika, 1970. Vol. 35, P. 283-319.

Carroll J. D.  Spatial, non-spatial  and hybrid models    for scaling // Psychometrika, 1976, v. 41, p. 439—463.

Cattell J. Mc-K. Mental Test and Mesurement // Mind, 1890. V.15. P.373-381.

Colebrook J.M. Continuos plankton records – zooplankton and environment, northeast Atlantic and North Sea, 1948-1975. Oceanol. Acta, N1, 1978. –P.9–23.

Efimov VM, Kovaleva VY and Markel AL. A new approach to the study of genetic variability of complex characters // Heredity, 2005. –V.94. –P.101–107.

Efron B. Bootstrap methods: another look at the jackknife // Ann. Statist. 1979. –V.7. –P.1–26.

Efron B. The jackknife, the Bootstrap and other resampling plane. –Philadelphia.Pa: SIAM, 1982. –92p.

Elsner J., Tsonis A. Singular Spectrum Analysis. A New Tool in Time Series Analysis. –New York: Plenum Press, 1996. –163p.

Falconer, D. S. Introduction to Quantitative Genetics, 3rd ed. – New York: Longman, 1989. –438 p.

Fisher R.A. The use of multiple measurements in taxonomic problems // Annals of Eugenics, 1936. –V.7,–P.179-188.

Galton F. Psychometric experiments // Brain: A Journal of Neurology, 1879. V. II, P.149-162.

Golyandina N., Nekrutkin V., Zhigljavsky A. Analysis of Time Series Structure: SSA and Related Techniques. –Boca Raton: Chapman & Hall/CRC. 2001. –305 p.

Hotelling H. Analysis of a complex of statistical variables into principal components. J. Ed. Psych., 1933. 24. 417–441, 489–520.

Hotelling H. Relations between two sets of variables. Biometrika, 1936. 28. 321–377.

Klingenberg C.P., Leamy L. Quantitative genetics of geometric shape in the mouse mandible. Evolution, 55(11), 2001, pp. 2342–2352.

Kohonen, T. (1982). Self-organized formation of topologically correct feature maps. Biological Cybernetics, 43, 59–69.

Kruskal J.B. Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis// Psychometrika, Vol. 29, 1964а. P. 1-27.

Kruskal J.B. Nonmetric multidimensional scaling: a numerical method// Psychometrica, Vol. 29, 1964б. P. 115 130.

Lande R. Quantitative genetic analysis of multivariate evolution, applied to brain: body size allometry. Evolution, 1979. 33, 402–416.

Leamy L. Heritability of osteometric traits in a random bred population of mice. J. Hered., 1974. 65: 109–120.

Moran P.A.P. The statistical analysis of the Canadian lynx cycle //Aust.J.Zool., 1953. –V.1. –P.163–173,291–298.

Ott J., Rabinowitz D. A Principal-Components Approach Based on Heritability for Combining Phenotype Information. Human Heredity, 1999. 49(2), 106–111.

Pearson, K. On the criterion that a given system of deviations from the probable in the case of correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling // Philosoph. Mag., 1900. –V. 50. –P.157-175.

Pearson K. On lines and planes of closest fit to systems of points in space // Philosoph. Mag., 1901. –V. 2(6). –P. 559.

Richardson MW. 1938. Multidimensional psychophysics. Psychological Bulletin, 35, 659-660.

Shepard R. M. The analysis of proximities: multidimensional scaling with an unknown distance function.—Psychometrika, 1962, v. 27, N 2-3, p. 125-139, 219-246.

Schaffer W. M. Stretching and folding in lynx fur returns: evidence for astrange attractor in nature? //Am. Nat., 1984. –V.124. –N6. –P.798–820.

Spearman, C. E. (1904a). "General intelligence" objectively determined and measured. American Journal of Psychology, 15, 201-293.


Spearman, C. E. (1904b). The proof and measurement of association between two things. American Journal of Psychology, 15, 72-101.

Spearman C. E.. The abilities of man, their nature and measurement. –New York: Macmillan, 1927. 457p.

Stevens S.S. On the theory of scales of measurement // Science. 1946. V. 103. P. 677—680. [Стивенс С.С. Математика, измерение и психофизика // Экспериментальная психология, т. 1. М.: ИЛ, 1960. С. 19-89.]

Taguchi Y.-h. and Oono Y. Relational patterns of gene expression via non-metric multidimensional scaling analysis // BIOINFORMATICS, 2005. Vol. 21, No. 6, P. 730–740.

Takens F. Dynamical Systems and Turbulence. Lecture Notes in Mathematics. –Heidelberg: Springer-Verlag, 1981. P.366–381.

Thorpe RS, Leamy L. Morphometric studies in inbred and hybrid House mouse (Mus sp.): Multivariate analysis of size and shape. J. Zool. Lond., 1983. 199: 421–432.

Thurstone LL. 1927. A law of comparative judgment/ Psychological Review, 34, 273-286.

Thurstone, L. L., The Vectors of Mind - Multiple-Factor Analysis for the Isolation of Primary Traits. Chicago: University of Chicago Press, 1935. 266 pp

Thurstone LL. Primary mental abilities. 1938. Primary Mental Abilities: By L. L. Thurstone. Chicago: University of Chicago Press, 1938. 116 pp.

Torgerson W. S. Multidimensional scaling: I. Theory and method. Psychometrika, 1952, v. 17, N 3, р. 401-419. [Торгерсон У.С. Многомерное шкалирование: теория и метод // Статистическое измерение качественных характеристик. – М.: Статистика, 1972. – С. 95-118.]

Welch B. L. The significance of the difference between two means when the population variances are unequal // Biometrika, 1938. Vol. XXIX, Parts III and IV. P. 350—362.

Wold H. Partial least squares / Encyclopedia of statistical sciences (S. Kotz and N. L. Johnson, eds.). –New York: Wiley, 1985. –Vol. 6. –P. 581-591.

Zarapkin S.R. Zur Phanoanalyse von geographischen Rassen und Arten. Arch. Naturgesch. N.F. 1934. Bd. 3. Z. 161–186.
Задания для практических работ

и методические указания по их выполнению,

контрольные вопросы и варианты ответов

для студентов биологических специальностей
ВВЕДЕНИЕ

Программа дисциплины "МНОГОМЕРНЫЙ АНАЛИЗ БИОЛОГИЧЕСКИХ ДАННЫХ" предусматривает изучение многомерных методов исследования массовых биологических процессов и явлений; их математического аппарата. В курсе излагаются основные понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации, свертки и обработки многомерных статистических данных с целью их удобного представления, интерпретации, получения научных и практических выводов. Курс нацелен на оснащение студентов знаниями и навыками в области основ выявления и биологической интерпретации многомерных данных, их прикладного статистического анализа, построения, идентификации и верификации статистических моделей анализируемых явлений, компьютерной реализации излагаемых приемов и методов.


Задачи учебного курса

В результате изучения дисциплины студенты должны знать основные методы многомерного анализа данных: метод главных компонент, факторный анализ, дискриминантный анализ, регрессионные методы, многомерное шкалирование, нейронные сети. Должны иметь представление об операциях над матрицами и об их соответствии геометрическим преобразованиям в многомерном пространстве.


Требования к уровню освоения курса

Студенты должны уметь использовать стандартные пакеты статистических программ при построении интегральных показателей и отборе наиболее информативных переменных и снижении размерностей анализируемых моделей. Должны уметь применять как линейные, так и нелинейные методы анализа взаимного расположения объектов в многомерном пространстве и интерпретировать получаемые результаты с биологической точки зрения.


Методические указания к выполнению заданий

Предполагается, что у каждого студента имеется собственная рабочая директория UserDir, в которой хранятся результаты всех расчетов. Вычисления проводятся с помощью пакетов Statistica и Excel. Учебными данными служат файлы IrisDat.Sta и Sunspots.Sta, имеющиеся в пакете Statistica (Program Files\StatSoft\Examples\Datasets). Обработка студентами собственных данных всячески приветствуется. Для нейросетевой обработки данных используется демо-версия программы Neural Network Wizard (NNW) BaseGroup Labs, для обработки временных рядов – свободно распространяемая версия программы «Гусеница» СПбГУ.

Кроме того, перспективным средством обработки биологических данных, получившим широкое признание в мире, является свободно распространяемый R-пакет (http://www.R-project.org/). Он менее удобен для начинающего пользователя из-за необходимости использовать интерфейс командной строки или язык сценариев (скриптов), однако и в нем существует возможность пользоваться графическим интерфейсом, например, с помощью библиотеки Rcmdr. Для этого надо скачать и установить базовую часть R-пакета (версии не ниже 2.8.1) и Rcmdr с русскоязычным интерфейсом, запустить R-пакет и набрать строку library(Rcmdr).

ЗАДАНИЕ №1

Построение графиков. Работа с признаками
1. Запустить программу Statistica.

2. Открыть файл IRISDAT.STA (File\Open\Datasets\IrisDat.Sta)

В файле находятся промеры длины и ширины чашелистиков и лепестков трех различных видов ирисов (Fisher, 1936).



3. Сохранить как файл Excel (File\Save As..\\UserDir)

(Тип файла: Excel Workbook; Сохранить)

(Опция: Put variable names in first row – Yes; Опция: Use text labels – Yes). OK.

4. Построить категоризованный график по первым двум параметрам:

(Graphs\Categorized Graphs\Scatterplots\)

Опция: Overlaid. Нажать: Variables.

Выбрать в столбце Scatterplot X: 1-SEPALLEN;

Выбрать в столбце Scatterplot Y: 2-SEPALWID;

Выбрать в столбце X-Category: 5-IRISTYPE.

OK; OK.

5. Сохранить рисунок как файл Statistica с расширением *.stg:

(WorkBook\Extract as stand-alone window\Copy;

File\Save As..\\UserDir\Iris1.stg)

6. Сохранить рисунок как файл Jpeg с расширением *.jpg:

(File\Save As..\\UserDir\Iris1. jpg)



7. Построить категоризованный график по следующим двум параметрам:

(внизу: 2D Categorized Scatt..) Опция: Overlaid. Нажать: Variables.

Выбрать в столбце Scatterplot X: 3-PETALLEN;

Выбрать в столбце Scatterplot Y: 4-PETALWID;

Выбрать в столбце X-Category: 5-IRISTYPE.

OK; OK.


8. Сохранить рисунок как файл с именем Iris2 с расширениями *.stg и *.jpg (аналогично пунктам 5 и 6).

9. Закрыть все рисунки.

10. Построить категоризованный график по трем параметрам:

(Graphs\Categorized Graphs\ 3D XYZ Plots\)

Опция: Graph type – Scatterplot;

Нажать: Codes – none. Выбрать IRISTYPE, OK; All, OK.

Нажать: Variables.

Выбрать в столбце X: 2-SEPALWID;

Выбрать в столбце Y: 3-PETALLEN;

Выбрать в столбце Z: 4-PETALWID;

Выбрать в столбце Category: 5-IRISTYPE. OK. . OK.

По открывшемуся графику щелкнуть правой кнопкой мыши. Выбрать

(Graphs Properties\Categorization) Опции: Categories layout-Overlaid) OK.

11. Сохранить рисунок как файл с именем Iris3 с расширениями *.stg и *.jpg (аналогично пунктам 5 и 6).

12. Щелкнуть по графику правой кнопкой мыши. Выбрать

(Graphs Properties\Plot: General) Опция: Spike line – No) OK.



Щелкнуть по графику правой кнопкой мыши. Выбрать

(Graphs Properties\Point of View). Покрутить график вручную.

Нажать: Analytic exploratory spin options.

OK.


13. Закрыть все рисунки. Не сохранять рабочую область.
14. Запустить программу Excel. (координаты ячеек набирать латиницей)

15. Открыть файл IRISDAT.xls (Файл\Открыть\\ UserDir \IrisDat.xls).

16. Упорядочить данные по видам

Выделить массив A2:E151. (Данные\Сортировка\Сортировать по IRISTYPE\OK)



17. Выделить ячейки A2:C158 (Формат\Ячейки\ЧисловойФормат-Числовой \Число десятичных знаков-1\OK)

18. Для совместимости с программой Statistica сохранить как файл Excel 4.0. (Файл\Сохранить как..\\UserDir \IrisDat1.xls).

19. Развернуть номинальный признак IRISTYPE в набор бинарных признаков.

Поместить в ячейку F1 текст SETOSA.

Поместить в ячейку G1 текст VERSICOL.

Поместить в ячейку H1 текст VIRGINIC.

Заполнить массив F2:H151 нулями.

Заполнить массив F2:F51 единицами

(напротив значений SETOSA в признаке IRISTYPE).

Заполнить массив G52:G101 единицами

(напротив значений VERSICOL в признаке IRISTYPE).

Заполнить массив H102:H151 единицами

(напротив значений VIRGINIC в признаке IRISTYPE).

Сохранить файл IrisDat1.xls.



20. Вычислить для каждого вида средние и среднеквадратичные отклонения

по каждому признаку:

Разместить в ячейках A153-158 формулы:

=СРЗНАЧ(A2:A51);

=СТАНДОТКЛОН(A2:A51);

=СРЗНАЧ(A52:A101);

=СТАНДОТКЛОН(A52:A101);

=СРЗНАЧ(A102:A151);

=СТАНДОТКЛОН(A102:A151);

Скопировать ячейки A153-158

в ячейки B153-158, C153-158, D153-158, F153-158, G153-158, H153-158.

(Копирование: выделить ячейки откуда, Ctrl+Insert,

выделить ячейки куда через Shift+Insert, Enter)

21. Центрировать признаки по каждому виду ирисов отдельно:

Скопировать ячейки A1-D1 в ячейки I1-L1. Отредактировать новые названия

(SEPALLEN заменить на SEPALLEN1 и т.д.)

Разместить в ячейке I2 формулу: =A2-A$153

Скопировать ячейку I2 в ячейки I2- L51.

Разместить в ячейке I52 формулу: =A52-A$155

Скопировать ячейку I52 в ячейки I52- L101.

Разместить в ячейке I102 формулу: =A102-A$157

Скопировать ячейку I102 в ячейки I102- L151.

Скопировать ячейки A153-158 в ячейки I153-158, J153-158, K153-158, L153-158.

Сохранить файл IrisDat1.xls.

22. Выделить массив формул I2:L151. Копировать в буфер Windows (Правка\Копировать). Вставить на те же места как значения (Правка\Специальная вставка\Значения\OK).

23. Удалить строки A153-158: Выделить ячейки A153-158. (Правка\Удалить..\строку)\OK.

Сохранить как файл Excel4 с именем IrisDat2.xls (Файл\Сохранить как..\\UserDir \IrisDat2.xls).



24. Закрыть Excel. Открыть в программе Statistica файл IrisDat2.xls. Тип файла: Excel. (File\Open\\UserDir \ IrisDat2.xls)

Нажать: Import selected sheet to a SpreedSheet.

Опция: Get variable names from first row – Yes. OK.

23. Сохранить IrisDat2 как файл Statistica с расширением *.sta.

24. Построить категоризованный график по трем параметрам: SEPALWID1, PETALLEN1, PETALWID1

(п.10-13).



ЗАДАНИЕ №2

Главные компоненты, факторный анализ.
1. Запустить программу Statistica.

2. Открыть файл IRISDAT2.STA (File\Open\UserDir\IrisDat2.Sta)

Признаки SEPALLEN1, SEPALWID1, PETALLEN1, PETALWID1 отражают объединенную внутривыборочную изменчивость трех различных видов ирисов по длине и ширине чашелистиков и лепестков (межвыборочная устранена центрированием).



3-18. Вычислить главные компоненты для объединенной внутривыборочной матрицы ирисов

3. (Statistics\Multivariate Exploratory Techniques\Principal Components & Classification Analysis\) (Вошли в стартовую панель главных компонент)

4. Кнопка:Variables

В столбце Variables for Analysis выбрать:



9- SEPALLEN1;

10-SEPALWID1;

11-PETALLEN1;

12-PETALWID1;

OK.(Вернулись в стартовую панель главных компонент). OK.



5. (Вошли в панель результатов. Корешок Variables)

6. Сохранить матрицу собственных значений

(Eigenvalues)(WorkBook\Extract as stand-alone window\Copy;

File\Save As..\\UserDir\ Eigenvalues.sta)Сохранить.

Закрыть два последних окна (крестики вверху). Опция: Save changes.. – Нет.



7. Сохранить матрицу собственных векторов

(Eigenvectors)(WorkBook\Extract as stand-alone window\Copy;

File\Save As..\\UserDir\ Eigenvectors.sta)Сохранить.

Закрыть два последних окна (крестики вверху). Опция: Save changes.. – Нет.



8. Щелкнуть внизу кнопку Principal components

(Вернулись в панель результатов главных компонент. Корешок Variables)



9. Сохранить матрицу корреляций признаков с компонентами

(Factor & variable correlations)(WorkBook\Extract as stand-alone window\Copy;

File\Save As..\\UserDir\ Factor-variable.sta)Сохранить.

Закрыть два последних окна. Опция: Save changes.. – Нет.



10. Щелкнуть внизу кнопку Principal components

(Вернулись в панель результатов главных компонент. Корешок Variables)



11. Посмотреть график собственных векторов

(Plot of factor coordinates, 2D) Опции: Factor1, Factor2. OK

Закрыть последнее окно (с графиком). Опция: Save changes.. – Нет.

12. Щелкнуть внизу кнопку Principal components

(Вернулись в панель результатов главных компонент. Корешок Cases)



13. Сохранить таблицу главных компонент

Опция: Factor coordinates –Yes;

Save case statistics. Select all; OK

File\Save As..\\UserDir\ Factors.sta)Сохранить.

Закрыть и вернуться в панель результатов главных компонент. Корешок Cases.

14. Посмотреть график главных компонент (без сохранения)

(Plot of factor coordinates, 2D) Опции: Factor1, Factor2. OK

Закрыть и вернуться в панель результатов главных компонент.

15. Закрыть все окна. Вернуться в стартовую панель Statistica.

16. Открыть файл Factors.STA (File\Open\..\\UserDir\ Factors.sta)

17. Построить категоризованный график по первым двум компонентам (Factor1 –Factor2, без сохранения).

18. Построить категоризованный график по первым трем компонентам (Factor1 –Factor3, без сохранения).

19-24. Выполнить факторный анализ для объединенной внутривыборочной матрицы ирисов

19. (Statistics\Multivariate Exploratory Techniques\ Factor Analysis\)

(Вошли в стартовую панель факторного анализа)



20. Кнопка:Variables\

В окне Select Variables for Factor Analysis выбрать



9- SEPALLEN1;

10-SEPALWID1;

11-PETALLEN1;

12-PETALWID1;

OK.(Вернулись в стартовую панель факторного анализа)

OK. (Вошли в панель выбора метода.

21. Корешок Advanced)

Опция: Extraction metod: Principal components – Yes.

Опция: Max no. of factors – 4.

Опция: Mini. eigenvalue – 0.000.

OK. (Вошли в панель результатов. Корешок Loadings)

22. Щелкнуть кнопку Summary: Factor loadings.

Убедиться, что таблица факторных нагрузок (при опции Unrotated) тождественна матрице корреляций признаков с главными компонентами (File\Open\Factor-variable.sta\Открыть.

Закрыть два последних окна и вернуться в панель результатов факторного анализа (кнопка внизу). Корешок Loadings.

23. В окне Factor rotation выбрать опцию Quartimax raw.

Щелкнуть кнопку Summary: Factor loadings.

Проанализировать изменения в таблице факторных нагрузок.

Закрыть окно и вернуться в панель результатов факторного анализа (кнопка внизу). 24. Корешок Scores. Кнопка Save factor scores.

Кнопка Select all. OK.

Сохранить файл под именем IrisDat3.sta.



25. Закрыть все окна и выйти из программы Statistica.
ЗАДАНИЕ №3

Дискриминантный анализ.
1. Запустить программу Statistica.

2. Открыть файл IRISDAT3.STA (File\Open\ UserDir \IrisDat3.Sta)

3-13. Провести дискриминантный анализ трех видов ирисов. (Statistics\Multivariate Exploratory Techniques\Discriminant Analysis\) (Вошли в стартовую панель дискриминантного анализа)

3. Кнопка:Variables (Вошли в панель).

В окошке Grouping Variable выбрать: IRISTYPE

В окошке Independent Variable list выбрать:

1- SEPALLEN;

2-SEPALWID;

3-PETALLEN;

4-PETALWID;

OK. (Вернулись в стартовую панель дискриминантного анализа)



4. Кнопка: Codes for grouping variable. (Вошли в панель).

All; OK. (Вернулись в стартовую панель дискриминантного анализа).



5. OK. (Вошли в панель результатов).

6. Корешок: Advanced.

Кнопка: Perform canonical analysis (Вошли в панель канонического анализа).



7. Корешок: Canonical scores.

Кнопка: Scatterplot of canonical scores (Вошли в рисунок).



8. Сохранить рисунок как файл Statistica с расширением *.stg:

(WorkBook\Extract as stand-alone window\Copy;

File\Save As..\\UserDir\IrisRoots.stg)

9. Сохранить рисунок как файл Jpeg с расширением *.jpg:

(File\Save As..\\UserDir\IrisRoots. jpg)

Закрыть два последних окна (крестики вверху). Опция: Save changes.. – Нет.

10. Щелкнуть внизу кнопку: Canonical analysis

(Вернулись в панель результатов канонического анализа)



11. Кнопка: Save canonical scores (Вошли в панель).

Select All; OK. (Открылась таблица исходных данных, дополненная дискриминантными осями).



12. Сохранить файл под именем IrisDat4.sta.

File\Save As..\\UserDir\IrisDat4.sta)Сохранить.



13. Сохранить таблицу как файл Excel с расширением *.xls:

File\Save As..\\UserDir\ IrisDat4.xls)Сохранить.



14. Закрыть программу Statistica.
ЗАДАНИЕ №4

Множественная регрессия.
1. Запустить программу Statistica.

2. Открыть файл IRISDAT4.STA (File\Open\ UserDir \IrisDat4.Sta)

3-10. Вычислить множественную регрессию на исходные признаки.

(Statistics\Multiple Regression \) (Вошли в стартовую панель множественной регрессии).



3. Кнопка:Variables (Вошли в панель).

В окошке Dependent Variable выбрать: ROOT_1

В окошке Independent Variable list выбрать:

1- SEPALLEN;

2-SEPALWID;

3-PETALLEN;

4-PETALWID;

OK. (Вернулись в стартовую панель множественной регрессии). OK.

Появится предупреждение об исчерпании дисперсии. OK.

Появится предупреждение о невозможности обращения матрицы. OK.



4. Корешок: Advanced. Опция Ridge regression – Yes. OK.

5. Корешок: Quick. Кнопка: Summary. Regression results.

6. Сохранить таблицу результатов как файл Statistica с расширением *.sta:

(WorkBook\Extract as stand-alone window\Copy;

File\Save As..\\UserDir\Ridge.sta)

Закрыть последнее окно (крестик вверху). Опция: Save changes. – Нет.



7. Кнопка внизу: Multiple regression.

Корешок: Residuals/Assumption/prediction.

Кнопка: Perform residual analysis.

Корешок: Scatterplots.

Кнопка: Predicted vs Observed.

8. Сохранить рисунок как файл Statistica с расширением *.stg:

(WorkBook\Extract as stand-alone window\Copy;

File\Save As..\\UserDir\Predicted.stg)

9. Сохранить рисунок как файл Jpeg с расширением *.jpg:

(File\Save As..\\UserDir\ Predicted. jpg)



10. Закрыть все окна без сохранения изменений.

Открыть файл IRISDAT4.STA



11-25. Вычислить множественную регрессию на главные компоненты.

11. (Statistics\Multivariate Exploratory Techniques\Principal Components & Classification Analysis\) (Вошли в стартовую панель главных компонент)

12. Кнопка:Variables\В окне: Variables for Analysis выбрать

1- SEPALLEN;

2-SEPALWID;

3-PETALLEN;

4-PETALWID;

OK.(Вернулись в стартовую панель главных компонент)

OK. (Вошли в панель результатов).

13. Сохранить таблицу главных компонент

(Save case statistics; Опция: Factor coordinates-Yes)

Select all; OK

File\Save As..\\UserDir\IrisDat5.sta)Сохранить.



14. Закрыть все окна без сохранения изменений.

Открыть файл IRISDAT5.STA



15. Вычислить корреляционную матрицу.

16. Statistics\Basic statistic.Tables\Correlation matrices\OK\Summary\

В окне First variable list выбрать Select all. OK.

Проанализировать полученную матрицу. Обратить внимание на корреляции между ROOT_1 и Factor1-Factor4 (последними).

17. Закрыть все окна без сохранения изменений.

Открыть файл IRISDAT5.STA



18. Вычислить множественную регрессию на главные компоненты.

(Statistics\Multiple Regression \) (Вошли в панель множественной регрессии).



19. Кнопка:Variables (Вошли в панель).

В окошке Dependent Variable выбрать: ROOT_1

В окошке Independent Variable list выбрать:

23 - Factor1;

24 - Factor2;

25 - Factor3;

OK.OK.

20. Корешок: Quick. Кнопка: Summary. Regression results.

21. Сохранить таблицу результатов как файл Statistica с расширением *.sta:

(WorkBook\Extract as stand-alone window\Copy;

File\Save As..\\UserDir\Ridge2.sta)

Закрыть последнее окно (крестик вверху). Опция: Save changes. – Нет.



22. Кнопка внизу: Multiple regression.

Корешок: Residuals/Assumption/prediction.

Кнопка: Perform residual analysis.

Корешок: Scatterplots. Кнопка: Predicted vs Observed.



23. Сохранить рисунок как файл Statistica с расширением *.stg:

(WorkBook\Extract as stand-alone window\Copy;

File\Save As..\\UserDir\Predicted2.stg)

24. Сохранить рисунок как файл Jpeg с расширением *.jpg:

(File\Save As..\\UserDir\ Predicted2. jpg)



25. Закрыть все окна без сохранения изменений

и выйти из программы Statistica.


ЗАДАНИЕ №5

Нейронные сети
1. Запустить программу Statistica.

2. Открыть файл IRISDAT5.STA (File\Open\ UserDir \IrisDat5.Sta).

Сохранить как файл Excel с именем IrisDat5.xls .

Опция: Put variable names in first row – Yes. OK.

3. Закрыть программу Statistica.

4. Открыть в Excel файл IrisDat5.xls.

5. Удалить столбцы I..Z (SEPALLEN1 … Factor4).

Удалить столбец E (IRISTYPE).



6. Сохранить с именем IrisDat6.csv ( разделители - запятые).

Опция: Сохранить книгу в этом формате – Да.

Закрыть Excel. Опция: Сохранять изменения – Нет.

7. Открыть файл IrisDat6.csv в текстовом редакторе (например, WordPad).

Заменить все символы “;” (точка с запятой) на пробелы. Сохранить файл с именем IrisDat6.txt. Закрыть редактор.


8. Открыть программу NNW\bin\wizard.exe

9. Кнопка: Обзор. Открыть файл IrisDat6.txt. Кнопка: Далее>>.

(Имена полей должны содержать только буквы и цифры. Подчерки и пробелы не допускаются. Значения полей должны быть только числовыми.)



10. В списке доступных полей SEPALLEN..PETALWID пометить как входные, SETOSA..VIRGINIC – как целевые. Кнопка: Далее>>.

11. Число нейронов задать 1. Кнопка: Далее>>.

12. Опция: Прошло –Yes. Число эпох оставить 10000. Кнопка: Далее>>.

13. Панель: Конфигурация нейросистемы. Кнопка: Далее>>.

14. Кнопка: Пуск обучения.

15. Если результаты обучения заметно отличаются от 100%, кнопками «Назад» вернуться и увеличить число нейронов (в крайнем случае – слоев). Повторить обучение.

16. Кнопка: Далее>>.

Задать набор входных параметров (5 3.3 1.4 0.2). Кнопка: Расчет.

Задать набор входных параметров (6.5 2.8 4.6 1.5). Кнопка: Расчет.

Задать набор входных параметров (6.4 2.8 5.6 2.2). Кнопка: Расчет.

Сохранить как файл NeuralWizard с именем IrisNeuro.

17. Кнопка Отмена. Выйти из NeuralWizard.

18. Открыть программу NNW\bin\wizard.exe

19. Кнопка: Обзор. Открыть файл IrisNeuro (файлы Neural Network Wizard).

Кнопка: Далее>>.



20. Задать набор входных параметров (5 3.3 1.4 0.2). Кнопка: Расчет.

21. Кнопка Отмена. Выйти из NeuralWizard.
ЗАДАНИЕ №6

Многомерное шкалирование

  1. Набрать в Excel таблицу. Сохранить как файл Excel4 с именем Chelomin1.xls. Закрыть Excel.




div

R

agr

sem

Arg

pt

Fv

s

f

ur

sp

Species

R

0

52

66

64

66

60

63

67

57

64

R.norvegicus

agr

52

0

63

50

55

48

56

54

45

45

A.agrarius

sem

66

63

0

51

57

57

55

54

51

64

A.semotus

arg

64

50

51

0

48

44

54

56

50

49

A.argenteus

pt

66

55

57

48

0

33

36

25

33

54

A.ponticus

fv

60

48

57

44

33

0

37

42

40

52

A.fulvipectus

s

63

56

55

54

36

37

0

39

41

61

A.sylvaticus

f

67

54

54

56

25

42

39

0

27

54

A.flavicollis

ur

57

45

51

50

33

40

41

27

0

41

A.uralensis

sp

64

45

64

49

54

52

61

54

41

0

A.speciosis

В файле содержатся данные числа замен 402 пн участка гена цитохрома B лесных и полевых мышей рода Apodemus (Челомина и др., Генетика, 1998. Т.34, №5. С.650-661.)


2. Запустить программу Statistica.

Открыть файл Chelomin1.xls (File\Open\UserDir\ Chelomin1.xls) как файл Excel.

Кнопка: Import selected sheet to a Spreadsheet.

Опция: Get case names from first column – Yes.

Опция: Get variable names from first row – Yes.

OK.


3. Сохранить как файл Statistica с именем Chelomin1.sta (File\Save as..\ Chelomin1.sta).

(Шаги 4-8 делаются только для получения правильного матричного формата Statistica.)



4. (Statistic\Multivariate Exploratory Techniques\Cluster Analisis).

Выбрать: Joining (tree clustering). OK.

Кнопка: Variables. Выбрать все, кроме 11-Species.OK.

OK. Кнопка: Matrix.



5. Открыть в Excel файл Chelomin1.xls (не выходя из Statistica).

Выделить клетки B2:K11. Установить для них числовой формат (Формат\Ячейки\Числовой.) Число десятичных знаков – 0. OK.

Скопировать массив в буфер Windows (Правка\Копировать).

6. Перейти в окно Statistica. Вставить (курсор в левый верхний угол, Shift+Insert).

7. Сохранить как матричный файл Statistica с именем Chelomin1.smx (File\Save as..\ Chelomin1.smx). Закрыть Excel.

8. Закрыть файл Chelomin1.sta. Ответить – Да.

9. Открыть панель многомерного шкалирования (Statistic\Multivariate Exploratory Techniques\Multidimensional Scaling).

Кнопка: Variables. Выбрать все (Select all).OK.

Number of dimensions – 2. OK.OK.

Graf final configuration. OK.

Сохранить рисунок в форматах stg и jpg с именем Chelomin1. Закрыть рисунок.

Кнопка внизу: Results. Корешок: Review&save.

Кнопка Save final configuration. OK.

10. Сохранить как файл Statistica с именем Chelomin2.sta (File\Save as..\ Chelomin2.sta).

11. Закрыть Statistica.

ЗАДАНИЕ №7

Анализ и прогноз временных рядов
1. Запустить программу Statistica.

2. Открыть файл SUNSPOT.STA (File\Open\Datasets\SunSpot.Sta)

В файле содержится динамика количества солнечных пятен с 1749 по 1924 год.



3. Добавить новый столбец. Щелкнуть по столбцу SPOTS. Кнопка View\Add variables (Вошли в панель).

В окошке Name задать: Years.

В окошке Display format выбрать: Number. OK.

4. Щелкнуть правой кнопкой мыши по столбцу с годами. Выбрать Case Names Manager. Опция: To – Yes. В окошке Variables щелкнуть левой кнопкой два раза. Выбрать Years. OK.OK.

5. Сохранить таблицу в директории пользователя как файл Statistica с расширением *.sta: File\Save As..\\UserDir\ SunSpot.sta)Сохранить.

Сохранить как файл Excel. Опция: Put variable name in first row – Yes. OK.


<< предыдущая страница   следующая страница >>