О представлении данных и знаний для интеллектуального анализа социологических данных

УДК 004.832.3:001.8

О представлении данных и знаний
для интеллектуального анализа социологических данных

М.А. Михеенкова (mmikh@viniti.ru)

В.К. Финн (finn@viniti.ru)

Всероссийский институт научной и технической информации РАН, Москва

В работе рассматриваются проблемы представления данных и знаний для последующей формализации познавательного цикла «анализ данных – предсказание – объяснение» применительно к эмпирическим социологическим данным. Предлагаемое представление позволяет реализовать интеллектуальный анализ социологических данных в интеллектуальных системах типа ДСМ или других системах, опирающихся на поиск структурного сходства объектов.

Введение

Возможности интеллектуального анализа данных в области обнаружения новых знаний и извлечения закономерностей и, соответственно, представления данных и знаний особенно востребованы в областях с обширными массивами исходных фактов, нуждающихся в структурировании, упорядочении и систематизации. Современные социологические исследования во многом ориентированы на получение неколичественных (качественных) данных, соответствующих номинальному или порядковому уровню измерений. Отсутствие же развитых формальных инструментов преобразования таких данных в знания требует интеллектуализации соответствующих исследовательских эвристик с последующей реализацией в современных компьютерных системах.

Исторически развитие методов качественного анализа социологических данных, концентрирующихся на социальных взаимодействиях, личностном повседневном опыте действующего субъекта, связано с возникновением «понимающей» социологии М. Вебера [Вебер, 2006], задача которой – не просто восприятие и описание непосредственно эмпирических явлений, но и объяснение каузальных связей в этих явлениях. Характерный для практики таких исследований отказ от использования формальных средств приводит к прямой зависимости от способностей, здравого смысла и воображения исследователя, а порождаемые эмпирические теории приобретают статус уникальных и невоспроизводимых. Однако объективизация качественных исследований с развитием компьютерной техники первоначально пошла по пути усовершенствования обработки, структурирования и управления данными, и здесь возможности современной генерации пакетов CАQDAS (Computer-Assisted Qualitative Data Analysis Software) выглядят достаточно впечатляющими [Lewins, Silver, 2007].

Большие ожидания в социологии связывались с развитием «кибернетических» методов data mining (DM). Эти средства позволяют одновременно анализировать неоднородные и неполные данные («нерепрезентативные» с точки зрения статистики), причём, нечислового характера, учитывают нелинейные связи. Однако, как убедительно показано в известной работе [Fayyad et al., 1997], DM – применение конкретных алгоритмов для извлечения моделей (образцов) – составляет лишь один из шагов knowledge discovery (KD) – процесса извлечения полезных знаний из данных. Таким образом, собственно интеллектуальным анализ данных оказывается при использовании компьютерных систем, содержащих средства извлечения знаний из баз фактов (БФ), автоматического порождения гипотез и объяснения имеющихся фактов на основании порожденных гипотез, а также способных осуществлять дедуктивный вывод из исходных и полученных знаний (баз знаний, БЗ). [Арский, Финн, 2008]. Современная социологическая наука далека от таких возможностей, а формализация аналитических процедур, прежде всего – процедур выявления причинных зависимостей из анализа имеющихся данных, индуктивных стратегий создания теорий и связанных с этим когнитивных процессов абдукции – рассматривается действующими социологами как подлинный вызов времени [Fielding, 2003; Gobo, 2005].

1. Формальное представление данных и знаний для качественного анализа социологических данных

С точки зрения эпистемологического содержания качественный анализ видится как «восходящая» стратегия «доказательного и последовательного» построения теории на основе эмпирических фактов, т.е. получения нового знания из эмпирического материала. Напомним, что подобным образом (с использованием неформализованного индуктивного вывода) формулируется основная задача в одной из наиболее структурированных и разработанных методологий качественного анализа – обоснованной теории (grounded theory, см. [Страусс, Корбин]). Стало быть, интеллектуальный анализ социологических данных (ИАСД) – построение теории на основе эмпирических фактов средствами формализованных познавательных процедур в компьютерных системах высокого уровня – есть не что иное, как формализованный качественный анализ социологических данных (ФКАСД). Такой анализ предполагает более высокий, чем это принято в качественном анализе, уровень формализации изучаемых психосоциальных явлений и нуждается в первичном структурировании данных и знаний и формировании системы отношений для них. Следующим шагом оказывается выбор адекватных предложенному представлению формальных средств анализа. В совокупности это означает создание формального языка с дескриптивной и аргументативной функциями [Поппер, 2000] – для представления данных и знаний (с возможностью определения их сходства) и формализации рассуждений (и выдвижения гипотез), соответственно ^¹.

Фундаментальным принципом качественного анализа данных является принцип «сходство фактов влечет наличие (отсутствие) изучаемого эффекта и его повторяемость». Конкретизируя его для реализации идеи причинности, можно сказать, что в рамках качественного анализа исследуется тип каузальности «структура – эффект» (а не «явление – явление»). Гипотетические причины представляются в виде сходств фактов, имеющих определенную структуру, т.е. «сходство» в этой схеме является нестатистическим и может анализироваться в рамках логико-алгебраического подхода (QCA [Rihoux, Ragin, 2009]) и средств интеллектуального анализа данных, включающих формализацию индуктивных процедур (ДСМ-метод автоматического порождения гипотез [Автоматическое порождение …, 2009]).

ДСМ-метод автоматического порождения гипотез (ДСМ-метод или ДСМ-метод АПГ) позволяет реализовать сформулированную в [Арский, Финн, 2008] программу интеллектуального анализа применительно к социологическим данным. Интеллектуальный анализ социологических данных (ИАСД) и реализующая его интеллектуальная система (в частности, интеллектуальная система типа ДСМ, ИС-ДСМ) предполагают возможность решения ряда проблем, связанных с представлениями классической «понимающей социологии» М. Вебера и составляющих круг задач ФКАСД. К ним относятся:

– исследование индивидуального поведения, порождение детерминант поведения и типологизация социума на их основе;

– анализ и прогнозирование мнений респондентов как варианта поведения;

– выяснение влияния ситуации на поведение индивидуума;

– анализ рациональности мнений (в т.ч. степени рациональности мнений данной социальной общности).

Из описанного принципа структурного сходства как источника детерминаций вытекает потребность первичной (до решения собственно задач ФКАСД) структуризациии данных и знаний, т.е. предварительной алгебраической формализации сходства объектов и их свойств. Основной принцип представления знаний в ИС-ДСМ, предназначенных для анализа социологических данных и возможного прогнозирования социальных действий или мнений (решения задач ФКАСД), – «постулат поведения» (Р1). Согласно этому постулату, используемые параметры описания индивида выражают его социальный характер, черты личности и нетривиальные биографические данные, отражающие историю становления личности (или, по крайней мере, адаптацию в социальной среде). Кроме того, в соответствии с исследованиями в социальной и когнитивной психологии, детерминация социального поведения субъекта напрямую связана также и со средовыми факторами [Росс, Нисбетт, 2000]. Соответственно, «постулат ситуационизма» Р3 предполагает включение в анализ ситуационных параметров, позволяющих учесть контекст реализации поведения. Наконец, анализ рационального поведения предполагает возможность формализации мнений субъекта (в том числе, с учётом его социальных установок). Логическая систематизация знаний о субъекте, его поведении и мнениях означает выделение исходных отношений и установление зависимостей между ними на основе формализованных рассуждений. Средством формализации ДСМ-рассуждений, реализующих синтез познавательных процедур – индукции, аналогии и абдукции, – являются бесконечнозначные логики степеней правдоподобия порождаемых гипотез.

ДСМ-метод предназначен для исследования каузальности типа «структура объекта – эффект», что укладывается в рамки перечисленных выше задач ФКСД, направленных на изучение поведения Y субъекта поведения Х, находящегося в ситуации S и обладающего мнением  (отображающим субъективный мир личности – см. [Арский, Финн, 2008]).

Для представления знаний и формализации ДСМ-рассуждений формулируется ДСМ-язык [Финн, 1991], в котором для представления субъектов поведения используются индивидные переменные X, Z, V, ... 1-го сорта (быть может, с нижними индексами) и константы С, С₁, С₂, ... –, являющиеся значениями переменных для объектов и подобъектов X, Z, V и т.д. Свойства объектов (эффекты, например, эффекты поведения субъектов) представляются индивидными переменными 2-го сорта Y, U, W, ... (быть может, с нижними индексами) и константами Q, Q₁, Q₂, ..., а также А, А₁, А₂. Параметры ситуации представлены переменными 3-го сорта S, S₁,…, S_n,… и константами .

Пусть даны конечные множества U⁽ⁱ⁾ , i = 1, 2, 3, U⁽¹⁾ = {d₁,…, } – множество характеристик социальных субъектов, U⁽²⁾ = {a₁,…, } – множество эффектов их поведения (действий и установок), U⁽³⁾ = {s₁, , } – множество ситуационных параметров. Определим на них 3 булевых алгебры B_i ={, , U⁽ⁱ⁾, , , }. B₁ – алгебра объектов, B₂ – алгебра свойств, B₃ – алгебра ситуаций (внешних обстоятельств). Тогда объекты (субъекты поведения) X, множества свойств (эффекты поведения) Y, ситуации S.

Атомарные формулы ДСМ-языка применительно к задачам ФКАСД интерпретируются следующим образом. В исходном состоянии база фактов (БФ) содержит (+)- и (–)-факты наличия и отсутствия изучаемого эффекта, соответственно, а также неопределённые ()-факты, представляющие предикат X₁Y. Предикат означает, что «субъект Х обладает/не обладает эффектом поведения Y», где Х – структурированное описание субъекта, Y – переменная для представления действий и установок (в общем случае – и мнений). Производные предикаты V₂W и W ₃V означают, что «подмножество характеристик V есть причина эффекта поведения W» и «эффект поведения W есть следствие подмножества характеристик V» (т.е. переменная V принимает значения на множестве возможных характеристик субъектов данного социума). V₂W и W ₃V представляют собой гипотезы о причинах наличия/отсутствия изучаемых эффектов, порожденные на основании индуктивного анализа предиката X₁Y.

Такое представление БФ является базовым для ДСМ-метода и допускает различные модификации с учётом потребностей предметной области. Расширим ДСМ-язык введением терма (см. [Скворцов и др., 1981]), где – полный объект = X, S, [], Х – субъект поведения, S – контекст (ситуация) поведения,  – мнение субъекта (о ситуации, о возможном поведении).

Отделение мнения от действий и установок обусловлено специфическим характером этого вида поведения, для которого предлагается следующее формальное представление [Гусакова и др, 2001]. Пусть задана некоторая тема опроса Т^* такая, что она характеризуется утверждениями p₁, …, p_n, образующими каркас темы Р. Задана функция оценки v[p_i] (i = 1, …, n) с областью значений {1, –1, 0, }, v[p_i] = , {1, –1, 0, } (“фактическая истина”, “фактическая ложь”, “фактическое противоречие”, “неопределенность”, соответственно), являющихся типами истинностных значений бесконечнозначной логики ДСМ-метода АПГ. Пусть, далее, ?J_np_i – терм, в котором n – переменная со значениями из {1, –1, 0, t}. Терм ?J_np_i понимается как вопрос «верно ли, что v[p_i] = n?». J_np = t, если v[p_i] = n; в противном случае J_np = f. Положим j_j ≖ p₁&…&p_n, где n_i⁽^j⁾ Î{±1, 0, t}, i = 1, …, n; j = 1, …, 4ⁿ. Будем называть j_j – максимальную конъюнкцию атомов p_n – мнением индивида, при этом множество членов этой конъюнкции обозначим [j_j]={p₁, …, p_n}.

Общая задача изучения явления, понимаемого, как отношение «объект – эффект», соответствует двум классам задач, которым отвечают два типа ДСМ-рассуждений – прямой и обратный.

(1) Пусть в исходном состоянии БФ представлена предикатами ₁Y (X, S, []₁Y), где Y – эффект (действие или установка к действию). Тогда применение прямого ДСМ-рассуждения («от причины – к следствию») порождает гипотезы о причинах вида ₂Y, где представляет сходство объектов, = ₁…_k, =V, S, [], где V = X₁…Х_k, S  S₁…S_k, [][₁]…[_k].

(2) База фактов для анализа такого вида поведения, как мнение, представлена предикатами X, S₁ [], Т, где Т – одна из возможных тем опроса (в случае проведения опроса по одной теме представление упрощается до X, S₁[]). В этом случае применяется обратный метод и порождаются гипотезы вида W ₃V, S, W/[], V = X₁…Х_k, S  S₁…S_k, [] = [₁]…[_k]. Решение задачи выявления детерминаций мнений с учётом ситуации проведения опроса подробно описано в [Финн и др., 2002].

Отдельным вариантом такой постановки является анализ динамически изменяющихся состояний социума с последующим изучением причин изменений индивидуального поведения и мнений. Рассмотрим п состояний социума, каждому из которых соответствует ситуация S_i, i = 1, …, n. Пусть в каждом состоянии проводится закрытый т-значный опрос (когда респонденту предлагается т вариантов ответа) по теме Т^* с каркасом Р. В соответствии с предложенным в [Михеенкова и др., 2008] формальным определением закрытый т-значный социологический опрос в i-том состоянии задаётся как O_m⁽ⁱ⁾ = J_m, P, , K⁽ⁱ⁾, R (или O_m⁽ⁱ⁾ = J_m, P, , K⁽ⁱ⁾, R, Х₁Y для предсказательного опроса, в котором анализ и предсказание возможных ответов осуществляется средствами ДСМ-метода). Логическими средствами формализации m-значного (m2) социологического опроса являются m-значные логики J_m и исчисление эквивалентных формул ИЭФ-J_m [Finn, Mikheyenkova, 2011]. Множество оценок переменных V_m = {0, ,…, , 1} должно быть социологически интерпретируемым, что легко достигается для m = 2, 3, 4, 5, 6, 7^². R соответствует множеству респондентов, участвующих в опросе, K⁽ⁱ⁾ – множеству мнений респондентов в ситуации S_i, i = 1, …, n. Если |R| = r, K⁽ⁱ⁾ = {₁⁽ⁱ⁾, …, _r⁽ⁱ⁾}. Множество  = {₁, …, _s} формул ₁, …, _s логик J_m, выражает логические зависимости между элементами p₁, …, p_n каркаса Р.  должно быть непротиворечивым, при этом формула  = (₁…_s) не должна быть тавтологией логики J_m. Оно неявным образом содержит ценностные ориентации, заложенные исследователем в систему утверждений из каркаса Р, и обеспечивает последовательность взглядов на тему опроса.

В [Finn, Mikheyenkova, 2011] предложен метод аналитических таблиц для логик J_m, позволяющий охарактеризовать степень непротиворечивости опроса. Пусть consis({}) – метапредикат непротиворечивости множества формул ({}). Тогда множество всех  (ответов респондентов) – J-максимальных конъюнкций логики J_m, – не противоречащих , обозначим К⁺ = {|consis({})(К)}; множество ответов , противоречащих , обозначим  = {|consis({})(К)}, К – множество всех возможных максимальных конъюнкций (мнений). Очевидно, что , т.е. {} противоречиво, если аналитическая таблица ℑ для множества {} замкнута.

Определим следующие функции: (К, К⁺) = |КК⁺|/|К| и (К, ) = |К|/|К|, характеризующие, соответственно, степень непротиворечивости и степень противоречивости закрытого m–значного опроса по теме Т^*. Здесь К – множество ответов при опросе, |К|, |КК⁺| и |К| – числа элементов множеств К, КК⁺ и К, соответственно. Легко показать, что (К, К⁺) + (К, ) = 1.

Соответственно, для заданного множества  для каждого состояния S_i, i = 1, …, n, может быть вычислена степень непротиворечивости (K⁽ⁱ⁾, K⁺).

Результаты п опросов r респондентов могут быть представлены Таблицей:


S₁	X₁, S₁, [₁⁽¹⁾]	…	X_j, S₁, [_j⁽¹⁾]	…	X_r, S₁, [_r⁽¹⁾]
∶	∶		∶		∶
S_i	X₁, S_i, [₁⁽ⁱ⁾]	…	X_j, S_i, [_j⁽ⁱ⁾]	…	X_r, S_i, [_r⁽ⁱ⁾]
∶	∶		∶		∶
S_n	X₁, S_n, [₁⁽ⁿ⁾]	…	X_j, S_n, [_j⁽ⁿ⁾]	…	X_r, S_n, [_r⁽ⁿ⁾]

Если опросы O_m⁽ⁱ⁾ отображают влияние индивидуальных особенностей на восприятие темы опроса, изменение мнений j-го индивида (субъекта) в последовательности ситуаций S₁,… S_n представляется структурой O_m_,_j = J_m, P, , K_j, где K_j = {_j⁽¹⁾, …, _j⁽ⁿ⁾}, j = 1, …, r. Соответственно, вычисляется степень непротиворечивости изменяющихся с изменением ситуаций мнений j-го респондента (K_j, K⁺) для заданного множества .

2. Анализ мнений

Для выявления сходства мнений респондентов в i-ой ситуации и сходства мнений j-го респондента во всех ситуациях рассмотрим, соответственно, функции G_i и F_j. Напомним, что мнения всех респондентов в i-ой ситуации представлены множеством K⁽ⁱ⁾ = {₁⁽ⁱ⁾, …, _r⁽ⁱ⁾}. Тогда G_i = ₁⁽ⁱ⁾ …_r⁽ⁱ⁾. Аналогично, F_j = _j⁽¹⁾ … _j⁽ⁿ⁾ соответствует мнению j-го респондента во всех ситуациях.

Рассмотрим 4-х-значный опрос, когда отношение к теме характеризуется оценками {+1, –1, 0, }, которые интерпретируются как ответы «да», «нет», «и да, и нет» и отсутствие ответа, соответственно. Пусть в i-ой ситуации в БФ представлено множество респондентов R₀ = R₀⁽⁺¹⁾R₀^(–1)R₀⁽⁰⁾R₀⁽^⁾, где R₀⁽^⁾ = {X|(J__,₀_(X₁[])&(K⁽ⁱ⁾))}, {+1, –1, 0}, R₀⁽^⁾ = {X|J₍__,₀₎(X₁[]) &(K⁽ⁱ⁾)}, R₀⁽^⁾R₀⁽^⁾= для . Аналогично, соответствующие мнения представлены множествами Ф₀⁽^⁾ = {|X(J__, 0_(X₁[])&(K⁽ⁱ⁾))}, {+1, –1, 0}, Ф₀⁽^⁾={|XJ₍__, 0)(X₁[])& (K⁽ⁱ⁾)}. Напомним, что , n  истинностные значения в ДСМ-языке. J__,_n_(X₁Y) означает, что высказывание «объект X обладает множеством свойств Y» на n-м шаге рассуждений имеет тип истинностного значения . Соответственно, п = 0 характеризует факты.

Тогда мнения всех респондентов в i-ой ситуации G_i = G_i¹  G_i^–1  G_i⁰  G_i^, где G_i^ соответствует описанным Ф₀⁽^⁾ ({1, –1, 0, }). Рассмотрим определенные выше множества мнений Ф₀⁽¹⁾ = {,…, }, Ф₀^(–1) = {,…, }, Ф₀⁽⁰⁾ = {,…, } (l_p+l_q+l_sr) и соответствующие R₀⁽¹⁾, R₀^(–1), R₀⁽⁰⁾. Тогда для каждой G_i¹ =  … , G_i^–1 =  …  , G_i⁰ = … с помощью обобщенного алгоритма Куайна, предложенного в [Finn, Mikheyenkova, 2011] для J_m-логик, строятся сокращенные ДНФ  …  с соответствующим множеством импликант {, …, } (до конца абзаца мы опускаем верхний индекс i у обозначения мнений). Каждой импликанте _h из []⁽^⁾ поставим в соответствие такое множество Ф₀⁽^⁾_h мнений , что  покрывается импликантой _h, Ф₀⁽^⁾_h = { | _h ⊏ }, h = 1, …, r_g, g = 1, 2, 3. Соответственно, множество субъектов, мнение которых есть элемент Ф₀⁽^⁾_h, обозначим R₀⁽^⁾_h = {X| J__1,0_(X₁[_l])&(_lФ₀⁽^⁾_h)}, R₀⁽^⁾_h = {, …, }. Сходство элементов R₀⁽^⁾_h – всех Х таких, что их мнение покрывается импликантой _h – обозначим V⁽^⁾_h, V⁽^⁾_h = (V⁽^⁾_h, {+1, –1, 0}, h = 1, …, r_g, g = 1, 2, 3). Тогда можно сказать, что в i-ой ситуации субъекты Х, в описание которых входят элементы V⁽^⁾_h Х, выражают общие взгляды, выраженные фрагментами мнения _h. Более того, если для некоторой импликанты _с оказывается V⁽^⁾_с=, это мнение субъектно-независимо, т.е. характерно для всех представителей социума в ситуации S_i.

Аналогичная процедура может быть выполнена для функции F_j, описывающей мнения K_j = {_j⁽¹⁾, …, _j⁽ⁿ⁾} j-го респондента в последовательности ситуаций S₁,… S_n, j = 1, …, r. Импликантам соответствуют устойчивые фрагменты мнений, сохраняющиеся неизменными при наличии соответствующих ситуационных параметров. Соответственно, если множество таких параметров пусто (сходство ситуаций, мнение респондента в которых покрывается соответствующими импликантами), мы имеем дело с контекстно-независимыми мнениями, что может соответствовать убеждениям, системе ценностей или обобщенным социальным установкам субъекта. Заметим, что задача выявления контекстно- и субъектно-независимых фрагментов мнений, для решения которой предлагаются изложенные логико-алгебраические процедуры, является лишь частью общей задачи анализа мнений в предсказательных опросах, решаемой средствами ДСМ-метода АПГ.

3. Метод сопутствующих изменений

Вернёмся к рассмотрению матрицы опросов r респондентов в n ситуациях, представленной Таблицей. Вся матрица представляет O_m_,_ = {O_m⁽¹⁾, …, O_m⁽^п⁾} – семейство п предсказательных опросов, соответствующее ситуациям S₁, …, S_n, O_m_,_ = J_m, P, , K, R, K = K⁽ⁱ⁾ = K_j. Естественно считать, что множество респондентов R является общим для всех опросов. Пусть в ситуации S_i опрос O_m⁽ⁱ⁾ = J_m, P_i, _i, K⁽ⁱ⁾, R (i = 1, …, n). Тогда возможны варианты: (а) P = P_i = P_l,  = _i = _l (il, i, l = 1, …, n); (б) P_i  P_l, P = P_i,  = _i = _l (il, i, l = 1, …, n); (в) P_i  P_l, P = P_i, _i  _l,  = _i (il, i, l = 1, …, n).

Рассмотрим вариант монотонного расширения ситуаций S₁  S₂ …  S_n и соответствующего расширения Р₁  Р₂ …  Р_n. Тогда добавляемым фрагментам ситуации соответствуют появляющиеся новые мнения. Пусть Р₁ = {p₁, …, } Р₂ = {, …, },…, Р_n = {, …, }. При этом  для случая (б) должна содержать зависимости, включающие элементы от p₁ до . Для варианта (в) _i = _i_–1  _i; в простом случае (в₁) _i включает лишь зависимости для , …, ; в случае (в₂) _i включает также зависимости между элементами р₁, …, и , …, . Очевидно, что в первом случае дополнительный вклад в степень непротиворечивости опроса (K⁽ⁱ⁾, K⁺) по отношению к (K⁽ⁱ^–1), K⁺) вносят, помимо (K⁽ⁱ⁾\K⁽ⁱ^–1)  ), лишь новые фрагменты &…& мнений _j⁽ⁱ⁾ из (K⁽ⁱ^–1)  K⁺), что, соответственно, сокращает процедуру её вычисления. Во втором случае зависимость гораздо сложнее.

Изучение динамически изменяющихся состояний социума составляет отдельное направление в социологии, ориентированное, по большей части, на выявление различного рода зависимостей между числовыми параметрами. В [Финн, 2010] предложена формализация метода сопутствующих изменений Д.С. Милля, позволяющая устанавливать регулярность изменения причинно-следственных зависимостей в случае нечислового представления данных. Будем считать, что в рассматриваемом варианте монотонного расширения ситуаций мнения респондентов в ситуации S_i относительно вопросов из P_i_–1 = {р₁, …, } не пересматриваются, т.е. [_j⁽ⁱ^–1)]  [_j⁽ⁱ⁾]. Представленному в Таблице соответствию X_j, S_i₁[_j⁽ⁱ⁾] отвечает описанный в [Финн и др., 2002] предикат Р(X, S, Y) (X_j/Х, S_i/S, [_j⁽ⁱ⁾]/Y) – «субъект Х в ситуации S демонстрирует эффекты поведения (мнения)Y». В случае анализа мнений в различных ситуациях для индуктивного порождения причин (V, S, W) используются предикаты (V,W,S) (или их усиления;  = +, –). Сформулированные в [Финн, 2010] правила правдоподобного вывода п.п.в.- для метода сопутствующих изменений для булевской структуры данных в нашем случае могут быть переформулированы следующим образом:

J₍__,_n₎(V, S, W), (V,W,S)&(V,W,S), (V,W,S),

J__1,_р_(V, S, W)

где p=max(n,q) +1.

Здесь (V,W,S) ⇌ ksl₁l_s(V,W, S, k, s, l₁,, l_s), где q=max(,…,), a ,…, и  константы, являющиеся значениями параметров l₁,, l_s, s, соответственно. Правила определяются симметрично, ( = 0, ) – стандартным для ДСМ-рассуждений образом.

(V, W, S, k, s, l₁,, l_s) ⇌ V₁V_s W₁W_s ((((V, S_i, W_i)&(V,W_i,S_i)&(V,W_i,S_i))&((S S₁)&&(S_s_-1 S_s))) &l_mSU(((l_ml_s)&J₍__,_m₎(V,S,U)&(V,U,S)& (V,U, S))(((WW₁)&&(W_s_-1W_s))& (((S=S_h)& (U=W_h)))))&(sk2)).

Наличие численных характеристик – степеней непротиворечивости опросов – позволяет рассмотреть также иной вариант метода. Вычислим _i(K⁽ⁱ⁾, K⁺) = (для простоты считаем, что множество  – общее для всех опросов; в противном случае можно рассмотреть также _i(K⁽ⁱ⁾, К_i⁺) = , где К_i⁺ = {|consis(_i{})(К)}). Пусть S₁  S₂ … S_n соответствует ₁  ₂_ …  _n (₁  ₂ …  _n), т.е. добавляемые фрагменты ситуации являются причиной повышения (понижения) степени непротиворечивости опроса. Можно рассмотреть также -монотонность (антитонность) для разного отношения к теме ({1, –1, 0}), _i^(, K⁺) = . Интересным также представляется вопрос о зависимости от изменения ситуации таких критериев рациональности, как «близость к идеальному мнению» и «согласованность мнений», предложенных в [Михеенкова, Финн, 2005].

Заключение

Предлагаемые средства представления и последующего интеллектуального анализа социологических данных представляют собой приближение к формализации исследовательских эвристик «анализ данных – предсказание – объяснение», характерных для качественного анализа социологических данных. Работа в этом направлении является ответом специалистов в области искусственного интеллекта на вызовы потребностей современной социологической науки. Однако достижение интересных результатов возможно лишь при взаимодействии глубокого (гуманистического) понимания сущности изучаемых социальных проблем и профессионального применения исследовательских процедур, что требует от социолога серьёзной предварительной работы. Существующие традиции сбора и подготовки социологических данных, ориентированные на применение статистических методов анализа, нуждаются в серьёзной трансформации. С другой стороны, именно потребности ФКАСД оказываются полезным стимулом для развития инструментов компьютерной поддержки такого анализа средствами искусственного интеллекта.

Благодарности. Работа выполнена при финансовой поддержке РФФИ (проекты № 10-06-00033а, 11-07-00618а).

Список литературы

[Автоматическое порождение…, 2009] Автоматическое порождение гипотез в интеллектуальных системах. Под ред. проф. В.К. Финна. М.: Книжный дом «Либроком», 2009

[Арский, Финн, 2008] Арский Ю.М., Финн В.К. Принципы конструирования интеллектуальных систем // Информационные технологии и вычислительные системы, № 4, 2008, c. 4 – 37.

[Вебер, 2006] Вебер М. Избранное: протестантская этика и дух капитализма. М.: РОССПЭН, 2006.

[Гусакова и др., 2001] Гусакова С.М., Михеенкова М.А., Финн В.К. О логических средствах анализа мнений // НТИ, Сер. 2, 2001, № 5, с. 4 – 24.

[Михеенкова, Финн, 2005] Михеенкова М.А., Финн В.К. Логические средства формализации закрытых опросов и проблемы распознавания рациональности мнений // Математическое моделирование социальных процессов, 2005, вып. 7, с. 127 – 135.

[Михеенкова, Финн, 2008] Михеенкова М.А, Финн В.К. Интеллектуальный анализ данных для проблем когнитивной социологии // XI Национальная конференция с международным участием “Искусственный интеллект-2008”, Дубна, Сентябрь 29 – Октябрь 2, 2008, Труды конф. в 3 т., т. 2, с. 61 – 69.

[Михеенкова, Финн, 2009] Михеенкова М.А., Финн В.К. Правдоподобные рассуждения и булева алгебра для анализа социологических данных (проблемы когнитивной социологии) // Математическое моделирование социальных процессов. М.: Университет. Книжный дом, 2009, вып.10., с.229 – 236.

[Поппер, 2000] Поппер К. Эволюционная эпистемология // Эволюционная эпистемология и логика социальных наук. М.: Эдиториал УРСС, 2000, с.57–74.

[Росс Л., Нисбетт, 2000] Росс Л., Нисбетт Р. Человек и ситуация (уроки социальной психологии). М.: Аспект Пресс, 2000.

[Страусс, Корбин, 2007] Страусс А., Корбин Дж. Основы качественного исследования. Обоснованная теория. Процедуры и техники. М.: КомКнига. 2007.

[Скворцов и др., 1981] Скворцов Д.П., Финн В.К. Замечание об одном расширении языка многосортной логики предикатов. // НТИ. Сер. 2, 1981, № 8, с. 25-26.

[Финн, 1991] Финн В.К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ // Итоги Науки и техники. Сер. «Информатика». М.: ВИНИТИ, 1991, т. 15, с. 54 – 101.

[Финн и др., 2002] Финн В.К., Михеенкова М.А. О логических средствах концептуализации анализа мнений // НТИ, сер.2, 2002, № 6, с. 4 24.

[Финн, 2010] Финн В.К. Индуктивные методы Д.С. Милля в системах искусственного интеллекта. Часть II // Искусственный интеллект и принятие решений, 2010, № 4, с. 14 40.

[Fayyad et al., 1997] Fayyad U.M., Piatetsky-Shapiro G., Smyth P. From Data Mining To Knowledge Discovery in Databases // AI Magazine, 1996, v. 17, No 3, pp.37-54.

[Fielding, 2003] Fielding N.G. Automating the ineffable: Qualitative software and the meaning of qualitative research // In: Tim May (ed.). Qualitative research in action. Sage Publication Inc. London. 2003 (403 p.). pp. 161 – 178.

[Finn, Mikheyenkova, 2011] Finn V.K., Mikheyenkova M.A. Plausible Reasoning for the Problems of Cognitive Sociology // Logic and Logical Philosophy, Vol. 20 (2011), pp. 113 – 139.

[Gobo, 2005] Gobo G. The Renaissance of Qualitative Methods // FQS Forum: Qualitative Social Research, 2005, Vol. 6, No. 3, Art. 42.

[Lewins, Silver, 2007] Lewins A., Silver C. Using Software in Qualitative Research: A Step by Step Guide. London: Sage Publications, 2007.

[Rihoux, Ragin, 2009] Rihoux B., Ragin C.C. (eds). Configurational Comparative Methods. Qualitative Comparative Analysis (QCA) and related techniques (Applied Social Research Methods). Thousand Oaks. CA and London: SAGE Publications, Inc. 2009.

1 Очевидно, что главной слабостью как пакетов CAQDAS, так и используемых абстрактных методов DM, является отсутствие такого языка и даже представления о необходимости его создания.

2 Согласно исследованиям в социальной психологии, респонденту трудно учитывать более 7 градаций отношения к предложенной теме.