Социологические исследования Экспертные сессии Экспертные опросы Социальная экспертиза проектов Фокус-группы Репутационный аудит Мониторинг упоминаний Мониторинг социальных медиа Маркетинговые исследования Маркетинг территорий Количественные опросы Кабинетные исследования Глубинные интервью Анализ конкурентной среды в сети Анализ больших данных (Big data) Корпоративные исследования

Банковский сектор Выборы Государственное управление Транспортная инфраструктура Спорт и здоровье Урбанистика Туризм СМИ и соцмедиа Ритейл Образование Корпорации

+7 (915) 165 57 98 Обратный звонок info@agsis.ru

Услуги

Отраслевые решения

Об агентстве

Институт Сетевого Анализа

Наша команда Статьи Видео

Контакты

Заказать проект

+7 (915) 165 57 98 Обратный звонок info@agsis.ru

Заказать проект

Технология искусственного интеллекта: анализ данных в использовании нейронных сетей

Главная
/ Институт Сетевого Анализа
/ Статьи
/ Технология искусственного интеллекта: анализ данных в использовании нейронных сетей

Александр Александрович Харламов

доктор технических наук, старший научный сотрудник Института высшей нервной деятельности и нейрофизиологии РАН, профессор кафедры прикладной и экспериментальной лингвистики МГЛУ, профессор департамента программной инженерии ВШЭ, профессор кафедры интеллектуальных информационных систем и технологии Московского физико-технического института

Abstracts. Анализ смысла (содержания) текстов – достаточно непростой и редкий пример приложений из предметной области анализа текстов. Иерархия процессов анализа оцифрованных текстов от нижнего – графематического – уровня до верхнего – уровня допустимой сочетаемости корневых основ – семантического является естественной иерархией обработки текстовой информации в сознании человека. В работе представлены два уровня обработки из этой иерархии – лексический и семантический. Описано приложение – программная система для смыслового анализа текстов – TextAnalyst, реализующее обработку двух уровней, и формирующее семантическую сеть текста как результат такой обработки. Представлены примеры анализа, использующие подход для анализа текстов.

Введение

Чтобы понять, как можно эффективно реализовать глубокое обучение для анализа текстов, сначала надо разобраться, как оно эффективно реализуется в анализе изображений: объем работ на эту тему зашкаливает. Помимо анализа рукописных и печатных текстов как изображений, необходимо разобраться с анализом оцифрованных текстов как реализаций языка, и с языком как множеством текстов.

Человек хорошо воспринимает тексты как изображения, необходимо понять, как он это делает. И в дальнейшем опираться на это представление в поисках эффективных механизмов анализа текстов.

И, наконец, поскольку и человек, и машина при анализе текстов используют (по крайней мере в части подходов) нейронные сети (искусственные или естественные), важно понять эффективные механизмы обработки текстов в том или ином виде, реализованные нейронными сетями в форме глубокого обучения.

В известных в настоящий момент работах глубина анализа изображений, как правило, ограничивается классификацией отдельных объектов. Анализ сцен является последним трендом в распознавании изображений, но больших успехов в этом направлении пока не достигнуто. Анализ ситуаций остается комплексной проблемой c выходящей за рамки собственно анализа изображений, и в большей степени связанной с анализом текстов, описывающих последовательности сцен как ситуации.

Классификация изображений объектов. Сверточные сети

Наиболее успешно с целью классификации изображений отдельных объектов используются сверточные искусственные нейронные сети. Известен очень хороший результат применения сверточных сетей с глубоким обучением для классификации изображений в 1000 классов с точностью 99%. Для этого используется сверточная сеть, содержащая 153 слоя.

Рассмотрим, что же происходит в этом случае. В процессе классификации на изображении выделяются признаки разной сложности: от простейших на первых слоях до очень сложных на последних. Например, глаз, колесо автомобиля, и подобное. Изображения характерны большой вариативностью формы, поэтому уже при решении задачи классификации качественное решение требует включения в сеть большого количества слоев и большой обучающей выборки. Сверточные сети успешно используются для классификации символов алфавита, в том числе рукописных.

Нужно сказать, что существенным ограничением при использовании этого подхода является объем обучающей выборки, который должен быть тем больше, чем выше требуется качество классификации. Следовательно, при обучении требуются очень большие вычислительные ресурсы. Поэтому анализ сцен, требующий еще и учета комбинаторики, как правило, не реализуется. Дело в том, что сложность сцен является комбинаторикой составляющих их объектов и событий, то есть число возможных классов сцен даже небольшой сложности, оказывается очень большим.

Модель языка. GPT

В анализе оцифрованных текстов, а после классификации символов алфавита сверточной сетью текст можно считать оцифрованным, применяются другие помимо классификации механизмы, которые также могут быть реализованы с использованием глубокого обучения. Одним из них является модель языка, которую можно представить как сеть, полученную пересечением сетей множества текстов языка, где вершины – это слова словаря языка, а дуги – некоторые отношения между словами. Если говорить об автоматической обработке текстов с выявлением отношений между словами, то речь пойдет только об ассоциативной связи между ними, то есть об их совместном нахождении в предложениях текста.

Такая сеть строится, например, в виде состояний синапсов отдельных нейронов после обучения в искусственных нейронных сетях, типа трансформеров, – в GPT. GPT – это нейросеть, которая способна генерировать образцы синтезированного текста с вполне логичным повествованием, если задать ей любое начало. Однако, для получения такого результата число параметров в сети должно превышать 1,5 млрд.

Обработка изображений в зрительном анализаторе человека

В зрительном анализаторе человека обработка изображений отличается от обработки в сверточных сетях, хотя там также осуществляется развертка изображения, но не как в видеокамере – слева-направо сверху-вниз, а по точкам наибольшей информативности изображения.

Обработка изображений в зрительном анализаторе человека осуществляется двумя каналами: грубым и точным. Грубый канал обработки осуществляет выявление точек наибольшей информативности, реализацию переходов от точки к точке, и еще кое-что. Точный канал осуществляет анализ информации в сравнительно небольшой окрестности точек информативности. Вместе они, таким образом, формируют сенсорную кодовую последовательность, характеризующую изображение, которое грубым каналом представляется как совокупность эквитекстурных областей, перегибы контуров которых и являются точками наибольшей информативности.

Сформированная таким образом кодовая последовательность содержит повторяющиеся уровнеобразующие элементы зрительного квази-языка, которые выявляются в процессе структурной обработки в колонках коры и формируют иерархию словарей, где на нижнем уровне представлены простейшие элементы изображений – точки, сегменты дуги, отрезки прямой, под разными углами наклоненные к горизонту, перекрестья разного типа. На следующих уровнях представлены элементы объектов, далее – объекты, сцены. Чтобы быть точными, надо сказать, что на самых нижних уровнях обработки должны быть представлены простые и сложные рецептивные поля.

Грубый канал

Исходное изображение подвергается фильтрации, сглаживанию, подчеркиванию частот, усилению контраста, оператору вычитания шумовой составляющей для улучшения качества изображения. А также бинаризации и еще раз сглаживанию. При этом все переходы яркости заданной величины становятся контурами.

В грубом канале выявляются эквитекстурные области (цвет также рассматривается как текстура, или как элемент текстуры) за счет реализации сегментирующей функции. Выявляются границы этих областей. Выявляются точки перегиба границ, которые являются точками наибольшей информативности. И организуется перемещение точки фиксации взгляда из одной точки в другую (см. Рис. 1).

Рис. 1. Траектория фиксации взгляда при осмотре фотографии без заранее заданного задания.

Глаз совершает четыре типа движений: произвольные перемещения взора, саккадические движения, сползание взгляда между саккадами и тремор. Саккадические движения совершаются автоматически. Саккады имеют целью возвращение взгляда в точку, из которой он сместился за время сползания, или автоматическое перемещение взгляда из одной точки фиксации в другую точку фиксации под воздействием механизма фреймового описания расположения экстремальных точек функции информативности, или под воздействием механизма периферийного зрения, отслеживающего яркие или движущиеся объекты. Тремор – это микроколебательное перемещение взора в направлении, ортогональном сползанию между саккадами.

Тремор вызывает колебательное смещение проекции элементарного представления относительно точки фиксации. Сползание между саккадами – также смещение проекции элементарного представления вправо вниз. Длина пути взора между саккадами является естественной сегментирующей функцией для изображения. Таким образом, в промежутке между саккадами изображение элементарного представления проецируется на некоторые светочувствительные ячейки (колбочки в данном случае), создавая на них чередующиеся за счет тремора значения освещенностей (Рис. 2). При этом формируются информационные последовательности, состоящие из единиц и нулей, как реакция светочувствительных ячеек на большую или меньшую освещенность. На самом деле это последовательности паттернов, число спайков в которых соответствует уровню освещенности.

Рис. 2. Образование последовательности нулей и единиц на элементе светочувствительной матрицы за счет тремора и саккады (описание в тексте). 1 – 2 – 3 – 4 – 5 – 6 – 7 - … - последовательность обхода точек фиксации взгляда – скоплений экстремальных точек функции информативности.

За счет этого сползания проекции анализируемого элемента изображения на выходе каждого светочувствительного элемента, участвующего в восприятии, формируется динамическая картина, соответствующая прохождению проекции над светочувствительными ячейками. В результате при осмотре конкретной сцены формируется кодовая последовательность, характеризующая последовательность окрестностей точек наибольшей информативности изображения.

Так осуществляется формирование траектории при анализе изображения только одного конкретного ракурса объекта. Манипулирование объектом позволяет менять ракурс анализа изображения. Каждому ракурсу изображения объекта соответствует свое множество траекторий. Если дискретность изменения ракурса при манипулировании невелика, то множества траекторий, полученных для каждого ракурса, формирует подклассы эквивалентности с представителями подклассов, соответствующими характерным ракурсам. В дальнейшем (после завершения обучения восприятию именно этого объекта) эти характерные ракурсы (за счет использования моторики) исследуются в первую очередь.

Точный канал

Точный канал осуществляет структурную обработку кодовых последовательностей с формированием словарей уровнеобразующих элементов зрительного квазиязыка. Их можно соотнести с признаками разных уровней, формирующимися в сверточных сетях.

Рис. 3. Модель обработки изображения в зрительном анализаторе. (1) Представление объекта в виде активности детекторов края. (2) Эквитекстурная сегментация. (3) Выделение контуров. (4) Вычисление экстремальных точек функции информативности. Здесь пп 1-2-3-4 – представляют обработку в грубом канале. (5) Далее представлена иерархия процессоров обработки в точном канале в составе уровней элементарных представлений, элементов объектов, объектов и сцен.

Словарем уровня элементарных представлений являются простейшие образы – элементарные представления: отрезки прямых, сегменты кривых и дуг, Y-, X-, Г- и Т-образные пересечения, ориентированные различным образом. Эти элементарные представления, участвующие в формировании словаря нижнего уровня, появляются на входе сенсоров в разных ориентациях, и все они участвуют в формировании словаря этого уровня.

В качестве слов словаря уровня элементов объектов в первую очередь рассматриваются объекты такого масштаба, чтобы ими было удобно манипулировать кистью доминантной руки в поле ближнего зрения (или соответствующего масштаба изображения более крупных объектов). Статистическая обработка множества траекторий, соответствующих разным объектам, порождает на этом уровне словарь элементов объектов. Особенностями объекта являются: компактность, объемность, ограниченность эквитекстурными поверхностями. На последующих уровнях иерархической структуры словарей формируются представления объектов и сцен.

Необходимо заметить, что эти словари формируются как для одного отдельного конкретного ракурса изображения объекта, так и для всех других ракурсов. Манипулирование объектами позволяет менять ракурс изображения. Каждому ракурсу изображения объекта соответствует свое множество представлений этих уровней. Все множество ракурсов разбивается на множество подклассов эквивалентности, в рамках которых отдельные образы разных уровней представления не сильно отличаются друг от друга.

Структурная обработка информации в колонках коры

Колонки коры больших полушарий головного мозга человека осуществляют структурную обработку информации с формированием иерархий словарей образов событий разной степени сложности разных модальностей.

Проще всего показать возможности сетей из нейронов с временной суммацией сигналов на примере бинарных нейронов (см. Рис. 4). Бинарный нейрон – это нейрон, все синапсы которого имеют вес 1, или -1, на вход бинарного нейрона в каждый такт времени подается сигнал «0» или «1». Бинарный нейрон осуществляет свертку фрагмента бинарной входной последовательности с адресом нейрона длины n, в котором «1» соответствует синапсу с весом «1» и «0» – синапсу с весом «-1». Тогда множество нейронов с разными адресами моделируют n-мерный единичный гиперкуб, в котором входная кодовая сенсорная последовательность отображается в множество вершин с соответствующими адресами.

Реальные кодовые последовательности являются небинарными (как правило это последовательность векторов признаков входных сигналов), поэтому упрощенные механизмы обработки бинарных последовательностей далее будут обобщены до обработки небинарных кодовых последовательностей. Но отличия одного случая от другого оказываются не слишком велики: результаты обработки кодовой последовательности в первом случае отображаются на многомерный единичный гипкеркуб, а во втором – во все многомерное пространство.

Структурная обработка входных кодовых последовательностей осуществляется нейропобоными элементами с временной суммацией сигналов. Нейроподобный элемент с временной суммацией сигналов отличается от нейроподобного элемента с пространственной суммацией наличием регистра задержек на входе. Конечно, реальный нейрон является комбинацией свойств временной и пространственной суммации, но совместная реализация пространственной и временной суммации сильно затрудняет интерпретацию анализа обработки информации. Потому, для простоты мы будем рассматривать только временную суммацию.

Нейрон с временной суммацией сигналов

Нейроподобный элемент с временной суммацией сигналов является нейроподобным элементом А.Н. Радченко, возникшим на основе модели W. Rall, которая, в свою очередь, возникла на основе представлений D.A. Sholl.

Для понимания работы нейронной сети на основе такого нейрона, представим его в упрощенном виде (см. Рис. 4). Здесь используется многоразрядный регистр сдвига, который можно назвать обобщенным дендритом.

Рис. 4. Нейроподобный элемент с временной суммацией сигналов, где используется многоразрядный регистр сдвига, моделирующий обобщенный дендрит по Shоll.

Такой нейрон выполняет свертку фрагмента бинарной последовательности длины n символов – a_t ∈{0,1}, с последовательностью весовых коэффициентов b_1,b_2,…,b_i, b_i ∈{-1,1}:

S(t)=∑_(i=1)^n▒a_(t-n+i) b_i.

Свертка будет иметь наибольшее значение, если n-членный фрагмент входной последовательности соответствует последовательности весовых коэффициентов нейрона, то есть если b_i= -1, то a_((t+i-n))= 0, а если b_i= +1, a_((t+i-n))= 1. Такой фрагмент последовательности называется адресом нейрона. Наибольшее значение свертки равно числу единиц в адресе – Σ_ед.

В качестве нелинейной функции используется пороговое преобразование f(*)= H_адр с порогом h_адр. Если порог преобразования h_адр равен числу единиц в адресе – Σ_ед, то нейрон будет откликаться строго на свой адрес. То есть он моделирует одну из точек n-мерного сигнального пространства R^n. В случае бинарной входной последовательности – это вершина n-мерного единичного гиперкуба G_e.

Объединение таких нейронов (см. Рис. 5) моделирует n-мерный единичный гиперкуб в сигнальном пространстве (см. Рис. 6). Такое представление более удобно для интерпретации, поскольку, в отличие от искусственных нейронных сетей других парадигм, где информация об образах-эталонах упрятана в весовых коэффициентах синапсов, в такой сети входная информация представляется в удобной и наглядной форме траектории на вершинах гиперкуба.

Рис. 5. Нейронный пучок. Здесь 1 – нейроны пучка, имеющие обобщенные дендриты с разными адресами от (000...0) до (111...1), 2 – общее афферентное волокно, 3 – управляющий вход.

Рис. 6. N-мерный единичный гиперкуб G_e, где n=3. Траектория в сигнальном пространстве соответствует последовательности А.

Формирование словарей

Описанное выше представление соответствует обработке человеком любых квази-текстов. Корпус квази-текстов (любых сенсорных модальностей) подвергается статистическому анализу, в результате которого выявляются его словарные компоненты разных уровней (см. Рис. 7).

Рис. 7. Многоуровневая иерархическая структура словарей образов событий одной модальности, в которой на каждом уровне имеется множество параллельно включенных подсловарей, связанных с подсловарями следующего уровня по типу "каждый-с-каждым". Каждый уровень формирует систему подсловарей 〖{B ̂_i}〗_ij. Здесь i – слово в подсловаре, j – номер подсловаря на уровне, k – номер уровня, а m –номер модальности.

Необходимо сопоставить квази-тексты – осмысленные последовательности изображений – и текстов естественного языка. Тексты – это последовательности уровнеобразующих элементов языка разной сложности: от символов алфавита (в письменных текстах) графематического уровня до попарной сочетаемости корневых основ на семантическом уровне.

Видеоряды являются квазитекстами, которые также являются осмысленными последовательностями уровнеобразующих элементов видео-квазиязыка: от простейших элементов изображения на нижнем уровне до допустимой попарной сочетаемости объектов и событий на сцене на семантическом уровне.

На верхнем (семантическом) уровне элементы словаря – пары сочетаемых корневых основ слов, объектов (в зависимости от модальности) семантического уровня конкретного текста (или квазитекста) могут быть виртуально объединены, через одинаковые элементы пар, в однородные направленные семантические сети. Поскольку текст и квазитекст описывают один и тот же фрагмент реального мира в терминах разных модальности (языковой и экстралингвистической), то семантическая сеть текста оказывается изоморфной семантической сети соответствующего квазитекста.

На первом уровне обработки – назовем его фонемным – формируется словарь уровня элементарных представлений 〖{B_i}〗_1, характеризующий наиболее часто встречающиеся элементарные единицы текста – фонемы для звучащего естественного языка. На втором уровне обработки – назовем его уровнем транзем (переходных – коартикулированных – между фонемами участков) – формируется словарь транзем 〖{B_i}〗_2, характеризующий переходы между фонемами. На третьем уровне формируется словарь морфемного уровня 〖{B_i}〗_3, характеризующий наиболее часто встречающиеся единицы текста – флективные морфемы. На следующем – лексическом уровне – представлены словари основ слов, словоформ и сочетаний слов 〖{B_i}〗_4. На синтаксическом уровне – словарь синтаксем, представляющих собой флективную структуру синтаксических групп с выколотыми основами слов 〖{B_i}〗_5. И, наконец – словарь попарной сочетаемости корневых основ 〖{B_i}〗_6 – на семантическом уровне.

Формирование семантической сети

Словарь попарной сочетаемости основ слов фактически уже является семантической сетью, поскольку пары слов объединяются своими одинаковыми словами. При этом формируется направленный граф, в котором цепочки могут иметь ветвления. Последующее переранжирование завершает процесс построения семантической сети, когда от частотного портрета текста мы переходим к его смысловому портрету (со взвешенными вершинами и связями).

Формирование шаблонов ситуаций в ламелях гиппокампа

Кроме коры больших полушарий другой структурой мозга, существенно важной для формирования семантической сети, является гиппокамп. Ламели гиппокампа (сечения, ортогональные к длинной оси гиппокампа) ответственны за хранение информации о связях образов событий, хранящихся в колонках коры, в рамках целых ситуаций. Пирамидные нейроны поля СА3 p-ой ламели гиппокампа формируют искусственную нейронную сеть Хопфилда, весовые характеристики синапсов которой хранят информацию об объединении образов событий, хранящихся в колонках коры, относящихся к конкретной ситуации, в рамках этой ситуации.

N_p=⋃_i▒B_i .

Знак крышки [. ̂] над соответствующими событиями в (9) отсутствует потому, что в ламелях гиппокампа в сеть объединяются не элементы словарей – фрагменты траекторий в многомерном пространстве, а их текстовые эквиваленты – их индексы.

Ламели гиппокампа получают информацию от колонок коры, причем и здесь работает ассоциативный принцип обращения к информации. Весь поток информации, поступающий в гиппокамп через переключения из коры, приходит одновременно на все ламели гиппокампа. Но откликаются на этот поток только те ламели, которые содержат информацию о событиях, образы которых присутствуют во входном потоке. Отклик тем больше, чем ассоциация сильней и чем больше вес образов событий в колонках коры.

На каждой итерации взаимодействия коры и гиппокампа поле СА1 гиппокампа (как конкурентная сеть) формирует отклик только одной (или заданного количества) ламели гиппокампа – наиболее близкой к входной ситуации.

Но на этом дело не кончается: в результате отклика текущей ламели, в колонке коры, инициировавшей процесс, происходит дообучение в результате так называемой долговременной потенциации. И на следующей итерации ассоциативная проекция той же ситуации на ламели гиппокампа оказывается измененной из-за этого дообучения, и следующий отклик ламелей изменяется.

После 15-20 итераций образы событий, включенных в ситуацию, в колонке коры изменяются из-за дообучения, которое инициируется моделями ситуаций, хранящихся в ламелях гоппокампа. Вообще говоря, и модели ситуаций в ламелях гиппокампа изменяются также. То есть этот итеративный процесс переупорядочивает информацию в коре о событиях текущей ситуации в соответствии с имеющимися моделями ситуаций, хранящимися в гиппокампе, а эти модели ситуаций принимают к сведению информацию о текущей ситуации, отображенной в виде образов событий в коре.

А поскольку поле СА3 гиппокампа работает в виде громадной автоассоциативной рекуррентной памяти по всей его длине и ширине, множество отдельных моделей ситуаций N_p, которые хранятся в ламелях p, совместно с образами событий, хранящимися в колонках коры, формируют единую семантическую сеть N на многомодальной модели мира, хранящейся в колонках коры.

N=⋃_p▒N_p .

При этом важна не детальное представление хранимых образов, это обеспечивается в коре, а контекстуальные пространственно-временные связи образов в рамках целых ситуаций.

Анализ письменного текста как изображения

Текст можно рассматривать как изображение, алгоритм обработки которого в сознании человека выглядит примерно следующим образом. В процессе обучения чтению человек последовательно обучается распознаванию символов алфавита, слов, предложений. В процессе обучения человек постепенно переходит от распознавания фрагментов отдельного символа алфавита языка – элементов словаря первого уровня 〖{B_i}〗_1 к его восприятию как целого – элемента словаря второго уровня 〖{B_i}〗_2 – в его сознании формируется словарь символов алфавита – словарь графематического уровня. Далее он научается использовать символы алфавита в их последовательности в слове. В его сознании формируется словарь флективных структур слова – элементов словаря третьего уровня 〖{B_i}〗_3 – словарь морфемного уровня. Далее он научается использовать флективные структуры в их последовательности в слове вместе с корневыми основами. В его сознании формируется словарь корневых основ слова 〖{B_i}〗_4 – словарь лексемного уровня. После достижения определенных навыков восприятия слов человек начинает воспринимать слова как единый символ с опорой на корневую основу.

После этого формируется еще два уровня словарей: формируется словарь флективных структур синтаксических групп – элементов словаря пятого уровня 〖{B_i}〗_5, который обеспечивает правильное использование формы текста – словарь синтаксического уровня, а далее, на семантическом уровне, словарь допустимой попарной сочетаемости корневых основ – словарь семантического уровня 〖{B_i}〗_6.

После завершения процесса восприятия слов как целых символов, начинается обучение восприятию слов как символов в их последовательности в предложении: человек начинает воспринимать предложение как единое целое.

Структурный анализ цифрового текста

В минимальной конфигурации структурный анализ оцифрованного текста сводится к формированию вместо словарей шести уровней словарей только двух уровней: словаря (1) корневых основ слов 〖{B_i}〗_4 и словаря (2) пар корневых основ слов 〖{B_i}〗_6.

В отличие от изображений текстов, оцифрованные тексты обладают сравнительно малой вариативностью (по крайней мере на уровне словаря корневых основ, который соответствует уровню объектов в анализе изображений). Поэтому, число слоев искусственной нейронной сети на основе нейроподобных элементов с временной суммацией сигналов, используемых для анализа текстов на уровне слов не превышает длины самого длинного слова, например равно 20.

В отличие от изображений тексты линейны: механизм выявления точек наибольшей информативности перестает быть актуальным – элементы словаря корневых основ просто следуют в тексте друг за другом. Отношение между словами (корневыми основами слов) текста сводятся в простейшем случае к отношениям ассоциативности между ними. То есть предложения текста, а следовательно, и весь текст, сводятся к перечислению пар смежных слов (первое-второе, второе-третье, и так далее).

Словарь уровня корневых основ формируется сравнительно просто: подсчетом частоты встречаемости корневых основ в тексте. Поэтому рассмотрим более подробно лишь формирование словаря семантического уровня.

Словарь семантического уровня

Словарь семантического уровня 〖{B_i}〗_6 формируется как словарь попарной сочетаемости корневых основ слов: как множество несимметричных пар событий <c_i c_j>, где c_i и c_j – корневые основы – события, связанные между собой отношением ассоциативности (совместной встречаемости в предложении текста).

Таким образом текст сводится к перечню корневых основ слов и пар корневых основ слов, которые (виртуально) соответствуют однородной семантической сети. То есть на верхних уровнях анализа текста можно перейти к манипулированию семантическими сетями.

Семантическая сеть текста

Словарь самого верхнего уровня – словарь попарной сочетаемости корневых основ в тексте (словарь ограничений на сочетаемость) – словарь семантического уровня является виртуальной однородной (ассоциативной) направленной семантической сетью. Действительно, если мы соберем из пар слов (точнее, корневых основ слов) цепочки, то получим цепочки с зацикливаниями и ветвлениями. Однако такая частотная сеть (где известна частота встречаемости отдельных слов в тексте, а также – попарная встречаемость слов в предложениях текста) является лишь исходной основой для получения собственно семантической сети. Для пересчета частот встречаемости в смысловой вес используется переранжирование сети с помощью итеративной процедуры, аналогичной алгоритму сети Хопфилда.

Направленная однородная семантическая сеть N – это граф, вершины которого соответствуют корневым основам слов словаря 〖{B_i}〗_4 корневых основ слов анализируемого текста (корпуса текстов, языка в целом), а дуги – ассоциативной связи – попарной сочетаемости корневых основ слов в предложениях текста.

Определение 1. Под семантической сетью N понимается множество направленных пар событий {<c_i c_j>}, где c_i и c_j – события, связанные между собой отношением ассоциативности (совместной встречаемости в предложениях текста):

N ≈ {<c_i c_j>}. (11)

В данном случае отношение ассоциативности несимметрично: <c_i c_j>≠<c_j c_i>.

Определение 2. Весом z_i образа события c_i в сети является значение счетчика появления событий во входном тексте.

Шаблон ситуации, включающий шаблон предложения

Механизм восприятия отдельного слова и механизм восприятия отдельного предложения очень сильно отличаются. До уровня слова языка формирование словарей разных уровней (символов алфавита, флективных морфем, корневых основ, устойчивых словосочетаний) осуществляется в колонках коры полушарий большого мозга в процессе структурного анализа. Восприятие отдельных предложений (фраз) опирается на формируемые в ламелях гиппокампа шаблоны ситуаций, в состав которых в доминантном гиппокампе входят и представления предложений текста (в том числе в форме записанного предложения). Шаблоны ситуаций представлены в ламелях гиппокампа в едином для всех ламелей по длине гиппокампа поле CA3 – ассоциативной памяти Хопфилда.

В их формировании наряду с механизмами формирования словарей образов событий различной частоты встречаемости, а также выявления связей между этими образами во входной информации, очень важно вычисление рангов вершин семантической сети, для чего необходим механизм переранжирования их весовых характеристик.

Переранжирование вершин сети

Представление о составе корневых основ слов в текстах языка и их связности – это качественное представление о содержании текста. Анализ содержания текста должен предполагать возможность количественной оценки как рангов вершин этой сети, так и характеристик связей.

Так при формировании сети на основе большого корпуса текстов получаются корректные весовые характеристики вершин-понятий: частота их встречаемости приближается к их смысловому весу. При анализе малых по объему текстов частота встречаемости уже не характеризует важности понятия. В этом случае для выявления рангов вершин весовые характеристики понятий ассоциативной сети переранжируются посредством итеративной процедуры, аналогичной алгоритму сети Хопфилда, что позволяет перейти от частотного портрета текста к ассоциативной сети ключевых понятий текста:

w_i (t+1)=(∑_(i,i≠j)▒〖w_i (t) 〗 w_ij)σ(E ̅), (12)

здесь w_i (0)=z_i; w_ij=z_ij/z_i; и σ(E ̅ )=1/(1+e^(-kE ̅ )) – функция, нормирующая на среднее значение энергии всех вершин сети E ̅, где z_i – частота встречаемости i-го слова в тексте, z_ij – частота совместной встречаемости i-го и j-го слов в фрагментах текста.

В результате такого переранжирования меняются первоначальные весовые характеристики слов. Слова, которые в сети связаны с большим числом слов с большим весом, в том числе через промежуточные слова, в результате такой процедуры повышают свой вес, вес остальных слов равномерно уменьшается. Полученная числовая характеристика слов – их смысловой вес – характеризует степень их важности в тексте.

Алгоритм

В отличие от изображений – двумерных образов трехмерных объектов, текст – одномерная последовательность элементов языка. Язык представляет собой иерархию уровней, представленную уровнеобразующими элементами от графем (уровень элементов алфавита) до пар корневых основ (уровень представления их допустимой сочетаемости – семантики).

Для простоты (игнорируя подробности формы – морфологию и синтаксис) можно разбить эту иерархию на два уровня: на первом уровне представлены сочетания символов алфавита в словах (корневых основах слов), а на втором уровне – сочетания пар корневых основ.

В процессе обработки конкретного текста (корпуса текстов) эти словари заполнятся первый – корневыми основами слов, а второй – парами корневых основ. Эти последние нам понадобятся для формирования однородной семантической сети.

Для формирования словарей уровнеобразующих единиц языка этих двух уровней (корневых основ и пар корневых основ) нам понадобятся нейронные сети на основе нейроподобных элементов с временной суммацией сигналов (в отличие от традиционно используемых в различных нейросетевых парадигмах – в том числе и в сверточных сетях – нейронов с пространственной суммацией), чтобы отражать связи элементов нижнего уровня в элементах верхнего уровня.

Для анализа текстовых последовательностей будут использоваться искусственные нейронные сети на основе небинарных нейронов с временной суммацией сигналов. Небинарные нейроны отличаются от описанных выше бинарных нейронов с временной суммацией сигналов (которые удобно использовать для объяснения механизма структурной обработки на пальцах, но нельзя использовать для анализа реальных текстов) наличием обобщенного дендрита, на вход которого поступает кодовая последовательность, состоящая из векторов (см. Рис. 7).

Небинарный нейрон с временной суммацией сигналов

Небинарный случай, когда на вход поступает недвоичная кодовая последовательность, не отличается посуществу от бинарного, только при этом происходит отображение кодовой последовательности не в одномерный единичный гиперкуб (как в бинарном случае), а во все многомерное пространство.

Рис. 7. Небинарный нейроподобный элемент с временной суммацией сигналов, у которого имеется несколько (k) обобщенных дендритов (регистров сдвига длины n), включающий сумматор и пороговый преобразователь. Помимо дендритов, сумматора и порогового устройства в состав нейрона входит область памяти для записи гетероассоциативной информации, и счетчики, которые считают число совместных появлений адреса нейрона во входной кодовой последовательности и сопутствующей адресу информации. В качестве входной кодовой последовательности используется последовательность k-значных векторов признаков, элементами которых являются неотрицательные действительные числа. Каждый из которых поступает на свой регистр сдвига.

В этом случае пирамидные нейроны третьего слоя колонки коры моделируются так называемым динамическим ассоциативным запоминающим устройством (далее – ДАЗУ), которое представляет собой множество (см. Рис. 8) параллельно включенных нейроподобных элементов (см. Рис. 7), запоминающих в соответствующих счетчиках совместные появления фрагментов длины n входной кодовой последовательности, состоящей из k-разрядных векторов и сопутствующей информации.

Множество нейроподобных элементов, составляющих ДАЗУ, формируется под входную информацию: появление на входе ДАЗУ значащей информации (n подряд идущих k-значных векторов признаков) приводит к появлению в ДАЗУ нейроподобного элемента с адресом, соответствующим nхk-элементной матрице, включающей n последовательно идущих k-значных векторов признаков. В ДАЗУ формируется столько нейроподобных элементов, сколько нужно, чтобы отобразить всю входную кодовую последовательность.

Нейроподобные элементы с временной суммацией входных сигналов, входящие в состав ДАЗУ, моделируют своими адресами вершины (nхk)-мерного сигнального пространства. Рассмотрим формализм обработки информации в таком небинарном ДАЗУ.

Пусть мы имеем (nхk)-мерное сигнальное пространство R^(nхk). Для дальнейшего изложения введем некоторые обозначения и определения.

Рис. 8. Динамическое ассоциативное запоминающее устройство как множество инициированных нейронов.

Обозначим через {A} множество кодовых последовательностей, сформированных сигнальной периферией некоторого (например, речевого) анализатора, элементы которых есть векторы признаков, из которых состоят входные последовательности A=(… a_(-1),a_0,a_1,…,a_i,…), где a_i – k-значный вектор признаков, компоненты которого – неотрицательные действительные числа (например кепстральные коэффициенты в случае анализа речевого сигнала).

Обозначим через {A ̂} – множество траекторий последовательностей, соответствующих множеству входных последовательностей {A}, элементы которых a ̂_i есть точки пространства R^nхk, т.е. a ̂_i∈ R^nхk, где a ̂_i=(a_(i-nхk+1 ,) a_(i-nхk+2 ,)…,a_i) – последовательные фрагменты длины n последовательности A k-значных векторов, сдвинутые относительно друг друга на один вектор (за один такт времени) – координаты точек многомерного пространства R^nхk.

Определение 3. Траектория – это последовательность точек a ̂_i многомерного пространства R^nхk, соответствующих входной кодовой последовательности A.

Введем преобразование F_nхk:

F_nхk:A→A ̂,F_nхk (A)=A ̂, (13)

где A=(…,a_i,…: a_i∈R^nхk),

а A ̂=(…,a ̂_(-2),a ̂_(-1),…a ̂_i,…)=

=(…,(a_(-nхk-1),a_(-nхk),…,a_(-2) ),(a_(-nхk),a_(-nхk+1),…,a_(-1) ),…,(a_(i-nхk+1),a_(i-nхk+2),…,a_i ),…).

Введенное преобразование F_nхk, которое формирует траекторию в nхk-мерном сигнальном пространстве, и координаты точек которой задаются n-членными фрагментами исходной входной векторной последовательности A, является основой для структурной обработки информации (также, как и в бинарном случае). Оно обладает свойством ассоциативности обращения к точкам траектории A ̂ по n-членному фрагменту последовательности A: любые n векторов исходной последовательности A адресуют нас к соответствующей точке траектории A ̂.

Ассоциативность преобразования (13) позволяет сохранить топологию структуры преобразуемой информации: одинаковые фрагменты входной последовательности преобразуются в один и тот же фрагмент траектории, разные – в разные фрагменты траектории. Поскольку в общем случае входная последовательность A может содержать повторяющиеся n-членные фрагменты, это приводит к возникновению точек самопересечения траектории (в том числе, к повторному прохождению целых фрагментов траектории).

Пусть задана некоторая последовательность J и траектория A ̂∈R^nхk, соответствующая последовательности A. Введем функцию M (14), ставящую в соответствие каждой точке траектории A ̂ элемент последовательности J:

M(a ̂_i,j_(i+1) )=〖[a ̂_i]〗_(j_(i+1) ), (14)

Полученную траекторию 〖[A ̂]〗_j будем называть траекторией (также, как и в бинарном случае), обусловленной последовательностью J:

〖[A ̂]〗_j=M(F_nхk (A),J). (15)

Определение 4. Таким образом, функция M осуществляет запись последовательности J в точках траектории A ̂ (в ассоциации с последовательностью A). Назовем эту функцию функцией памяти, последовательность J – информационной или обуславливающей последовательностью, последовательность A – несущей последовательностью, а такой способ записи – гетероассоциативной записью.

Определение 5. Восстановление информационной последовательности J по обусловленной ею траектории 〖[A ̂]〗_J и несущей последовательности A осуществляется с помощью функции:

〖R [A ̂]〗_J= J, (16)

где R назовем функцией считывания. При этом ассоциативное отображение в многомерное пространство несущей последовательности A приводит к прохождению точек соответствующей траектории A ̂, что и позволяет считывать символы последовательности J.

Определение 6. Таким образом, имея несущую последовательность и обусловленную последовательностью J траекторию, с помощью функции (16) можно восстановить исходную информационную последовательность. Такой способ воспроизведения назовем гетероассоциативным воспроизведением.

Пусть A – несущая последовательность. Если в качестве обусловливающей последовательности используется та же последовательность A, то имеем случай самообусловливания. Очевидно, что в этом случае обусловленная последовательность может быть получена следующим образом:

〖[A ̂]〗_A= M (F_nхk (A),A), (17)

где A ̂= F_nхk (A).

Определение 7. В случае самообусловливания, восстановление информационной последовательности возможно с использованием функции (18):

R([A ̂ ]_A )=A. (18)

Такая запись называется автоассоциативной записью, а воспроизведение – автоассоциативным воспроизведением.

Таким образом, использование функций M и R совместно с преобразованием F_nхk, обладающим свойством ассоциативного обращения к информации, позволяет реализовать ассоциативную память с возможностью авто- и гетероассоциативной записи/воспроизведения информации и в небинарном случае.

Учет частоты появления траекторий

В отличие от бинарного случая, где частота перехода в точке ветвления учитывается с помощью двух счетчиков, в небинарном случае этот механизм невозможно реализовать: число комбинаций возможных переходов бесконечно, поскольку траектория формируется во всем объеме сигнального пространства. В естественных нейронных сетях этот механизм реализуется на системном уровне с учетом взаимодействия отдельных нейронов в когнитивных сетях, который осуществляется таламусом. Этот механизм выходит за рамки настоящей работы, поэтому задача решается простым учетом в каждом отдельном случае комбинации адресного фрагмента и адреса целевой точки (адреса следующего нейрона).

Другими словами, под каждую текущую точку траектории и конкретный текущий переход к следующему адресу выделяется отдельный нейрон, поэтому один единственный счетчик этого нейрона запоминает строго число повторений этой комбинации. Дилемма наличия нескольких нейронов с одинаковой адресной частью разрешается простым сравнением счетчиков этих нейронов.

Возвращаясь к естественным нейронным сетям, необходимо сказать, что в реальных ситуациях обработки конкретной информации таламус выделяет подсеть, которая относится только к этой конкретной сенсорной входной последовательности, а потому необходимое число нейронов для хранения именно этой информации, сравнительно невелико.

Таким образом, также, как и в бинарном случае механизм памяти (19) представляет собой счетчик, фиксирующий число прохождений заданной точки траектории в заданном направлении C_(a ̂_i ). Использование счетчиков позволяет определить для заданной точки значение наиболее вероятного перехода. Так же, как и количество потребных для запоминания нейронов, количество счетчиков определяется потребностями конкретного запоминаемого массива информации.

Пусть задана несущая последовательность A, а также порожденная этой последовательностью траектория A ̂. Тогда счетчики C_(a ̂_i ) для i-й точки траектории A ̂ для t-го момента времени вычисляются следующим образом:

M(a ̂_i,a_(i+1) )=[a ̂_(i+1) ]= C_(a ̂_i ) (t)= C_(a ̂_i ) (t-1)+1|a_(i+1)∈V^s, (19)

где V^s – множество векторов перехода a_(i+1)∈R^nхk для нейрона с данным адресом.

При воспроизведении анализируются состояния счетчиков, и текущий символ формируется в зависимости от выполнения условия:

a_(i+1)=R([a ̂_i ])=R(C_(a ̂_i ) (t))| a_(i+1)∈ V^k. (20)

Такой механизм памяти чувствителен к числу прохождений заданной точки в заданном направлении и позволяет характеризовать каждую точку траектории с точки зрения частоты появления во входной информационной последовательности любого повторяющегося фрагмента. Именно он позволяет сформировать словари повторяющихся фрагментов во входной информации, являясь базовым механизмом для структурной обработки.

Введем пороговое преобразование H с порогом h. Тогда суперпозиция функций H_h RMF_nхk (A) позволит выделить в сигнальном пространстве только такие точки траектории, которые были пройдены не менее h раз.

Использование порогового преобразования по обучению (по числу прохождений траектории) позволяет формировать словари повторяющихся во входных кодовых последовательностях фрагментов (уровнеобразующих элементов уровней языка в выбранном нами случае речевого анализа).

Расфокусированное преобразование

Расширением понятия преобразования F является расфокусированное преобразование F_((r)), преобразующее каждый n-членный фрагмент векторов последовательности не в точку многомерного пространства, а в множество вершин, лежащих в окрестности указанной точки радиуса r. Исходная последовательность A, таким образом, отображается в трубку радиуса r с осью-траекторией A ̂:

A ̂_((r))=F_((r)) (A). (21)

Использование расфокусированного преобразования F_((r)) позволяет увеличить надежность воспроизведения, если при обучении была сформирована нерасфокусированная траектория. При этом, в случае ухода с траектории, в результате зашумления входной информации (например, замены части символов последовательности), среди точек r-той окрестности текущей точки траектории могут содержаться и точки траектории, в которых записана нужная информация. При воспроизведении, на основе этой информации (информации о переходе, содержащейся в счетчиках точек r-ой окрестности), а также взятой со своим весом информации о следующем символе входной последовательности, инициировавшей воспроизведение, принимается решение о следующем символе воспроизводимой последовательности. Решение принимается на основе сравнения значений счетчиков для всех точек r-ой окрестности.

При этом возможны четыре случая. В первом случае в текущем векторе входная последовательность совпадает с запомненной последовательностью. Воспроизводится запомненная последовательность. Если входная последовательность не совпадает в данном векторе с запомненной, но вес информации о переходе в точках окрестности адресуемой точки превышает вес входной информации, воспроизведение идет по запомненной траектории. Обратная картина: вес входной информации оказывается большим. В этом случае воспроизведение уходит с записанной траектории в пустые области сигнального пространства и прекращается. Воспроизведение восстанавливается после того, как в n-разрядном регистре вновь появится n-членный фрагмент последовательности векторов, адресующий к записанной траектории. Это происходит не более чем за (n-1) тактов. И, наконец, если суммарный вес точек окрестности оказывается равным весу входного вектора – мы имеем случай, когда не можем принять решения на основе записанной информации – решение принимается по информации с верхнего уровня иерархии представлений (см. далее) или по некоторому закону, например – случайным образом.

В этом случае воспроизведение осуществляется вместо формулы (20) по формуле:

a_(i+1)=R([a ̂_i ])=R(C_(a ̂_i ) (t)) | a_(i+1)∈ V_(〖r,a〗_i)^s, (22)

где V_(〖r,a〗_i)^s – окрестность радиуса r точки a_i∈R^nхk.

Формирование семантической сети

Искусственная нейронная сеть в этой системе представлена многослойной структурой из множества параллельно включенных нейронов размерности n=2, где в первом слое нейроны формируют адрес при обучении, состоящий из символов двух первых букв корневой основы каждого слова и запоминают они свой индекс, а в каждом последующем слое адрес формируется из индекса предыдущей комбинации и последующей буквы корневой основы этого слова.

Формирование словаря корневых основ

Такая искусственная нейронная сеть имеет несколько слоев (например, 20). В первом слое запоминается двухчленная комбинация символов алфавита, а в последующих слоях запоминается индекс нейрона первого слоя и следующий символ алфавита из анализируемого слова. Помимо этой информации в конкретном нейроне запоминается частота встречаемости этой комбинации в тексте.

Результирующее состояние конкретного нейрона достигается после прекращения изменения его состояния: это значит, что этот нейрон является завершающим в комбинации нейронов, содержащих информацию по конкретной корневой основе. В его памяти хранится частота встречаемости этой корневой основы в тексте.

Аналогичным образом удается отследить наличие в тексте устойчивых словосочетаний. Только в этом случае финальное состояние последнего в цепочке нейрона достигается с последней комбинацией, включающей последний символ алфавита, входящий в это словосочетание.

Формирование словаря пар корневых основ

Для второго уровня – семантического – также можно построить нейронную сеть, но проще просто запоминать пары индексов корневых основ, чтобы потом построить из них однородную (ассоциативную) семантическую сеть, с которой далее можно осуществлять различные манипуляции, сравнивая тексты по смыслу, классифицируя тексты, кластеризуя тексты на группы, формируя реферат, или тематический реферат текста.

Формирование однородной семантической сети

Пары корневых основ из словаря попарной сочетаемости (семантического уровня) виртуально составляют однородную (ассоциативную) направленную семантическую сеть, где есть ветвления и зацикливания.

Частотная сеть

И вершины, и дуги первичной сети нормированы: первые – частотой встречаемости корневых основ в тексте, вторые – частотой попарной встречаемости корневых основ в предложениях текста.

Для подсчета ранга вершин сети, соответствующих рангам понятий в тексте, необходимо провести итеративную процедуру перевзвешивания, в результате которой ранги соответствующих вершин становятся зависимыми от их связей с другими вершинами сети. Глубина перевзвешивания (число итераций) выясняется либо в следствие сходимости итеративного процесса, либо задается волевым порядком (например, устанавливается равной 10 – выберем таковым среднее число слов в предложении текста).

Переранжирование вершин сети

Переранжирование частоты встречаемости в смысловой вес позволяет реализовать интеллектуальные процедуры над текстами и корпусами текстов: извлекать ключевые слова, реферировать, сравнивать по смыслу, классифицировать, кластеризовать.

n-граммная модель текста. Поскольку для произвольного текста нет достоверного априорного знания о равенстве распределений слов в разных позициях строки, вводится контекстная привязка – через условные вероятности. Для этого переходим к n-граммной, а точнее, к «односторонней» n-граммной модели, а именно принятой при использовании n-грамм «правосторонней» модели, в которой вероятность очередного слова строки задается в зависимости от предшествующих ему (n-1) слов, что записывается как p(w_n |w_1 … w_(n-1)). Тогда:

p(w_1… 〖w_(n-1) w〗_n )=p(w_n |w_1…w_(n-1) ) p(w_1… w_(n-1) ).

В терминах вероятности “быть справа” имеем:

p(w_1… 〖w_(n-1) w〗_n )=p(w_n |w_1…w_(n-1) )p(w_(n-1) |w_1…w_(n-2) )… p(w_3 |w_1 w_2 )p(w_2 |w_1)p(w_1), (23)

или

p(w_1… w_n )=(∏_(k=1)^n▒〖p(w_k |w_1…w_(k-1))p(w_1)〗, (24)

Введя фиктивный символ «начало» и договорившись, что p(w_1 |w_0)≅p(w_1), можно переписать:

p(w_1… w_n )=(∏_(k=1)^n▒〖p(w_k |w_1…w_(k-1))〗, (25)

Оценкой вероятности n-граммы служит частота ее встречаемости:

p ̂(w_i |w_(i-n)…w_(i-1) )=f(w_i |w_(i-n)…w_(i-1) )=(C(w_(i-n)…w_(i-1) w_i))/(C(w_(i-n)…w_(i-1))).

Так для биграммной модели оценкой вероятности биграммы является частота ее появления в тексте:

p ̂(w_j |w_i )=f(w_j |w_i )=(C(w_j w_i))/(C(w_i)).

Использование n-граммной модели хоть и более корректно при анализе текстов с лингвистической точки зрения, увы, невозможно при n>3 для текстов нефлективных языков, а для флективных языков n не может превысить 2, так как в мире не существует такого количества текстов соответствующего языка для обучения модели соответствующей граммности. Для русского языка пользуются, например, 2,5-граммными моделями, где пары рассматривают как пары слов, а в тройки включают наряду с парой слов третьим элементом – грамматическую категорию вместо соответствующего слова. Либо используют другие эмпирические натяжки.

Использование частного случая представления текста в виде однородной семантической сети позволяет ввести n-граммность аналитически.

Использование сетевой n-граммной модели для выявления тематики текста. Условно темами будем называть первые слова цепочки слов длины n символов на семантической сети. В случае сошедшегося процесса переранжирования это будут реальные темы текста.

Определение 8. В биграммной модели будем считать темами те «вторые» (в биграмме: первое слово-второе слово) слова наибольшего ранга, которые связаны с наибольшим числом «первых» слов. В триграммной модели темами будем считать те «третьи» слова (вторые «вторые») наибольшего ранга, которые связаны с наибольшим числом «вторых» слов, имеющих наибольший ранг в терминах биграммной модели. И так до n-го порядка модели. Тогда в n-граммной модели темами будем считать те «n-е» слова наибольшего ранга, которые связаны с наибольшим числом «(n-1)-х» слов (n-1)-граммной модели. Таким образом, автоматически формируются тематические деревья, в которых главными темами текста являются темы n-го уровня (n-е слова) наибольшего ранга, их подтемами являются темы (n-1)-го уровня ((n-1)-е слова), их подподтемами – темы (n-2)-го уровня, и т.д.

Начнем с рассмотрения тем первого уровня (биграммной модели текста). Для этого сначала рассмотрим понятие семантической сети, которое делает прозрачным применение сетевых n-граммных моделей текста. Для этого введем еще несколько определений. Определение однородной семантической сети было дано ранее.

Применительно к содержанию статьи событиями ci и cj определения семантической сети являются слова wi текста. Следующие друг за другом пары слов (wi, wj) текста и составляют однородную семантическую (ассоциативную) сеть:

N≅{<w_i w_j>}.

В данном случае отношение ассоциативности несимметрично: <w_i w_j>≠<w_j w_i>.

Определение 9. Семантическая сеть, описанная таким образом, может быть представлена как множество так называемых звездочек {<w_i 〖<w〗_j>>}:

N≅{z_i }={<w_i 〖<w〗_j>>}.

Определение 10. Имея в виду, что события w_i и w_j это слова текста, тогда под звездочкой <w_i 〖<w〗_j>> понимается конструкция, включающая главное слово w_i, связанное с множеством слов-ассоциантов 〖{w〗_j}, которые являются семантическими признаками главного слова, отстоящими от главного слова в сети на одну связь. Связи направлены от главного слова к словам-ассоциантам.

Биграммная модель. Если мы будем рассматривать последовательности из двух слов в сети текста, получим биграммную модель. Для каждого второго слова w_j строки из двух слов (w_i,w_j ) первое слово строки w_i («слева-направо») является темой: w_i≅t_i^2 (индекс «2» - поскольку биграммная модель). Объединим все пары слов с одинаковыми темами в звездочки. В этом случае вершина сети, соответствующая слову w_i≅t_i^2, является корневой вершиной одного из тематических деревьев (в данном случае – звездочек). Так как вероятность появления строки из двух слов (правосторонняя модель) в тексте p(w_i,w_j )=p(w_j│w_i )p(w_i ), вероятность появления темы w_i≅t_i^2 в биграммной модели есть сумма вероятностей появления пар с одинаковым первым словом (вероятность появления звездочки):

p(t_i )=p(w_i^2 )=∑_(j=1)^(J_i)▒〖p(w_i,w_j )=∑_(j=1)^(J_i)▒〖p(w_j│w_i )p(w_i^1 ) 〗〗, (26)

где J_i – число слов w_j в сети (ассоциантов w_j звездочки), связанных с первым словом w_i. А вероятность p(w_i^1 ) – это исходные вероятности распределения слов в тексте. Введем условное понятие «темы» p(w_i^1 )≅t_i^1 для монограммного распределения. И так для каждого второго слова w_j первое слово пары w_i («слева-направо») является темой: w_i≅t_i^2:

p(t_i^2 )=p(w_i^2 )=∑_(j=1)^(J_i)▒〖p(w_i,w_j )=∑_(j=1)^(J_i)▒〖p(w_j│w_i )p(t_i^1 ) 〗〗, (27)

Для того чтобы общая полученная сумма вероятностей P(t_i^2 ) была равна единице: ∑_(n=1)^N▒P(t_n^2 ) =1, где n – число тем, необходимо нормировать полученные для каждой темы t_n^1 суммы. В общем случае число тем совпадает с числом всех слов текста T=W, но обычно выбирают лишь несколько главных тем: T≤W.

Нормирование осуществляется на сумму по всем темам t_i^1:

p(t_i^2 )=(∑_(j=1)^(J_i)▒〖p(w_j│w_i )p(t_i^1 ) 〗)/(∑_(i=1)^T▒∑_(j=1)^(J_n)▒〖p(w_j│w_i )p(t_i^1 ) 〗). (28)

Здесь p(t_i^1 ) в формуле (27) означает вероятность появления отдельного слова (то есть – вероятность из монограммной модели). А p(t_i^2 ) – вероятность появления звездочки из биграммной модели. Причем, главное слово звездочки в терминах биграммной модели является темой для ее ближайших ассоциантов – семантических признаков – «вторых» слов.

Триграммная модель. Рассмотрим теперь не последовательности длиной в два слова, а последовательности длиной в три слова на сети текста, то есть триграммную модель.

p(w_i w_j w_k )=p(w_k│w_i w_j )p(w_i w_j )=p(w_k│w_i w_j )p(w_j│w_i )p(w_i ).

Тогда вероятность появления строки из первых двух слов в строке из трех слов можно получить, как и в (27) суммированием по третьему слову:

p(w_i w_j )=∑_(k=1)^(K_j)▒〖p(w_i w_j w_k ),〗

и вероятность появления первого слова в строке из трех слов можно получить суммированием по второму слову:

p(w_i )=∑_(j=1)^(J_i)▒∑_(k=1)^(K_j)▒〖p(w_i w_j w_k ).〗

Тогда p(t_i^3 ) вычисляется в соответствие с выражением (27) в рамках биграммной модели, p(w_i )≅p(t_i^2 ), а вероятность появления второго слова пары в зависимости от появления первого слова пары в тексте одна и та же, независимо от граммности модели текста, как следует из сетевого представления текста (взаимосвязанные пары слов остаются теми же):

p(t_i^3 )=(∑_(j=1)^(J_i)▒〖p(w_j│t_i^2 )p(t_i^2 ) 〗)/(∑_(i=1)^I▒∑_(j=1)^(J_i)▒〖p(w_j│t_i^2 )p(t_i^2 ) 〗), (29)

где t_i^2 и t_i^3 обозначают, соответственно, темы в соответствие с биграммной и триграммной моделями, а число тем, как и ранее, может соответствовать числу слов в тексте T=W, но обычно ограничивается волевым решением до T≤W. К корневым вершинам t_i^3 крепятся через «вторые» слова-вершины t_i^2 – звездочки z_i^3– звездочки биграммной модели.

z_i^2={<t_i^2 { t_i^1 }>}.

Итеративная процедура перевзвешивания. То же будет и для n-граммной модели. Хотя надо заметить, что начиная с некоторого n процесс сойдется, так как зависимость слов, как правило, в модели языка сказывается не далее, чем на длине простого предложения. Другими словами, мы имеем итеративную процедуру перевзвешивания, которая позволяет найти значения вероятностей появления тем t_i^n (в случае использования сетевой n-граммной модели) в тексте.

p(t_i^2 )=(∑_(j=1)^(J_i)▒〖p(w_j│w_i )p(t_i^1 ) 〗)/(∑_(i=1)^I▒∑_(j=1)^(J_n)▒〖p(w_j│w_i )p(t_i^1 ) 〗),

p(t_i^3 )=(∑_(j=1)^(J_i)▒〖p(w_j│w_i )p(t_i^2 ) 〗)/(∑_(i=1)^I▒∑_(j=1)^(J_i)▒〖p(w_j│w_i )p(t_i^2 ) 〗),

…

p(t_i^n )=(∑_(j=1)^(J_i)▒〖p(w_j│w_i )p(t_i^(n-1) ) 〗)/(∑_(i=1)^I▒∑_(j=1)^(J_i)▒〖p(w_j│w_i )p(t_i^(n-1) ) 〗),

где p(t_i^1 )=p(w_2 ) и p(w_j│w_i ) – одинаковая для всех шагов итерации вероятность появления последующего слова текста при условии появления предыдущего слова.

Тематическое дерево

После того, как мы построили семантическую сеть из множества пар слов {<w_i w_j>} (а, фактически, из звездочек <w_i 〖<w〗_j>>), после того как мы переранжировали вершины семантической сети (итеративно пересчитали их весовые характеристики), мы можем построить тематическое дерево или для целого текста, или только для некоторого понятия, представленного в тексте, для чего извлечем из сети минимальный древовидный подграф T.

Для извлечения из семантической сети минимального древовидного подграфа мы выберем пару слов (w_i,w_j), у которой главное слово имеет наивысший среди всех пар вес. Присоединим к этой паре все другие пары, у которых главное слово то же, что и у первой пары <w_i 〖<w〗_j>>. К полученной звездочке присоединим звездочки, у которых главные слова совпадают с второстепенными словами первой звездочки. При этом соблюдаем два условия: (1) если второстепенное слово какой-нибудь пары присоединенной звездочки совпадает с главным словом одной из звездочек уже сформированной части тематического дерева, в этом месте процесс прекращается, и эта пара этой звездочки выбрасывается из рассмотрения; (2) анализируются весовые характеристики второстепенных слов присоединенных пар, и если весовая характеристика какого-либо второстепенного слова какой-либо из присоединенных звездочек оказывается меньше заранее заданного порога h, эта пара выбрасывается из рассмотрения, и процесс на этой ветви прекращается.

Определение 11. Тематическим деревом T будем называть множество пар слов семантической сети N, полученных с помощью описанной выше процедуры и удовлетворяющих условиям (1) и (2).

Если корневых вершин оказывается больше одной, мы строим столько тематических деревьев, сколько корневых вершин получилось.

Программа для автоматического смыслового анализа текстов TextAnalyst

С использованием такой архитектуры искусственной нейронной сети на основе нейронов с временной суммацией сигналов, а также процедуры перевзвешивания, была реализована программная система для автоматического смыслового анализа текстов «TextAnalyst». На основе этой технологии реализовано автоматическое формирование описания семантики (структуры) предметной области текста, и реализуются функции организации текстовой базы в гипертекстовую структуру, автоматического реферирования, сравнения и классификации текстов, а также функция смыслового поиска.

Программная реализация технологии

Система реализована как инструмент для автоматического формирования баз знаний на основе множества естественно-языковых текстов. Ядро системы выполнено как программный компонент (inproc server), соответствующий спецификации Component Object Model (COM) фирмы Microsoft.

Ядро системы реализует следующие функции. Нормализацию грамматических форм слов. Автоматическое выделение базовых понятий текста (слов и словосочетаний) и их отношений с вычислением их (слов и отношений) относительной значимости. Формирование представления семантики текста (множества текстов) в форме семантической сети.

В состав ядра системы, помимо блока первичной обработки, входят следующие блоки (см. Рис. 9): лингвистический процессор, блок выделения понятий текста, блок формирования семантической сети, блок хранения семантической сети.

Блок первичной обработки

Задачами этого блока являются извлечение текста из файла (входного потока данных) и подготовка его к обработке в лингвистическом процессоре. Подготовка текста заключается в очистке его от символов, неизвестных лингвистическому процессору, а также в корректной обработке таких единиц текста как аббревиатуры, инициалы, заголовки, адреса, номера, даты, указатели времени.

Рис. 9. Система анализа текстов, где (1) блок первичной обработки, лингвистический (2), и семантический (3) процессоры. Лингвистический процессор состоит из словарей: (4) слов разделителей, (5) служебных слов, (6) общеупотребимых слов, а также (7) флективных и (8) корневых морфем. Семантически процессор, в свою очередь, содержит: (9) блок отсылок в текст, (10) блок формирования семантической сети, (11) блок хранения семантической сети, (12) блок выделения понятий, и (13) блок управления.

Лингвистический процессор

Лингвистический процессор осуществляет предобработку входного текста (последовательности символов) на основе априорных лингвистических знаний, общих для выбранного языка (в настоящий момент поддерживаются несколько европейских языков, помимо русского и английского), и выполняет следующие функции. Сегментацию предложений текста на основе знаков пунктуации и специальных грамматических слов. Нормализацию слов и словосочетаний – фильтрацию флексий (окончаний) с сохранением только корневых основ. А также фильтрацию в тексте семантически несущественных, вспомогательных слов: удаляются предлоги, числительные и самые общеупотребимые слова с широким значением. И, наконец, маркировку общеупотребимых слов.

Сегментация предложений позволяет разбить текст на участки (предложения), которые могут содержать терминологические словосочетания предметной области и избежать выделения неадекватных словосочетаний на стыках предложений.

В результате предобработки семантически близкие слова и словосочетания приводятся к одинаковой форме (нормализуются). Маркировка общеупотребимых слов необходима с целью исключения их выделения как самостоятельных терминов при дальнейшем анализе.

База общих языковых знаний лингвистического процессора содержит словари, по одному для реализации каждой из четырех функций: словарь слов-разделителей предложения, словарь вспомогательных слов, словарь флексий и словарь общеупотребимых слов.

Блок выделения понятий

Блок выделения ключевых понятий предметной области (слов и словосочетаний) создан как программная модель иерархической структуры из искусственных нейронных сетей – динамических ассоциативных запоминающих устройств (ДЗУ) на основе нейроподобных элементов с временной суммацией сигналов, и реализует алгоритм автоматического формирования частотного словаря текста.

Число уровней ДЗУ в иерархической структуре определяет априорно заданную максимально допустимую длину понятия (слова или словосочетания) предметной области и равняется двадцати.

На первом уровне иерархической структуры представлен словарь двухбуквенных специальных слов предметной области – слов, пропущенных через все фильтры лингвистического процессора, и не отнесенных к общеупотребимым, а также первых двухбуквенных сочетаний из слов этого словаря. Там же хранятся двухбуквенные слова общеупотребимой лексики, входящие в устойчивые словосочетания, и их начальные двухбуквенные фрагменты. Второй уровень иерархической структуры представляют ДЗУ, хранящие словари трехбуквенных слов и сочетаний букв из словарей специальных и общеупотребимых слов, встреченных в тексте, в виде индексов элементов соответствующих словарей первого уровня, дополненных одной буквой. На последующих уровнях представление информации полностью однородно – в ДЗУ хранятся индексы элементов хранения более низкого уровня, дополненные одной буквой.

В процессе формирования представления информации в иерархической структуре из ДЗУ подсчитывается частота встречаемости каждого сочетания букв в соответствующих элементах ИНС. Частота слов (сочетаний букв, не имеющих продолжения на следующем уровне) используется для последующего анализа.

Сформированное таким образом представление лексики текста подвергается затем пороговому преобразованию по частоте встречаемости. Порог отражает степень детальности описания текста. В процессе статистического анализа в иерархической структуре ДЗУ выделяются устойчивые термины и терминологические словосочетания, которые служат далее в качестве элементов для построения семантической сети. При этом общеупотребимые слова, а также словосочетания, содержащие только общеупотребимые слова, при анализе не используются.

Блок формирования семантической сети

Блок формирования семантической сети реализован как база данных, в которой представляются семантические связи понятий предметной области. Поскольку типы семантических связей в системе не определяются, такие связи представляют собой только ассоциативные связи.

В качестве критерия для определения наличия семантической связи между парой понятий используется частота их совместной встречаемости в рамках предложений текста. Превышение этой частотой некоторого порога позволяет говорить о наличии между понятиями ассоциативной (семантической) связи, а совместные вхождения понятий в предложения с частотой меньше порога считаются просто случайными.

Элементы семантической (ассоциативной) сети и их связи имеют числовые характеристики, отражающие их относительный вес в данной предметной области – семантический вес. При достаточно представительном множестве текстов, описывающих предметную область, значения частот встречаемости понятий отражают соответствующие семантические (субъективно оцениваемые) веса. Однако, для небольших корпусов текстов, в частности, при анализе отдельного текста, не все частотные характеристики соответствуют действительным семантическим весам – важности понятий в тексте. Для более точной оценки семантических весов понятий используются веса всех связанных с ними понятий, т.е. веса целого семантического сгущения, полученные в процессе переранжирования. В результате такого анализа наибольший вес приобретают понятия, обладающие мощными связями и находящиеся как бы в центре семантических сгущений.

Основные функции системы TextAnalyst

На основе полученной в результате обработки текста (корпуса текстов) семантической сети реализованы следующие функции обработки текстовой информации: (1) функция формирования гипертекстовой структуры (базы знаний), (2) навигации по базе знаний, (3) формирования тематического дерева, (4) реферирования текста, (5) автоматической кластеризации множества текстов, (6) сравнения текстов (автоматической классификации текстов), и наконец, (7) функция формирования ответа на смысловой зарос пользователя – формирования тематического реферата.

После формирования семантической сети исходный текст, объединенный гиперссылками с семантической сетью, становится гипертекстовой структурой. Семантическая сеть в этом случае оказывается удобным средством навигации по тексту. Она позволяет исследовать основную структуру текста, переходя от понятия к понятию по ассоциативным связям. С помощью гиперссылок пользователь может перейти от любого предложения непосредственно к его контексту в тексте. С этой же целью пользователь может пользоваться минимальным древовидным подграфом семантической сети – тематическим деревом. В нем оказываются иерархически представленными основные и соподчиненные понятия сети, причем понятия нижнего уровня объясняют содержание понятий более высокого уровня. Тематическим деревом также можно пользоваться для навигации по базе знаний, как и семантической сетью – оно напоминает оглавление текста.

Семантическая сеть с числовыми характеристиками ее компонентов – понятий и их связей – позволяет вычислить вес каждого предложения в тексте. Множество предложений текста, выбранных в порядке их появления в тексте, вес которых превысил некоторый пороговый уровень, можно считать рефератом текста.

Семантическая сеть исследуемого текста (или группы текстов) может быть разбита на подсети удалением из нее слабых связей. Каждая такая подсеть группируется вокруг некоторого понятия с максимальным весом в данной подсети. Это понятие обозначает тему части текста или отдельных текстов, которые оказываются сгруппированными в данной подсети. Такая автоматическая кластеризация позволяет разбить множество текстов на рубрики.

Используя числовые характеристики семантической сети, можно сравнивать сети двух текстов с точки зрения вычисления их пересечения (общей части). То есть можно сравнивать степень совпадения текстов по смыслу. Если в качестве одного из текстов берется целая рубрика, то имеется возможность оценить степень принадлежности исходного текста к данной рубрике, то есть автоматически классифицировать тексты.

Система для смыслового анализа текстов позволяет реализовать также смысловой поиск (сформировать тематический реферат). Функция смыслового поиска, основываясь на ассоциативном иерархическом представлении содержания информации в базе, функциях кластеризации и классификации, осуществляет выборку информации, соответствующей запросу пользователя, и структурирует ее в соответствии с близостью к запросу.

Смысловой поиск, используя ассоциации, способен выдавать пользователю информацию, явно не указанную в тексте запроса, но связанную с ней по смыслу. Использование такого подхода ведет не к увеличению объема выдаваемой пользователю информации, а к ее тщательному отбору и анализу по главному критерию – смысловой близости к запросу.

Предварительная подготовка текста

Для удобства анализа и с целью получения более устойчивого анализа, из текстов, до собственно тематического анализа, обычно удаляют слова, заведомо не несущие смысла: стоп-слова, рабочие слова и слова общеупотребимые. Словарь ключевых понятий, полученный в результате предварительной подготовки текста, может содержать как отдельные слова, так и устойчивые словосочетания либо в форме леммы (либо в виде корневой основы), или их последовательности.

Более устойчивая тематическая модель может быть построена, если объединить вершины сети, относящиеся к одной словоформе (не различать формы одного и того же слова). Это упрощает словарь, делает статистику более робастной, а также уменьшает вычислительные затраты на формирование и использование модели и упрощает интерпретацию результатов.

Той же цели служит и введение специальных словарей-фильтров стоп-слов, рабочих и общеупотребимых слов, наличие которых в тексте не улучшает восприятия смысла текста.

Сравнение текстов. Классификация текстов

Поскольку далее нам придется выявлять смысл текстов их соотнесением с моделями предметных областей, рассмотрим вопросы сравнения текстов по смыслу и, далее, классификацию текстов. Все, что будет сказано ниже, в равной степени относится как к семантическим сетям и прочим упоминавшимся выше конструкциям в текстах, так и к когнитивным представлениям в многомерном (когнитивном) пространстве (которое моделируется и колонками коры, и ламелями гиппокампа).

Определение 12. Под пересечением семантических сетей понимается сумма пересечений звездочек, включенных в эти сети (считая по главным понятиям).

Определение 13. Под классификацией текста можно понимать отнесение семантической сети текста N к одной из сетей N_l, где l=1..L (l – число предметных областей) одной из предметных областей модели мира. Здесь объединение сетей ∪_l N_l соответствует модели мира M ̂_L текстовой модальности. В идеальном случае семантическая сеть текста вкладывается в сеть соответствующей предметной области.

Используя операцию пересечения сетей N_1 и N_2 мы можем оценивать степень подобия двух сетей N_1∩N_2 (Рис. 10) и, тем самым, сравнивать по смыслу (по структуре) тексты (их модели). Имея модели предметных областей в виде ассоциативных семантических сетей, мы можем классифицировать входные тексты (описывающие их модели) вычислением степени совпадения (вложения) сети входного текста и сетей предметных областей (Рис. 11), относя входной текст к той предметной области, у которой степень совпадения сети входного текста с сетью предметной области окажется выше.

Рис. 10. Пересечение N_1∩N_2 двух сетей N_1 и N_2, характеризующее степень их смыслового подобия.

Рис. 11. Классификация входного текста путем выявления степени вложенности его семантической сети N_вх в одну или несколько семантических сетей классов-рубрик –предметных областей N_1, N_2 … N_L.

Имея модели предметных областей N_l в виде ассоциативных семантических сетей соответствующих тематических текстовых выборок, мы можем классифицировать входные тексты вычислением степени совпадения (пересечения/вложения) сети N_вх входного текста и сетей предметных областей N_l, относя входной текст к той предметной области, у которой степень совпадения его сети с сетью предметной области окажется выше.

Автоматическое реферирование текстов

В данном случае применен подход к реферированию на основе выбора из текста наиболее информативных фрагментов – предложений. Поскольку в процессе переранжирования весовых характеристик вершин семантической сети формируются их смысловые веса, они (смысловые веса слов – понятий текста) могут быть использованы для вычисления смысловых весов предложений, в которые эти слова входят, то есть предложения становится возможным ранжировать по их смысловому весу – по степени их важности в тексте. Применение порогового преобразования по значимости предложений в тексте позволяет выбрать нужное число предложений (до 30% от их числа в тексте).

Применения

Технология TextAnalyst была использована в ряде приложений для решения практических задач анализа текстов и квази-текстов (осмысленных последовательностей образов разных модальностей), в том числе: оценки значимости конкретных понятий в тексте (корпусе текстов) – например, ранжирование отдельных параметров при оценке человеческого капитала; оценки значимости текстов (корпусов текстов) в рамках целой предметной области, например, оценки продуктивности деятельности отдельных специалистов и целых коллективов; извлечения имплицитной информации из авторских текстов; автоматического создания электронных книг с ассоциативной навигацией; анализа квази-текстовой информации, например, анализ генетических цепей.

Инструментарий для информационно-аналитического экспертного оценивания на основе текстов авторов

Автоматизированное информационно-аналитическое экспертное оценивание научной продукции является одним из актуальных направлений анализа текстовых данных большого объема, и в настоящий момент далеко от практических решений.

Экспертное оценивание научных публикаций и научной продукции сталкивается с двумя основными трудностями: (1) субъективность экспертной оценки и трудность объединения оценок разных экспертов; и (2) необходимость анализа больших объемов неструктурированной текстовой информации. Обе эти трудности преодолеваются применением технологии автоматического смыслового анализа текстов TextAnalyst. При этом появляется возможность анализировать большие объемы неструктурированной текстовой информации, а возможность анализа различных корпусов текстов на единой основе привносит в анализ элемент объективности.

На основе технологии TextAnalyst был реализован анализ научных текстов, позволяющий выявлять тренды, оценивать ситуации и осуществлять корректную экспертизу этих текстов.

Сравнение тематических структур корпусов текстов разных авторов, разных коллективов авторов, разных экспертов между собой, а также с тематической структурой усредненной модели предметной области, полученной анализом объединенной информации от разных авторов, коллективов, экспертов, можно выявить отличия в представлениях о предметной области разных авторов, коллективов, экспертов.

Сравнение состояний модели предметной области – семантической сети – на временной оси позволяет выявить динамику изменения как индивидуальных представлений о предметной области отдельных авторов, коллективов и экспертов, так и объективные изменения модели, характеризующие изменения предметной области.

Инструментом анализа является лексическая маска (набор лексических меток), который контрастирует представление о предметной области, характерное для разных авторов и для разных экспертов. Лексическая маска – это множество маркеров, автоматически выявленных на семантической сети текста, с их весами, ранжированными их рангами в семантической сети.

Перечень лексических маркеров (в составе лексической маски), то есть перечень ключевых понятий текста (полученный автоматически) и скорректированный вручную экспертом, соответствует представлениям эксперта о предметной области. Поэтому, семантическая сеть предметной области (или конкретного текста, относящегося к предметной области), отфильтрованная с помощью лексической маски, сформированной экспертом, становится семантическим портретом текста с точки зрения данного эксперта. Сравнение семантических моделей предметных областей разных экспертов дает возможность выявить объективные представления о предметной области, но и анализировать частные мнения экспертов о предметной области.

Такая же оценка с помощью лексической маски (усредненной по множеству текстов предметной области) дает интегральную оценку. Выявление разницы, усредненной за некоторый промежуток времени модели предметной области и такой же модели, полученной на основе анализа корпуса текстов публикаций конкретного коллектива, позволяет оценить вклад (продуктивность) коллектива в состояние предметной области.

На основе лексической маски – множества лексических маркеров, соответствующих вершинам сети, отобранных экспертом в данной предметной области, которые характеризуют анализируемый аспект текста на его шкале от очень хорощо до очень плохо осуществляется анализ тональности текста. Эксперт в полуавтоматическом режиме может назначать ранги терминов лексической маски, отличные от усредненных представлений, полученных автоматически при анализе текстов предметной области.

Так анализ социального стресса сравнительно просто осуществляется с использованием лексической маски, сформированной полуавтоматически экспертом на основе корпуса текстов, характеризующего социальные стрессы, например, новостной ленты.

В процессе анализа корпуса текстов с помощью программы TextAnalyst выявляются ранги лексических меток лексической маски в этом корпусе, которые, будучи нормированы их экспертными весами, позволяют оценить степень социального стресса как значение интегрального (суммарного по всем лексическим меткам, взвешенного экспертными весами и нормированного на число лексических меток) показателя, сформированного на этом корпусе.

Ранжирование параметров человеческого капитала с помощью однородной семантической сети корпуса текстов

Задача анализа человеческого капитала в настоящий момент перерастает из задачи управления жизнью отдельного человека в задачу управления целыми странами. Задача анализа человеческого капитала состоит в ранжировании параметров, совокупность которых в терминах конкретной постановки задачи и определяет оценку.

Большой объем обрабатываемой в процессе ранжирования информации приводит к необходимости автоматического ранжирования параметров компонентов человеческого капитала под конкретную постановку задачи. Для этого реализуется процесс автоматического формирования смыслового портрета корпуса текстов в виде однородной семантической сети.

Перечень этих параметров формируется экспертами, и в дальнейшем, лингвистические метки этих параметров используются для выявления их места (их ранга) в семантических портретах корпусов текстов, описывающих конкретные постановки задач. При этом параметры человеческого капитала выступают лингвистическими метками, входящими в однородную (ассоциативную) семантическую сеть, подготовленную для последующего ранжирования, которая формируется автоматически (независимо от эксперта – следовательно, объективно) на основе корпуса текстов, описывающих предметную область (задачу). В процессе формирования семантической сети текста лингвистические метки параметров компонентов человеческого капитала вместе с другими концептами, представленными в тексте, участвуют в процедуре ранжирования. То есть ранжирование упомянутых параметров осуществляется вместе с другими концептами корпуса текстов, описывающими предметную область. Тем самым выявляется взаимный ранг всех концептов в рамках задачи, описанной в корпусе текстов, представляющих предметную область, и, в том числе, ранг исследуемых параметров.

Оценка рангов параметров компонентов человеческого капитала в рамках поставленной задачи, с использованием параметров сформированной сети, представлена на примере эксперимента с текстовым материалом предметной области «Благополучие семьи». Для этого: (1) сначала вручную был сформирован исходный корпус текстов по предметной области; далее (2) процесс анализа был реализован автоматически формированием смыслового портрета корпуса текстов в виде однородной семантической сети; и наконец (3) было реализовано оценивание рангов параметров компонентов человеческого капитала в рамках поставленной задачи.

После экспертного формирования исходного (минимального) корпуса текстов по заданной предметной области были соотнесены выбранные экспертно параметры человеческого капитала с лингвистическими метками в корпусе текстов, описывающем предметную область. На основе обновленного корпуса текстов вновь была построена семантическая сеть, отранжированные вершины которой, соответствующие лингвистическим меткам параметров человеческого капитала, были сравнены с их рангами предыдущей итерации.

Анализ с использованием функции формирования семантической сети позволил оценить степень важности этих компонентов в предметной области «Человеческий капитал».

Имплицитная информация в восприятии текста (на примере анализа текстов В. Набокова и И. Бродского)

Представленная технология была использована в психолингвистических исследованиях восприятия текста. Так было проведено исследование по анализу восприятия и интерпретации авторского текста, а также выявлению в тексте имплицитной информации. Материалом послужили произведения «Другие берега» В. Набокова и «Набережная неисцелимых» И. Бродского. Автобиографические произведения были выбраны для анализа как содержащие личную, важную для внутренней жизни авторов информацию.

Была предложена и подтверждена гипотеза: использование семантической сети (1) позволяет использовать потенциал ассоциативных связей слов в тексте для выявления эксплицитной информации представленной тематической структурой текста, извлеченной из семантической сети; и (2) использование функции ассоциативного поиска позволяет выявить имплицитную информацию в авторском тексте.

В истории русской литературы сформировалось резкое противопоставление художественного перевода и художественного творчества, реализованного на разных языках. Поэтому очень важно творчество двух авторов – В. Набокова и И. Бродского, для которых двуязычие было естественным проявлением их творческой потенции. Творчество В. Набокова, владевшего несколькими языками и создавшего неповторимый, стилистически безукоризненный художественный мир на двух языках, не имеет аналогов в истории мировой литературы. И. Бродский переводил с английского, испанского, польского, сербохорватского, но его собственное творчество представлено только на русском и английском языках, почти равноправных в этих представлениях.

Тематическая структура (полученная с помощью программы TextAnalyst) автобиографического романа «Другие берега» представляет структуру текста и описывает его содержание в виде иерархии связанных тем и подтем, которые отражают основные концепты внутреннего мира автора и соответствуют узлам сети понятий, отражающих эксплицитную сторону его творчества.

Анализ лексических ассоциаций, представленных в семантической сети, дает материал для выявления имплицитной информации, позволяет в определенной степени судить об аксиологической парадигме автора, которую он пытался тщательно скрыть в тексте от внешних наблюдателей. Результаты ассоциативного поиска подтверждают, насколько болезненным был данный процесс для писателя, что английский язык, Англия имели для Набокова ценность, прежде всего, как отражение детства, как элемент счастливого утраченного мира.

Аналогичным образом в автобиографическое эссе И. Бродского «Набережная неисцелимых» можно также провести анализ на разных уровнях семантической глубины и выделить несколько уровней в информации, выраженной эксплицитными средствами (тематическая структура и семантическая сеть) и получить данные для анализа подтекстовой информации с помощью ассоциативного поиска.

Эксплицитные данные, которые выявляется на уровне семантической сети, дали возможность определить объективную информацию, выраженную речевыми средствами: тематическую структуру текста – внешнюю канву повествования и семантическую структуру – смысловую основу текста, сформулированные автором. Имплицитные данные, которые выявляется с помощью ассоциативного поиска, представляют лексические ассоциации, которые свидетельствуют об оценочной парадигме, интенции автора, позволяют делать выводы о подтекстовой информации, коннотативных значениях.

Электронная книга на базе технологии TextAnalyst

Под электронной книгой сейчас понимают и просто текст книги в электронном виде (e-текст), и хорошо структурированную базу данных – электронный учебник. Совершенно ясно, что чтение плоского текста с экрана – дело безнадежное, если этот текст по объему превышает две страницы. Формирование гипертекстовой страницы вручную – дело неблагодарное, и не дешевое.

Удобство гипертекстовой структуры для представления текста на экране компьютера не вызывает сомнений, по крайней мере – по сравнению с плоским текстом. Его расширение автоматическим группированием материала по темам и автоматической же реконструкцией тематической структуры текста делает такое представление удобным для использования. В дополнение к гипертекстовому представлению текста современные вычислительные средства предоставляют возможность его сопровождения другими мультимедийными модальностями – аудио и видео.

Нейросетевая технология для анализа неструктурированных текстов, удовлетворяет большинству перечисленных принципов. Функциональность технологии позволяет автоматически сформировать индекс текста в виде перечня основных понятий и связей между ними. Сформировать гипертекстовую структуру, в которой индекс является средством навигации по тексту, автоматически сформировать реферат текста (можно также формировать реферат на заданную тему). И, наконец, позволяет кластеризовать множество текстов на рубрики. Технология TextAnalyst может быть использована для формирования базы знаний e-книги.

В разное время было издано несколько e-книг с программой TextAnalyst в качестве оболочки. В этом же формате издается электронная версия журнала «Школьные технологии» в Издательском доме «Народное образование».

Первый этап в создании e-книги в оболочке TextAnalyst – это формирование базы знаний, содержимое которой в дальнейшем будет представляться пользователю. Хотя обработка текста книги в оболочке TextAnalyst осуществляется автоматически – автоматически строится гипертекстовая структура текста и средство навигации по ней – тематическое дерево, требуются определенные усилия для приведения тематического дерева к наиболее удобному виду.

Так как исходный текст книги уже разбит на главы, гипертекстовая структура и тематическое дерево формируются для каждой главы в отдельности. Затем, автоматически сформированное тематическое дерево корректируется вручную: из него удаляются случайные темы, а грамматические формы слов приводятся к нужному виду. Если не пытаться добавить в структуру e-книги мультимедийной информации, дополнительного дизайна и дополнительного сервиса, можно считать, что после этого e-книга уже готова к использованию.

Подготовленная база готова для просмотра в оболочке TextAnalyst. В левом верхнем окне пользователь выбирает и открывает одну из глав книги. Затем, в том же окне, он может работать с тематическим деревом. Главная тема главы раскрывается содержащимися в ней подтемами. Каждая подтема также раскрывается вниз.

Каждой теме тематического дерева в правом окне ставится в соответствие множество предложений, содержащих данное понятие. Далее, из любого из этих предложений можно перейти непосредственно в текст книги в нижнее окно.

Такая ассоциативная навигация позволяет быстро познакомиться с содержанием книги на заданную глубину. Пороговые настройки позволяют изменять количество визуализируемого материала. При желании пользователь может получить в правом верхнем окне реферат выбранной главы, а воспользовавшись функцией смыслового поиска – получить реферат на заданную тему.

При желании, отдельные понятия тематического дерева можно снабдить ссылками на мультимедийные приложения, а также каждую ссылку в текст сопроводить параллельной страницей этой книги в традиционном дизайне.

Использование однородной семантической сети для классификации результатов генетического анализа

Механизм сравнения семантических сетей текстов может быть использован в задаче диагностики генетических заболеваний путем сравнения сигнальных сетей, полученных на основе анализа биологического материала пациентов с этими заболеваниями. В этом случае сигнальную сеть можно рассматривать как квази-текст. Сигнальные сети разных классов генетических событий (текстов) могут быть использованы для классификации этих текстов. В этом случае концентрации белков, выявленные в процессе эксперимента, используются для вычисления числовых характеристик узлов сети. Выявление степени пересечения семантических сетей текстов позволяет говорить о степени их смыслового подобия. Такие сети как смысловые портреты заболеваний могут служить для сравнения (и, следовательно, для их классификации).

Предположение о сходстве текстов естественно-языковых и текстов генетических кодов (в дальнейшем будем их называть генетическими квази-текстами) оказывается правомерным при более подробном их сравнении. Семантические сети как смысловые портреты естественно-языковых текстов имеют свою параллель в виде сетей, представляющих некоторые предметные области в генетике (например, определенную патологию). Эта аналогия с генетическими квази-текстами позволяет предположить возможность использования сравнения их сетей для выявления степени подобия между ними – для классификации генетических событий.

В этом случае генетические квази-тексты, представлены в виде сигнальных сетей – графов, вершинами которых являются названия некоторых веществ, участвующих в генетических процессах, а дуги указывают на взаимосвязи этих веществ в этих процессах – представлялись в виде пар слов <c_i,c_j>, далее – в виде звездочек <c_i<c_j>>. Поскольку эти «слова» составляют цепочки при описании генетических процессов, результаты генетического эксперимента могут быть представлены в виде перечней пар «слов», каждая из которых имеет свой вес – концентрацию, выявленную в результате эксперимента.

Основой механизма анализа естественно-языковых текстов является переранжирование весовых характеристик слов, результат которого зависит от внутренней структуры текста, представленной в виде семантической сети. Другими словами, необходимо привести исходные данные, полученные в генетическом эксперименте к виду, близкому к виду естественно-языкового текста. Для этого полученные в генетическом эксперименте пары «слов» собираются в «предложения» – цепочки пар слов, описывающие некоторые генетические процессы, от их начала – появления на входе рецептора, до их конца – достижения мишени. Ну и далее полученные для разных случаев генетического эксперимента такие семантические сети сравниваются между собой с целью выявления степени их пересечения.

Использование данного подхода для сравнения, следовательно, и классификации генетических «текстов» позволяет автоматизировать обработку результатов генетических экспериментов, объем которых в известных хранилищах (например, GeneNet) очень велик.

Последующие шаги. Неоднородная семантическая сеть

Представленные выше механизмы могут быть расширены представлением текста вместо однородной семантической сети – неоднородной семантической сетью. В настоящий момент в опубликованной литературе не представлено механизмов автоматического формирования неоднородных семантических сетей. Тем не менее существуют инструменты (зависимые от анализируемого языка), которые позволяют выявить расширенную предикатную структуру отдельных предложений текста (до 85% от объема текста). Технология TextAnalyst и рассмотренные выше инструменты позволяют подойти к созданию приложений для формирования неоднородных семантических сетей.

Алгоритм автоматического формирования неоднородной семантической сети в этом случае выглядит приблизительно так. По заданному тексту (корпусу текстов) строится однородная семантическая сеть. Затем для каждой пары понятий построенной однородной семантической сети выявляются отношения между этими понятиями в предложениях текста. Столько, сколько предложений содержит конкретную пару понятий. Если анализ нескольких предложений, содержащих конкретную пару понятий, приводит к выявлению одного типа отношений, это учитывается в формировании веса этой пары (веса этого типа отношения в неоднородной семантической сети). Так производится замена ассоциативных связей на другие типы отношений для всех пар понятий однородной семантической сети. Поскольку существующие приложения не позволяют восстановить расширенную предикатную структуру для всех предложений текста, некоторые связи остаются неизменными (ассоциативными).

Формирование неоднородной семантической сети является необходимым условием решения ряда задач анализа текстов. Поэтому автоматизация этого процесса является прогрессом в указанном направлении. Необходимо заметить, что в процессе замены однородной семантической сети ее неоднородным вариантом, происходит ухудшение робастных характеристик подхода: сеть расслаивается, а мощность связей уменьшается, то есть ухудшаются интерпретационные свойства сетевого представления.

Заключение

В работе был рассмотрен вопрос использования подхода глубокого обучения к решению задач автоматического анализа текстовой информации. Представленный подход базируется на понимании процессов обработки информации в сознании человека, в том числе – структурной обработки информации в колонках коры полушарий большого мозга, которые моделируются искусственными нейронными сетями на основе нейроподобных элементов с временной суммацией сигналов (на примере обработки языковой информации), а также – переранжирования весовых характеристик понятий семантической сети в ламелях гиппокампа. Результатом структурной обработки является иерархия словарей образов событий разных модальностей, словарь верхнего уровня которой (словарь семантического уровня – словарь допустимой попарной сочетаемости образов событий) используется для построения однородной семантической сети, весовые характеристики вершин которой (концептуальных понятий) переранжируются посредством алгоритма, аналогичного алгоритму искусственной нейронной сети Хопфилда. В работе подробно представлена архитектура нейронной сети на основе нейроподобных элементов с временной суммацией сигналов, настроенная на обработку конкретной (текстовой) информации. Представлена архитектура программной системы, предназначенной для обработки текстовой информации, в том числе включающая в свой состав подсистему выявления ключевых понятий текста, а также подсистему формирования семантической сети текста на основе пар ключевых понятий, выявленных в предложениях текста. Предложены алгоритмы реализации системы для автоматического смыслового анализа текстовой информации на примере их реализации московской фирмой МИКРОСИСТЕМЫ в технологии TextAnalyst. Указанная технология реализует функции формирования семантической сети, сравнения текстов по структуре (по смыслу), классификации текстов, автоматического реферирования текстов. Представлены примеры использования указанной технологии в ряде предметных областей, в том числе для: (1) информационно-аналитического экспертного оценивания авторских текстов; (2) ранжирования отдельных характеристик сущего, и их комбинаций, представленных в текстах (например, параметров человеческого капитала); (3) выявления имплицитной информации при восприятии текста (на примере анализа текстов В. Набокова и И. Бродского); (4) анализа квази-текстов (например, классификации результатов анализа генетических квази-текстов – сигнальных сетей); (5) создания электронных книг. Наконец представлены соображения о возможности реализации автоматического построения неоднородных семантических сетей.