Личный блог Дмитрия Подлужного: о работе и около нее

Почти идея программы почти для семантического анализа текста

Размышления по ходу дела, 2 сентября 2012

Нужно признаться, что я далеко не эксперт в области семантики и лингвистики и тому подобных вещей, и, с высокой вероятностью, предполагаю, что моя идея может оказаться абсурдной или уже воплощенной, и есть только очень небольшой шанс, что она гениальна.

Начну с того, что в чистом виде она (идея) не может считаться какой-то исключительной находкой. По большому счету, это не более чем компилирования нескольких областей, но в той пропорции, когда это может быть реализуемо и полезно для конечного пользователя. В данном случае, под пользователем я как всегда подразумеваю себя.

Все пришло в голову в процессе чтения хорошей книги Владимира Паранджанова «Как улучшить работу ума». Автор в ней много рассуждает об эргономике и приводит хорошие аргументы в пользу визуальной трансляции знаний по сравнению с текстовым вариантом. В том числе много пишет об визуальной алгоритмизации для решений задач программирования систем любой сложности и использовании такого подхода применительно к различным областям человеческой деятельности.

В качестве отступления: возможно, я ошибочно все это называю программой для семантического анализа, может быть правильно была назвать просто экспертной программой, но первый вариант звучит серьезней.

Ближе к теме

Собственно сама идея очень проста, она не касается попытки полной автоматизации семантического разбора текста и установки взаимосвязей, она скорее предназначена для удобной работы с текстами, с возможностью визуализировать нужные для пользователя связи.

Попробую описать: если я открываю статью, и просто хочу сделать ее конспект, то выбирая некоторые слова/фразы на их основе формирую визуальную модель, которую потом могу использовать на свое усмотрение.

Стоит вопрос о правилах формирования самой модели. С одной стороны можно дать полную свободу и использовать в качестве основы Concept maps, модель является крайне простой и гибкой. Одна проблема – в ней нет четких непротиворечивых правил, которые бы позволяли создавать визуализацию, которую можно было бы использовать для интересных задач, например, помечтаем, для компиляции программного кода.

Можно использовать визуальные модели, которые обладают большим набором ограничений и позволяют выстраивать схемы, которые бы прошли все логические проверки. Можно конечно использовать ДРАКОН, который разработала группа Паранджанова, или вариацию на тему Business Process Model and Notation (BPMN), а может что-то другое.

Набросок возможного рабочего окна

К автоматизации процессов

Сейчас я думаю, что вся идея не имеет ничего общего с семантическим анализом текста – это скорее неким экспертным инструментом пригодным для облегчения жизни в группе рутинных операций, а может быть приспособлен для чего-то другого.

Я бы мог использовать такую программу:

Когда нужно проследить или выделить взаимосвязи в материале/статье/тексте.
Когда нужно построить на основе текста структуру или модель дынных.
Когда мне бы пришлось на основе текста писать сценарии взаимодействия.

Тут как раз возникает вопрос о возможной автоматизации, т.е. можно ли заставить программу разложить текст согласно каким-то правилам хотя бы для локальных задач без участия пользователя? Если честно, то я не верю, что без суперкомпьютеров и продвинутых алгоритмов это возможно. С другой стороны, можно предположить возможность, когда пользователь сам, используя определенные правил на привычном для себя языке, пишет текст, который преобразуется в визуальный алгоритм.