Личный блог Дмитрия Подлужного: о работе и около нее

Почти идея программы почти для семантического анализа текста

Размышления по ходу дела, 2 сентября 2012

Нужно признаться, что я далеко не эксперт в области семантики и лингвистики и тому подобных вещей, и, с высокой вероятностью, предполагаю, что моя идея может оказаться абсурдной или уже воплощенной, и есть только очень небольшой шанс, что она гениальна.

Начну с того, что в чистом виде она (идея) не может считаться какой-то исключительной находкой. По большому счету, это не более чем компилирования нескольких областей, но в той пропорции, когда это может быть реализуемо и полезно для конечного пользователя. В данном случае, под пользователем я как всегда подразумеваю себя.

Все пришло в голову в процессе чтения хорошей книги Владимира Паранджанова «Как улучшить работу ума». Автор в ней много рассуждает об эргономике и приводит хорошие аргументы в пользу визуальной трансляции знаний по сравнению с текстовым вариантом. В том числе много пишет об визуальной алгоритмизации для решений задач программирования систем любой сложности и использовании такого подхода применительно к различным областям человеческой деятельности.

В качестве отступления: возможно, я ошибочно все это называю программой для семантического анализа, может быть правильно была назвать просто экспертной программой, но первый вариант звучит серьезней.

Ближе к теме

Собственно сама идея очень проста, она не касается попытки полной автоматизации семантического разбора текста и установки взаимосвязей, она скорее предназначена для удобной работы с текстами, с возможностью визуализировать нужные для пользователя связи.

Попробую описать: если я открываю статью, и просто хочу сделать ее конспект, то выбирая некоторые слова/фразы на их основе формирую визуальную модель, которую потом могу использовать на свое усмотрение.

Стоит вопрос о правилах формирования самой модели. С одной стороны можно дать полную свободу и использовать в качестве основы Concept maps, модель является крайне простой и гибкой. Одна проблема – в ней нет четких непротиворечивых правил, которые бы позволяли создавать визуализацию, которую можно было бы использовать для интересных задач, например, помечтаем, для компиляции программного кода.

Можно использовать визуальные модели, которые обладают большим набором ограничений и позволяют выстраивать схемы, которые бы прошли все логические проверки. Можно конечно использовать ДРАКОН, который разработала группа Паранджанова, или вариацию на тему Business Process Model and Notation (BPMN), а может что-то другое.

Набросок возможного рабочего окна

Набросок возможного рабочего окна

К автоматизации процессов

Сейчас я думаю, что вся идея не имеет ничего общего с семантическим анализом текста – это скорее неким экспертным инструментом пригодным для облегчения жизни в группе рутинных операций, а может быть приспособлен для чего-то другого.

Я бы мог использовать такую программу:

  • Когда нужно проследить или выделить взаимосвязи в материале/статье/тексте.
  • Когда нужно построить на основе текста структуру или модель дынных.
  • Когда мне бы пришлось на основе текста писать сценарии взаимодействия.

Тут как раз возникает вопрос о возможной автоматизации, т.е. можно ли заставить программу разложить текст согласно каким-то правилам хотя бы для локальных задач без участия пользователя? Если честно, то я не верю, что без суперкомпьютеров и продвинутых алгоритмов это возможно. С другой стороны, можно предположить возможность, когда пользователь сам, используя определенные правил на привычном для себя языке, пишет текст, который преобразуется в визуальный алгоритм.

В качестве заключения

Не знаю, понятно ли я написал, и имеет ли это все смысл, так что не судите строго, а лучше задавайте вопрос.

  • любопытно. а есть уже другие подобные программы?

    • Я таких не видел. И не видел ничего, что работало бы с текстом, как с отправной точкой для анализа.

    • Появилась интересная программа http://www.activelylearn.com/ , но она ориентирована на область образования.

  • Makers Group

    почему нет. Только нужно ввести какие-нибудь теги, метки для текста, которые будут работать по заранее заготовленным шаблонам. При генерации данные теги система будет опускать, в итоге получим и визуал и текст.

  • Совершенно верно. Средств (программ) совмещающих в себе текстовое представление и параллельное отображение в компактном виде основных ключевых мыслей (фраз) не знаю, но необходимость давно назрела. На первом этапе достаточно будет, что бы пользователь сам формировал структуру текста в в виде какой либо нотации (MindMap, ДРАКОН и т.д.). Как вариант для использования алгоритма обработки текста можно использовать метод Едигес А.П., приведенный в книге «Лабиринты мышления, или учеными не рождаются».

    • Идея давно витает в воздухе, может кто и сделает. Правда, есть вероятность, что сделает кто-нибудь типа Oracle в рамках Business Intelligence Applications и продукт фактически не будет доступен для обывателя.

      • Для реализации требуется в первую очередь ТЗ, а этап кодирования можно осуществить различными способами:
        1. Как самостоятельный продукт;
        2. Плагины-надстройки для известных текстовых процессов. Например: MS Word, OpenOffice.
        Начать можно с проектирования системы, для начала с общего описания.

        • Роман, вы меня воодушевили. Попробую выложить через пару недель концептуальное описание системы для одного из вариантов реализации, наиболее перспективного с точки зрения массового использование и наименее трудозатратного для реализации. Даже не буду жадничать и постараюсь показать наиболее перспективные пути монитизации проекта и его развития.

          • Дмитрий, надеюсь получить описать концепцию. Для проверки живучести и востребованности идеи можно реализовать какой-то маааленький фрагмент.

Подлужный Дмитрий Арнольдович

Об авторе

Дмитрий Подлужный – UX Designer (сейчас в Agima, ранее в ADV/web-engineering co., еще раньше в студии Spacebox) и консультант по UX/CX в свободное время.