Языковые инструменты

Наш опытный коллектив прекрасно справляется с задачами связанными с обработкой естественного языка. Мы создаем инструменты, которые облегчают контакт машины с человеком, а также делают возможной обработку текстовых данных компьютером. Ниже Вы видете примеры наших возможностей и область интересов:


  • Нормализация текста


    Нормализация текста это автоматический процесс замены письменного (орфографического) текста на разговорный. Например:
  • 200 $ - > двести долларов

    Нормализация это первый необходимый шаг для того, чтобы компьютер правильно прочитал текст, в котором находятся всевозможные сокращения или числа. По-польски это может оказаться довольно-таки сложной задачей, что видно из следующего примера:

    для г-на д-ра Я. Ковальского п/п BAC 1234567, прож. в мкрн. Б. Храброго 10 кв. 7, 61 - 100 Познань

    Как это должно быть прочитано? Наверно так:

    для господина доктора я ковальского предъявителя паспорта бэ а цэ один два три четыре пять шесть семь, проживающего в микрорайоне болеслава храброго десять квартира семь, шестьдесят один сто Познань

    Это не так уж просто для компьютера.

    Оказывается, что задание нормализации очень похоже на автоматический перевод. В этом случае, входным языком будет письменный текст, а языком перевода - разговорный текст. Поэтому мы провели соответствующие исследования, в результате чего, появился интрумент для нормализации текста как модуль программы Translatica .


  • Система генерации блогов (SEO-TOOL)


    Благодаря собранным лексическим данным мы можем генерировать тексты для блогов. В таких текстах будет смысл и главная мысль, а не просто смесь случайных слов с правильными склонениями и спряжениями. Наши знания и имеющиеся инструменты позволяют нам генерировать блоги с выбранной тематикой и соответствующими ключевыми словами. Такие инструменты могут быть успешно использованы для быстрого создания базы позиционирования сайтов, а также могут служить маркетинговым целям.
    Если Вы заинтересованы этим инструментом сконтактируйтесь с нами.


  • Система генерации текстов "другими словами" (SEO-TOOL)


    Существенной частью позиционирования является создание базы. Мы знаем, как трудно быстро и безопасно получить индивидуальные тексты на данную тему, поэтому мы разработали метод видоизменения текстов с таким же значением, но образованных при помощи других слов и синтаксиса. Для генерации нужен входной текста, и в зависимости от параметров и степени различий, мы можем выгенерировать от нескольких до полтора десятка текстов на базе одного основного, которые не будут копией входного текста, но одновременно не выйдут за рамки исходной тематики.


  • Антимат


    Эта группа инструментов служит для блокировки матерных слов, вульгаризмов и оскорбительных оборотов на форумах, порталах, общественных системах, детских форумах итп. Они замещают в этой функции человека. В зависимости от версии, система действует только на слова, обороты или на контексты. Мы горячо рекомендуем эти инструменты - особенно порталам с содержанием предназначенным для детей.


  • "Умный" конспект содержания статей


    На главных страницах порталов или блогов нередко можно встретить изложение содержания записей и статей, произведённых автоматически. Действие этих алгоритмов оставляет желать лучшего, так как напр. ограничивается только первым предложением, а если первое предложение начинается напр. от проф., то это сокращение появится в таком же виде. Наши инструменты для создания конспектов действуют интелигентно, так как напр. используют нормализацию текста и синтаксический анализ, благодаря чему, они в состоянии точно выбрать желаемое количество текста для конспектирования.