Сколково
Исследования осуществляются ООО "Сойка" при грантовой поддержке Фонда "Сколково"
Новый российский продукт
в области оцифровки бумажных документов,
распознавания и извлечения данных из бумажных
и оцифрованных носителей информации.
Запросить расчет стоимости Заказать демонстрацию у вас в офисе

Часто задаваемые вопросы и ответы по продукту Soica

За решение нужно заплатить один раз или лицензии нужно продлевать ежегодно?
Лицензии Soica бессрочные. По истечении года использования вы можете при желании продлить тех. поддержку.
Для чего мне нужна тех. поддержка?
Техническая поддержка даёт Вам возможность получать консультации по продукту, пакеты обновлений, патчи.
Можно ли самостоятельно настроить Soica? Входит ли в тех. поддержку обучение по работе с настроечной средой вашего продукта (процесс классификации документов, извлечение данных, перенос в целевую систему и т.д.)?
Самостоятельная настройка Soica возможна. Для этого нужно пройти обучение у вендора. Обучение платное. В тех. поддержку входит только поддержка продукта и настроенного на нем проекта.
Каков максимальный объем страниц, на котором был внедрен продукт в месяц или в год?
5 млн в год.
Какова ориентировочная стоимость проекта? Из чего она складывается?
В первую очередь отметим, что стоимость дешевле чем у конкурентов на 30 – 50%. Стоимость всегда рассчитывается индивидуально и зависит от объема обрабатываемых страниц в год и сложности настройки. Важно отметить, что мы не ограничиваем Вас в количестве пользователей и функционале. Однако, чем масштабнее проект, тем больше его стоимость, которая будет складываться из годового сканируемого объёма страниц и трудозатрат по внедрению продукта.
Каковы минимальные требования к железу, на котором работает база данных и на чем работает web-сервер (клиентских приложений)?
Core i5, 2 ГБ оперативной памяти, 120 ГБ жесткий диск, MS Windows Vista и выше.
Какова скорость обработки документов (захват документов из сканера, распознавание, передача в целевую систему)?
Скорость зависит от объёма документов и мощности вашей машины. Soica поддерживает многопоточную обработку данных. При полном задействовании современных серверных процессоров, 1 страница обрабатывается менее чем за одну секунду.
Распознаете ли вы рукописные тексты?
Следует различать рукописный и рукопечатный текст (когда человек пишет от руки печатными буквами). Рукописный медицинский почерк на сегодняшний день не распознают даже люди. Рукопечатный же текст распознаётся. Также, как и печатный.
Каков процент распознавания данных из документов?
Процент распознавания стремится к 100%. Это зависит от качества распознаваемого документа. Если это оригинал без испорченных символов – распознавание будет 100% Если на документе присутствуют следы неисправности оборудования (полоса от лампы, рассыпанная краска картриджа, отсутствие части документа – порван, прожжен, иные повреждения) – процент распознавания снижается. Но, в случае если документ испорчен у Soica есть функционал, позволяющий выполнить предобработку изображения перед его распознаванием, т.е. очистить шумы, убрать пятна, восстановить контрастность текста, целостность линий и тогда % опять же будет стремиться к 100%.
Чем Вы лучше конкурентов?
Мы дешевле, гибче, проще настраиваемся, не зависим от структуры документов и расположения необходимых данных. Это ключевое отличие. Мы настраиваемся не на шаблон, а на поток документов. Практика диктует необходимость универсального поиска данных в документах. Soica именно это и делает. Для примера возьмём совершенно разные документы: паспорт, заявку, права, договор с физическим лицом. Из всех этих документов нужно извлечь ФИО. В Soica может быть настроен один сценарий, который корректно разделит все документы, в каждом распознает класс и ФИО.
Поддерживаете ли Вы кластеризацию?
Да. Вы можете настроить сколь угодно много серверов обработки или серверов клиентских приложений и нацелить их на единую БД.
Поддерживаете ли Вы синхронизацию с AD?
Да, при создании пользователей в Soica вы можете добавить пользователей из AD, затем дать им права и роли внутри Soica.
Поддерживаете ли Вы виртуализацию?
Да, Вы можете установить Soica на виртуальных серверах.
Распознаёте ли Вы документы формата А0 и чертёжные шрифты?
Да, Soica распознаёт документы любого формата, чертёжный шрифт Soica также умеет распознавать.

Словарик предметных терминов

Что такое OCR – оптическое распознавание символов.
Что такое сценарий – правила по которым, обрабатываются документы.
Что такое тип документа – идентификатор документа, который говорит о его принадлежности. Например: паспорт, Торг-12, накладная и т.д.
Что такое атрибуты документов – данные документа, которые можно использовать.
Что такое нормализация изображения – приведение изображения к оптимальному для распознавания виду.
Что такое адаптивный поиск данных – набор правил, позволяющих анализировать большой объём данных и выполнять корректное сопоставление.
Что такое правила валидации – правила, которые определяют, что нужно выполнить с полученной информацией.
Что такое консолидация – группировка данных.
Что такое репрезентация – изображение, на которое наложены результаты распознавания.
Что такое репрезентация – изображение, на которое наложены результаты распознавания.
Что такое коннектор – программное средство, позволяющее передавать данные между двумя системами по заданному заранее стандарту.результаты распознавания.
Что такое DPI – точек на дюйм, разрешение.
Что такое регулярное выражение – формальный язык поиска и осуществления манипуляций с подстроками в тексте.
Что такое сепарация - разделение документов.
Что такое патч – это пакет исправлений/дополнений к продукту.
Что такое оцифровка – перевод бумажных документов в электронный вид.
Что такое тип документа – идентификатор документа, который говорит о его принадлежности. Например: паспорт, Торг-12, накладная и т.д.
Что такое сопоставление данных – заполнение атрибутов документа.
Что такое предобработка изображения – очистка картинки, избавление от шумов, пятен и т.д. о его принадлежности. Например: паспорт, Торг-12, накладная и т.д.
Что такое неструктурированный документ – документ, содержащий в себе данные, которые нужно использовать, в произвольном геометрическом расположении.
Что такое форматирование – приведение данных к требуемому виду.
Что такое лассо – это область, выделяемая мышью.
Что такое MRZ строка – это две машинописные строчки в нижней части второй страницы паспорта.
Что такое MRZ строка – это две машинописные строчки в нижней части второй страницы паспорта.
Что такое бинаризация изображения – приведение его цветовой палитры к бинарному виду (остаётся только два цвета – белый и чёрный).
Что такое разрешение – величина, определяющая количество точек на единицу площади. Термин обычно применяется к цифровым изображениям. второй страницы паспорта.
Что такое форма валидации – графическое представление распознанных данных на пользовательском уровне.
Что такое классификация - определение типа документа.