Как парсить документы

Идём сюда загружаем файл, смотрим результат. 

Сборка и запуск

Команды запуска сервиса DeDoc:

docker build . -t dedoc_container
docker run -p 1231:1231 --rm dedoc_container:latest python3 /dedoc/main.py
-> Cервис поднимется на порту 1231

Параметры можно указать в конфигурационном файле (dedoc_project/dedoc/config.py)

Конфиг это файл на языке python, поэтому можно пользоваться всем, что умеет стандартный python, например вычислять максимальный размер файла как 512 * 1024 * 1024

Как использовать

Необходимо отправить файл с помощью POST запроса по адресу host:1231/upload

Имя вгруженного файла должно появиться на форме.

Дополнительные опции запроса:

  1. language: str - язык рапознавания документа. По-умолчанию установлено значение "rus+eng". Доступные значения: "rus+eng", "rus", "eng".
  2. insert_table: boolean - опция включает встраивание таблицы в документное дерево. По-умолчанию установлено значение False. Доступные значения True, False.
  3. with_attachments: boolean - опция включающая анализ вложенных файлов. По-умолчанию установлено значение False. Доступные значения True, False.
  4. return_format: str - опция для возврата ответа в html-виде, в виде дерева или в виде json. Возможные значения html, tree, json, pretty_json По-умолчанию установлено значение json, остальные методы стоит использовать только для дебага
    Предупреждение: html-формат используется исключительно для просмотра результата распознавания (в читабельном виде). В целях дальнейшего разбора рекомендуем использовать выходной json-формат.
  5. structure_type: string - тип выходной структуры ('linear' или 'tree')

Другие полезные ссылки