RAG для паспортизации документов.
Практический опыт и горизонты применения
В рамках форума «Данные+ИИ 2025» компания Search Centric совместно с Газпром Интернэшнл Лимитед поделилась свежим примером использования RAG для паспортизации документов для компании «Газпром Интернэшнл Лимитед»
В каждой компании в том или ином виде существует хранилище неструктурированных файлов, многие из которых «имеют значение». Такие документы постепенно переезжают или уже переехали в системы документооборота и управления контентом, где обретают набор корпоративных атрибутов - паспорт документа. Для автоматизации паспортизации документов применяются различные технологии оптического распознавания документов, авто-классификации и проч.
В настоящие время многие дорогостоящие и технически сложные технологии паспортизации неструктурированных данных, в том числе на базе машинного обучения, замещаются существенно более простыми подходами на базе генерации с дополненной выборкой (Retrieval-Augmented Generation, RAG) и больших языковых моделей (Large Language Model, LLM).
Фактически, чтобы обеспечить надежную паспортизацию документа, достаточно иметь извлеченное из него содержимое (корпоративный поиск) и очень компактную LLM. Путь к успеху здесь очевиден, однако есть ограничения и подводные камни.
В докладе представлен свежий пример реализации подобного подхода при построении электронного архива данных и документов для компании «Газпром Интернэшнл Лимитед». Рассматриваются аспекты сайзинга и производительности LLM, интеграции с корпоративными источниками НСИ, а также успешности и проблем корпоративных классификаций и распознавания именованных сущностей (Named Entity Recognition, NER) в рамках паспортизации.
Модуль Memoza LLM — это RAG архитектура для работы со структурированными и неструктурированными данными в Memoza. Он позволяет как обрабатывать отдельные документы, так и выполнять массовую обработку. С помощью системы можно извлекать именованные сущности и работать с ними индивидуально, строя графики, HTML-таблицы и создавая новые документы.