ФГБУ "ЦНИГРИ" 12-15 Апреля 2022
XI МЕЖДУНАРОДНАЯ НАУЧНО-ПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ
Научно-методические основы прогноза, поисков, оценки месторождений алмазов, благородных и цветных металлов
It is necessary to choose a visual aid that is appropriate for the topic and audience.
За годы алмазопоисковых работ в геологоразведочном комплексе компании накоплен существенный объем геолого-геофизических данных различной степени структурированности. Для кардинального повышения эффективности работ на алмазы необходима цифровизация производства и, в частности, создание системы способной доставить специалисту, а в последствии и алгоритму, всю информацию в контексте конкретного участка и тематики исследований, вне зависимости от ее вида или места хранения.

Многолетний опыт проведения геологоразведочных работ (ГРР) на алмазы АК «АЛРОСА» (ПАО) (Компания) позволил накопить разнообразные данные больших объемов с результатами работ на бумажных носителях в виде итоговых отчетов, полевых дневников, результатов лабораторных аналитических исследований, а также в специализированных базах данных геолого-геофизической информации. Работа, проводимая по оцифровке материалов прошлых лет, дала возможность дополнительно вовлекать в работу материалы предшественников, а организованная файловая база данных содержит материалы первичных геофизических исследований, данные площадных исследований, их интерпретации в различных специализированных пакетах, включая GeoSoft и ESRI.

Если информационные системы организованные на базе СУБД, позволяют производить качественное структурирование геолого-геофизической информации, то файловая база данных фактически представляет из себя набор каталогов и файлов, администрирование которых весьма трудоемкий процесс, как и поиск необходимой информации, что, в конечном итоге, несет в себе риск возникновения ошибок сбора и получения неполной или некорректной информации и сомнения в ее достоверности.

Таким образом, несмотря на обеспеченность Компании цифровыми геолого-геофизическими данными и развитие информационных систем, специализированных баз данных, обозначилось несколько проблем, которые напрямую влияют на эффективность использования накопленной информации, а именно:

  • отсутствие интеграционной платформы, которая позволила бы объединить весь массив накопленных данных и обеспечить оперативный доступ к геологической информации в режиме единого окна;
  • отсутствие современного средства управления файловыми данными;
  • различные подходы к описанию и структурированию данных, использованию справочников, крайне неравномерная насыщенность данных описательными характеристиками.

Все это, на фоне роста объема и разнообразия поступающей геологической информации, подтолкнуло Компанию к разработке и внедрению ИС «ЕДИНОЕ ГЕОИНФОРМАЦИОННОЕ ПРОСТРАНСТВО» (ИС ЕГИП). Технология ИС ЕГИП совмещает в себе характеристики нереляционной базы данных и сервера индексации данных с тем, чтобы объединить в себе как данные, которые возможно физически загрузить в систему, так и данные, которые загружать нет необходимости по причине их нахождения в других базах данных, или их большого объема и отсутствия видимой структуры.

Основной упор пользовательской функциональности делается на возможность быстрого доступа ко всем данным геологоразведочного комплекса через единое окно без необходимости знать заранее, как и где данные хранятся. Такой доступ достигается за счет глубокого индексирования всей текстовой информации, которая может быть извлечена из данных и использована для поиска и их массовой геопривязки с максимальным уровнем автоматизации. Таким образом, помимо текстового поиска информации, реализуется функционал массовой привязки любых форматов данных к конкретным участкам работ и географического поиска данных на конкретную зону интереса.

Дополнительный функционал, реализуемый в рамках ИС ЕГИП позволит значительно обогатить информацию метаописанием, за счет обеспечения пространственной привязки всех данных к конкретным точкам, линиям, площадным объектам работ. Найденная информация может быть предварительна оценена не только за счет изучения географического расположения, но и предварительного просмотра еще до момента ее скачивания, для этого предусмотрены инструменты, способные распознать и визуализировать наиболее распространенные форматы файлов.

Помимо этого, в ИС ЕГИП предусмотрены плагины для работы с основным специализированным программным обеспечением, применяемым в геологоразведочном комплексе – ArcGis, GeoSoft, Portal for ArcGis, что обеспечит возможность доставлять найденную в ИС ЕГИП информацию напрямую в рабочие проекты.

В конечном счете внедрение ИС ЕГИП позволит задать стандарт описания предоставления геолого-геофизических данных, что приведет к возможности использования таких данных различными алгоритмами. В результате координатной привязки документов и распознавания в них текста появляется возможность по структурированию и беглой оценке наборов данных на соответствие определённым параметрам (наличие ИМК, содержание хим. элемента, значению измерения метода ГИС и т.д.), а после формирования запросов в системе и выделения перспективных для дальнейшего изучения участков, по совокупности данных, производить передачу и комплексную обработку данных, собранных из различных источников, в специализированном ПО.

В результате реализации ИС ЕГИП планируется создать общую геолого-информационную инфраструктуру, где первичная и интерпретированная поисковая геологическая, геофизическая, минералогическая и др. информация от структурных подразделений геологоразведочного комплекса Компании, будет непрерывно поступать в центральные базы данных, откуда, посредством ИС ЕГИП, ее смогут получить все заинтересованные сотрудники, согласно уровням доступа. Это позволит Компании значительно повысить прозрачность процессов движения геологической информации, достичь существенного повышения эффективности прогнозного анализа территорий и поисковых работ в целом.

РНТК 11-13 октября 2022
РОССИЙСКИЙ НЕФТЕГАЗОВЫЙ ТЕХНИЧЕСКИЙ КОНГРЕСС
Круглый стол: "Развитие отечественных стандартов хранения, анализа и обмена данными разведки и добычи как катализатор решения задачи технологического суверенитета"
It is necessary to choose a visual aid that is appropriate for the topic and audience.
В современных реалиях эффективность бизнес-процессов, выполняемых экспертами и управленцами предприятий нефтегазовой области в значительной степени зависит от качества и своевременности поставки и последующего анализа цифровых данных.

Прямая коммуникация между специалистами и профильными командами все чаще замещается коммуникацией между цифровыми продуктами: отдельными сервисами, специализированными программными приложениями и их комплексами, экосистемами предметных доменов. В живом потоке событий и огромном объеме информации, поступающей зачастую в режиме реального времени, у сотрудников попросту нет времени и человеческого ресурса для того, чтобы проводить оперативный анализ данных, вручную контролировать качество, приводить данные в строгое соответствие с каноническими моделями хранения. Эти и другие сопутствующие проблемы побуждают в очередной раз комплексно взглянуть на основные аспекты поставки качественных геолого-геофизических и промысловых данных от владельца до потребителей, учитывая отечественные особенности генерации, сбора, систематизации, обработки и анализа.

В нефтегазовой отрасли накоплен большой потенциал, выраженный как в самих данных, так и в цифровых инструментах. Раскрывая этот потенциал, мы можем эффективно разрешить большой пласт проблем, связанных с насущными задачами отечественной нефтегазовой отрасли, в том числе проблему импортозамещения. Для выполнения упомянутых задач участники процессов поставки и потребления дата-продуктов должны быть связаны между собой как на уровне организаций, так и цифровых инструментов.

  • Имеется ли в отрасли накопленный потенциал? Решит ли вопрос введения стандартов насущные проблемы?
  • Открытые стандарты хранения и обмена – что это? Каким образом и для каких целей в России необходимо (пере)использовать опыт открытых стандартов и моделей данных OSDU, POSC Epicentre, PPDM?
  • Проблемы взаимодействия сервисных компаний и недропользователей в поставке дата-продуктов: процессы и цифровые инструменты.
  • Платформа данных: потребности отечественного E&P рынка, задачи, функции, архитектура.
  • Единая цифровая среда для взаимодействия государства и недропользователей: потребности, проблемы, пути решения.

"ЛУКОЙЛ-Инжиниринг" Пермь 19-21 октября 2022 г.
IV МЕЖДУНАРОДНАЯ НАУЧНО-ПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ «ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ СОПРОВОЖДЕНИЯ НЕФТЕГАЗОВЫХ АКТИВОВ»
Круглый стол: "Цифровизация и роботизация"
It is necessary to choose a visual aid that is appropriate for the topic and audience.
Существенную часть объема данных разведки и разработки составляют неструктурированных данные в виде дисковых файлов как стандартных офисных форматов, так и специализированных. Управление неструктурированными данными не поддается традиционным технологиям и требует особого подхода. В связи с этим, хотя малая часть неструктурированных данных и загружена в структурированные хранилища, подавляющее большинство остается на дисковых ресурсах. Сколько бы структурированных хранилищ не вводилось в эксплуатацию - количество единиц хранения неструктурированных данных неизбежно возрастает.

Вывод: любая стратегия управления данными должна предусматривать меры к управлению неструктурированными данными направленные на:
  • их сохранение,
  • их эффективное многократное использование.
Первое реализуется стандартными инструментами хранения и резервного копирования, а второе, зачастую, средствами проводника Windows и приблизительного знания о том, что где хранится. Именно для повышения эффективности доступа и использования неструктурированных данных больше всего подходят озера данных. Это не всегда требует применения космических технологий.

Простейший пример – фотографии в телефоне. Они просто накапливаются, но вдруг их уже автоматически отсортировали по датам, сгруппировали по событиям, нанесли на карту, определили людей на них, нашли велосипеды и котят, и напоминают нам о событиях годичной давности. Это и есть озеро.

Чтобы определить озеро необходимо определить несколько важных его частей:

  • Загрузка. Как данные попадают в озеро? Данные могут попадать в озеро разными способами – от сложных трудоемких процессов загрузки более свойственных хранилищам данных, до простого «сбрасывания» их в файловую систему. Чем проще и производительней, тем лучше, или «озернее».
  • Хранение. Само файловое хранилище это совершенно необязательно HDFS или S3, достаточно и простой файловой системы. Суть озера не в хранении, а в простоте доступа к файлам и информации о них.
  • Каталог и Поиск для того, чтобы избежать Болота Данных (когда мы сваливаем все данные в одну кучу, и потом бродим по ним с помощью Windows проводника). Необходимо создать слой метаданных или индекс, чтобы пользователи легко могли найти данные, которые им необходимы для анализа. Найти в контексте, найти на карте, найти по содержимому, проанализировать.
  • Обработка. В момент попадания данных в озеро хорошо иметь возможность их первичной обработки и трансформации, например обогащения метаданными из корпоративных систем НСИ. После попадания данных в озеро – необходимо иметь инструменты трансформации и реструктурирования данных с тем, чтоб привести их к виду, более подходящему для анализа, например дополнения или переопределения полей метаданных, создания производных полей или даже объектов метаданных.
  • Безопасность. Чем больше данных в озере, тем строже и сложнее задача разграничения доступа к ним. Ее необходимо решать, определяя инструменты разграничения доступа, уровни, гранулярность, механизмы назначения прав и порядок аудита.
В «ЛУКОЙЛ-Инжиниринг» существует несколько систем хранения и управления файлами разного типа, однако не все из них можно классифицировать как озера.

· Разделение на озера и хранилища базируется на преобладании структурированной или неструктурированной информации. Многие озера содержат структурированный слой метаданных сравнимый с реляционной БД. Многие хранилища имеют под собой систему файлового хранения, рассчитанную на миллионы файлов. Тем не менее, в озерах преобладает неструктурированная, а в хранилищах – структурированная информация.

  • Озера существенно различаются количеством метаданных, описывающих файлы. От практически полного их отсутствия, до высоко-детальных описаний десятками атрибутивных полей.
  • Способы загрузки данных озера и хранилища существенно отличаются. Единичная загрузка с ручным вводом метаданных более свойственна хранилищам. Потоковая, на базе шаблонов, применяется и для хранилищ, и для озер. Автоматическое индексирование и снабжение метаданными вновь размещенных на диске файлов свойственно озерам.

Каковы перспективы такого подхода? На наш взгляд очень широкие. В первую очередь любое файловое хранилище может стать «озером».

Во вторую - для увеличения количества пользователей и использований – достаточно организационных мероприятий внутри компании. Длительного обучения не требуется.

Крайне важно использовании в озерах структурированной информации из баз данных и хранилищ. Структурированная информация – ключ к пониманию и эффективному использованию неструктурированной.

Загрузка в озера должна становиться проще и быстрее, а значит дешевле. Необходимо увеличение автоматизации загрузки – автозаполнение метаданных за счет автоматического разбора файлов, чтения заголовков.

Больше пост-обработки: дополнительно извлеченных метаданных и разобранных форматов, анализа загруженных в озера данных, сравнения, контроля качества за счет привлечения структурированной информации из проиндексированных хранилищ.

Больше точек доступа к данным озер. Доступ должен осуществляться не только через интерфейс Корпоративного Банка Данных, но и через корпоративные web-страницы, web-сервисы, и из популярных корпоративных приложений, обеспечивающих контекст для лучшего поиска и представления данных. Представление данных из озер в виде информационных панелей на корпоративных ресурсах также видится перспективным.

Дополнительные функциональные возможности озер могут включать в себя, например, быстрое сравнение большого вновь поступившего массива файлов (сотни тысяч) с уже хранящимися файлами на предмет выявления дубликатов и определения оптимальной стратегии загрузки. Такой функционал крайне важен в сценариях оценки или покупки активов.

ФГБУ "ВИМС" Москва 22-24 ноября 2022 г.
НАУЧНО-ПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ «АКТУАЛЬНЫЕ ПРОБЛЕМЫ ПОИСКОВОЙ ГЕОЛОГИИ» "ИНТЕГРАЦИЯ ГЕОЛОГО-ГЕОФИЗИЧЕСКИХ ДАННЫХ В ЕДИНОЕ ГЕОИНФОРМАЦИОННОЕ ПРОСТРАНСТВО "
It is necessary to choose a visual aid that is appropriate for the topic and audience.
Большой объем структурированных и неструктурированных геолого–геофизических данных накопившихся за годы работ геологоразведочного комплекса (далее ГРК) компании АК «АЛРОСА» (далее по тексту Компания) требует их комплексной интеграции и хранения с целью оперативного поиска и анализа всей накопленной информации в рамках поисковой и проектной деятельности ГРК. Соответствующие работы выполняются в Компании, в рамках проекта по созданию информационной системы Единое геолого-информационное пространство (далее ИС «ЕГИП»). Создаваемая ИС «ЕГИП» предполагает подключение структурированных и не структурированных источников геологических и геофизических данных, их регулярную индексацию (извлечение содержимого) и создание поискового индекса (аналог базы данных). ИС ЕГИП выступает интеграционной платформой для разных типов и баз данных, обратившись к которой можно получить весь доступный набор геологической информации с учетом критерия поиска, в том числе пространственного.

В рамках технического проектирования определены так называемые мастер системы – информационные системы и базы данных Компании, которые должны быть подключены в ИС ЕГИП; файловые базы данных, для загрузки и передачи под управление ИС ЕГИП; файловые каталоги, для периодической индексации.

В силу разнородности (базы данных, файловые ресурсы, веб-сервисы и т.п.) источников данных, в качества хранилища и поискового сервера был выбран Elasticsearch.

При проектировании ИС ЕГИП решались следующие группы задач:

1. ИДЕНТИФИКАЦИЯ ДАННЫХ В ИСТОЧНИКАХ.
В рамках создания комплексной метамодели данных ИС ЕГИП проведен анализ и выделение естественных (далее по тексту «поисковых») ключей данных, для целей идентификации и построения связей между моделями различных источников данных Сквозной поиск по таким ключам позволяет получить полную выборку данных по всем источникам данных (например, все анализы по пробе, или вся доступная информация и документация по конкретному проекту и т.п.).

Поисковый ключ должен быть уникален в контексте всех моделей ИС ЕГИП. Поисковые ключи отображают связи в не реляционном индексе Elasticsearch (пример поискового ключа «Аэросъемочный-2_2021_Южно-Накынский_852», структура ключа «Объект работ ГРР»_«Год»_«Участок работы»_ «Номер в БД»). В отличие от классических GUID идентификаторов, естественный ключ более информативен для человека и сам может являться критерием для поиска необходимой информации.

Задача идентификации данных и построения связей между моделями, в нереляционной БД, требует нормализации НСИ в источниках данных (например, разные названия объектов работ в разных источниках приведут к разным ключам данных), что является дополнительной сопутствующей задачей, с которой столкнулась команда проекта. Помимо этого, в связываемых базах данных, должен содержаться схожий набор атрибутивной информации, которая задействована в поисковом ключе, что требует поэтапной выверки геологических данных и присвоения поисковых ключей в интегрируемых источниках информации. В связи с этим были спроектированы надежные поисковые ключи, которые однозначно идентифицируют данные в источниках и моделях ИС ЕГИП и устойчивы к пользовательским изменениям.

2. ОБОГАЩЕНИЕ ЦИФРОВЫХ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ.
Поисковые ключи при построении связей между классами данных также используются в ИС ЕГИП с целью обогащения неструктурированных данных дополнительной атрибутивной информацией вокруг объектов исследований (участков, выработок, проб и т.п) из структурированных источников. Структурированные данные – ключ к пониманию неструктурированных. Структурированные данные используются для создания аннотаций (описательных атрибутивных блоков) к неструктурированным данным. Достаточно привязать цифровой документ к ряду поисковых ключей и наборы описательных атрибутов, содержащихся в структурированных источниках, будут привязаны к цифровому файлу (через поисковые ключи).

Если структурированные данные в мастер-системах изменяются – выполняется автоматизированная синхронизация атрибутов цифрового файла по поисковым ключам. Таким образом происходит отработка изменений из мастер-систем в ИС ЕГИП.

3. ГЕОПРИВЯЗКА ЦИФРОВЫХ ДАННЫХ.
ИС ЕГИП предоставляет возможность пространственного поиска данных по всем подключенным мастер–системам и источникам информации, путем задания произвольного полигона на карте отвечающего зоне интереса. Для поиска данных на карте необходимо, чтобы в каждой записи содержались координаты (типы геометрии: точка, линия, полигон или их наборы). Для файловых данных, которые загружаются в ИС ЕГИП есть несколько способов получения пространственной привязки:
  • Координаты могут быть заданы вручную оператором, путем привязки по поисковому ключу к гео-объекту, через автоматическое извлечение координат коннекторам из структурированных источников БД. Типы гео-объектов для привязки задаются справочником геопривязки.
  • Пространственная привязка неструктурированных данных к геометрии, осуществляется путем хранения координат в одном из полей записи о документе в БД ИС ЕГИП в формате WKT. Например, корреляционная диаграмма по 3м скважинам – привязывается к трем точкам устья, файл отчета – к контуру проведения работ, сейсмический разрез к профилю и тд.
  • Координаты могут извлекаться файловыми коннекторами из цифровых форматов ArcMap, Geosoft, Segy, XML.

4. ИНДЕКСИРОВАНИЕ ДАННЫХ.
Задачи извлечения содержимого цифровых данных предполагают:
  • Разработку и настройку коннекторов к источникам данных;
  • Индексирование неструктурированных источников данных (файловые ресурсы ГРК Компании);
  • Оптическое распознавание содержимого файлов графических форматов;
  • Индексирование структурированных источников данных (далее по тексту БД) – создание соответствующих витрин данных (денормализация).

5. ЕДИНАЯ СИСТЕМА РАЗГРАНИЧЕНИЯ ДОСТУПА.
  • Так как ИС ЕГИП объединяет разные источники геолого-геофизической информации было принято решение, что информационная система не будет наследовать права доступа из мастер-систем и файловых каталогов, а будет разработана своя единая система разграничения доступа.
  • Поисковые ключи, классы данных и встроенные системные функциональные роли в ИС ЕГИП формируют шаблоны доступа пользователей, которые присваиваются пользователю для доступа к тем или иным записям данных ИС ЕГИП, маркированных соответствующими поисковыми ключами. Разграничение доступа реализовано по уровням доступа Мастер-система/класс данных/запись данных.

Выводы:
  • Для функционирования такой интеграционной платформы как ИС ЕГИП должны быть в значительной мере выверены и подготовлены данные, их атрибуты, унифицирована НСИ. Работы по унификации НСИ могут проводиться параллельно внедрению системы.
  • Интеграция разнородных данных в рамках единой платформы позволяет выявлять ошибки и несоответствия в данных, применять инструменты QC контроля. По-новому оценить качество и достоверность информации.
  • Ядром подобного проекта должна быть готовая система потоковой индексации как неструктурированных, так и структурированных данных с расширенным функционалом работы именно со структурированными данных: созданием произвольных схем данных, типизацией полей, возможностью структурированных (подобных SQL) запросов.
  • ИС ЕГИП приводит все данные к единой системе координат, что позволяет осуществлять визуализацию данных на карте и производить геопоиск.
  • Сценарии использования ИС ЕГИП включают в себя как пользовательские сценарии поиска и запроса информации, так и подключение к ИС ЕГИП расчетных алгоритмов, решающих различные задачи от контроля качества данных до поиска аналогов горных выработок по данным каротажа и документированию, или автоматизированного выделения информации по заданным прогнозно-поисковым критериям алмазоносности и другие задачи.

      Открываем W.online для доступа к данным NPD, Equinor VOLVE и Росгеолфонда

      Выступление на юбилее АО "Росгеология"

      Статья ЛУКОЙЛ Коми об использовании Корпоративного Банка сейсмических Данных на базе Whereoil