Интервью с Эльдаром Мадьяровым

БЯМ!

БЯМ - Большая Языковая Модель -Large Language Model

Интервью
с Эльдаром Мадьяровым: технический советник про LLM использование

Сегодня мы беседуем с Эльдаром, главным специалистом по машинному обучения и ИИ компании «Сёрч Сентрик»

Михаил Ерченков

Эльдар, недавно мы реализовали проект, где привлекли БЯМ (Large Language Model) к поиску ответов на базе большого массива геолого-геофизических данных. Что было целью проекта и в чем ценность использования БЯМ в случае успеха?

В процессе разведки и разработки нефтяных и газовых месторождений накапливаются огромные массивы информации, как хорошо структурированной, так и слабо- или вовсе неструктурированной. И хотя наша Memoza® помогает геологам быстро найти релевантную информацию, мы все равно имеем дело с десятками таблиц и графических приложений, сотнями страниц текста, так что даже беглое ознакомление с этой выборкой может занять часы и дни. Данных у геологов все больше, а времени на их изучение все меньше. Нашей целью было использовать способности БЯМ к обобщению и выбору ключевых фактов, чтобы помочь геологу получить ответы на интересующие его вопросы, быстро и в концентрированном виде.

Эльдар Мадьяров

Михаил Ерченков

БЯМ справилась?

Как минимум, хорошо постаралась. Промпт был следующим: «Основываясь на предложенной выборке, расскажи о соответствии прогнозируемых свойств коллектора по сейсмическим данным фактическим характеристикам скважины. Если есть отклонения и несоответствия, расскажи о них подробно. На русском языке»

Эльдар Мадьяров

Ответ содержал даже больше информации, чем было запрошено. Такое впечатление, что, прежде чем поделиться выводами, БЯМ изложила собранные из предоставленных для анализа документов факты, сжато описав весь комплекс поисково-разведочных работ, составленных проектных документов и изменений в системе разработки по заданной площади в хронологическом порядке. Но в итоге добралась и до сути и ответила на поставленный вопрос

Михаил Ерченков

Нашла несоответствия?

Да. Причем, в тексте не было ни слова о несоответствии, то есть необходимо было действительно проанализировать разные разделы текста и понять отличия в полученных разными методами результатах.

Например, БЯМ указала, что залежи углеводородов оказались расположены на большей глубине, а их объем – меньшим, чем это предполагалось по сейсмическим данным. Модель также отметила, что выявленные расхождения связаны со сложностью геологического строения, и указала на ряд тектонических нарушений, которые не были выявлены в процессе интерпретации сейсмических данных, и впоследствии привели к изменению схемы размещения скважин и системы разработки месторождения.

В целом модель подтвердила, что, несмотря на отклонения и несоответствия, проведенные разведочные работы были необходимы и позволили выявить залежи нефти и газа, оценить их объем и свойства и в первом приближении спланировать разработку месторождения.

Эльдар Мадьяров

МЕ:

По-моему, это интереснее и полезнее, чем просто конспект или нескольких отчетов, хотя и у данной возможности есть свое применение… Наверное, было бы еще лучше, если бы качественные оценки «большая глубина» и «меньший объем», сопровождались количественными…

Эм:

От первой части ответа тоже есть польза. Модель ужала несколько десятков страниц текста до 2-3. Хоть мы ее об этом и не просили.

МЕ:

А может попробовать уточнить промпт? Как насчет «оцени численно степень соответствия прогнозных свойств коллектора по сейсмическим данным и тем, что получены по ГИС и керну»?

Эм:

Я ведь не геолог, поэтому я сначала предложил геологический отчет другой БЯМ и спросил, что такого хорошего и умного можно спросить, чтобы помочь геологу. И та, другая, БЯМ предложила такой промпт.

“

- Дожили. Советуемся с одной БЯМ, что спросить у другой БЯМ…Боюсь, Skynet завоюет нас просто по приколу. Такое впечатление, что ИИ прочел нашу переписку с заказчиком а также заметки с совещаний.
- Да, модели умнеют не по дням, а по часам.

И только вчера я прочел в интервью с выходцем из OpenAI, что по сравнению с AGI все современные генеративные модели «глупее его кошки». И вот, пожалуйста…

Эльдар Мадьяров

Михаил Ерченков

Правильно ли смотреть на ответы БЯМ, как на статистически наиболее вероятные комбинации слов по результатам анализа миллиардов словосочетаний? Ведь в некотором смысле то же самое относится и к «белковому» эксперту: он прочел больше книг и статей, чем не-эксперт, и он чаще обращался к прочитанному массиву, поэтому выдает более качественные связки. Может тогда гениальность – это сбой в матрице, неожиданные «пик» на гистограмме, который обычно отфильтровывают как шум?

Там происходит генерализация информации на все более высоком уровне. Чем больше модель, тем более высокие уровни абстракции доступны ей. Таким образом, она достигнет финального и окончательного знания и ей не нужна гениальность в том виде, как мы её представляем

Эльдар Мадьяров

Михаил Ерченков

…может и правда пора перестать материть робота-пылесоса, что опять сожрал шнур от зарядки. Вечером извинюсь. На всякий случай.

Ты приводил слова геолога, который сказал, что универсальные модели не работают, надо их специально учить. А мне кажется, что этот подход как раз для геологии не работает. Можно натренировать модель для ответа на вопросы тех. поддержки по Линукс, например, но не для геологии. Допустим, натренируем мы модель на всех учебниках по геологии. Но ведь и физика нужна для геофизики? И химия. А дальше ещё потянется, вплоть до уфологии. Поэтому одна большая модель лучше.

Эльдар Мадьяров

Михаил Ерченков

Если говоря «геология» мы подразумеваем «геологические науки», geoscience то да. Как на этой картинке:

Ну вот. И как на это натренировать? Это вся картина мира. Поэтому одна большая модель лучше.

Эльдар Мадьяров

Михаил Ерченков

Сложно сказать. Я думаю, если есть возможность сделать одну большую и всезнающую модель, то, наверное, да. Но если смотреть в разрезе экономии ресурсов, то, возможно, путь узкоспециализированных моделей оправдан. Например, обучили модель на имеющемся массиве текстов. Прошел год. Ученые из самых разных дисциплин наплодили много новых гениальных идей, теорий, решений. Нужно большую модель обновлять и все это ей скармливать - иначе она не будет отвечать на уровне передовых идей. А если создать модель геолога, то ей нужно будет скормить относительно небольшой объем новых работ по геологии, геохимии, геофизике и т.п. по картинке выше. Все же меньше, чем "все обо всем"?

ЭМ:

В идеале так, в реальности команд с ресурсами, которые могут создавать такие модели очень мало и создать "модель геолога" не под силу ни нашим ВИНК, ни международным нефтегазовым гигантам.

МЕ:

Выходит, ресурс такого размера доступен только ИТ-монстрам? Гугл, Амазон, запрещенная на территории РФ компания на букву М?

Эм:

Во-первых, количество не всегда переходит в качество. Гугловская модель что-то никого особо не впечатлила. Вот и выходит, что технология есть, технология мощная, а use-кейсов раз, два и обчелся. Пока только чат-боты, техническая поддержка пользователей.

...

“

- Как говорил персонаж в фильме: «Ладно, будем искать»?
- Да.

Над интервью работали

Михаил Ерченков

Консультант по продажам

Интервьюер
Эльдар Мадьяров

Технический советник

Герой интервью

M.online в опытной эксплуатации

Открываем M.online для доступа к данным NPD, Equinor VOLVE и Росгеолфонда

Memoza: Инновационные подходы к анализу данных для "ЛУКОЙЛ- Инжиниринг"

V международная научно-практическая конференция «Инновации для повышения эффективности сопровождения нефтегазовых активов» ООО «ЛУКОЙЛ-Инжиниринг» в Перми

Memoza совместима с РЕД ОС

Search Centric получил сертификат совместимости Memoza с РЕД ОС от компании РЕД СОФТ