Сбер представил FinTRACE: языковые модели учатся читать транзакции

Исследователи Центра практического искусственного интеллекта Сбербанка совместно с командой Sber AI разработали FinTRACE - подход к анализу финансового поведения клиентов с помощью языковых моделей. Статья под руководством Максима Макаренко принята на 49-ю международную конференцию ACM SIGIR по информационному поиску. В тестах на прогнозе оттока клиентов метрика качества классификации выросла вдвое по сравнению с исходным уровнем.
Сбер представил FinTRACE: языковые модели учатся читать транзакции

Исследователи Центра практического искусственного интеллекта Сбербанка совместно с командой Sber AI разработали FinTRACE - подход к работе с финансовыми данными клиентов для больших языковых моделей. Статья под руководством Максима Макаренко принята на 49-ю международную конференцию ACM SIGIR - одну из главных мировых площадок по информационному поиску и рекомендательным системам.

Почему LLM не справляются с банковскими данными

История транзакций - это длинная нерегулярная таблица: даты, суммы, категории покупок, частота операций. Для языковой модели такой массив неудобен: у него нет нарратива, нет структуры, понятной модели. Контекст переполняется, поведенческие паттерны за набором строк не читаются.

Большинство существующих подходов передают транзакции «как есть» и получают слабое качество. FinTRACE предлагает другую логику.

База знаний вместо сырого массива

Система сначала анализирует историю операций и выделяет устойчивые паттерны: повторяющиеся привычки, изменения в структуре расходов, регулярность платежей. Всё это сохраняется в структурированную базу знаний о поведении конкретного клиента.

Только после этого языковая модель работает с базой, а не с исходными данными. Авторы описывают это как retrieval-first architecture: сначала поиск и извлечение релевантных поведенческих сигналов, затем детекторы правил, и лишь затем рассуждение модели.

Такой слой переиспользуется. Одна и та же база знаний о клиенте применяется для кредитного скоринга, антифрода и персонализации - без пересборки системы под каждый сценарий. Архитектура ценна именно этим: один раз извлёк паттерны, дальше решаешь разные задачи поверх них.

MCC растёт вдвое при почти нулевой разметке

Самый ценный результат в статье - улучшение в условиях слабого обучения. В финансовых данных размеченных примеров хронически мало: редкие события, конфиденциальность, сложность ручной разметки.

В тесте на zero-shot прогнозе оттока метрика MCC (показатель качества при несбалансированных данных - когда одного класса примеров значительно больше, чем другого) выросла с 0,19 до 0,38. В сценарии с 16 размеченными примерами - с 0,25 до 0,40. Рост вдвое без полноценного обучающего набора говорит о том, что поведенческий паттерн действительно выделяется явно, а не угадывается из сырых строк.

Для финансовых сервисов это критично: редкие события - мошенничество, дефолт, отток - чаще всего самые дорогостоящие, а размеченных примеров по ним меньше всего.

Кредитный скоринг, персонализация, комплаенс

Сбер называет несколько направлений: прогнозирование оттока, кредитный скоринг, маркетинговые кампании, персонализация предложений и комплаенс-контроль. Банки, финтех и платёжные сервисы смогут применять FinTRACE как универсальный слой поверх событийных данных.

Здесь важна объяснимость. Регулятор и клиент не принимают ответ «модель решила так». Нужно понимать, какие признаки повлияли: регулярность платежей, изменение структуры расходов, появление нестандартных операций. Архитектура с явно выделенными паттернами потенциально упрощает эту задачу: интерпретируемые признаки уже есть до обращения к модели.

«Новый подход FinTRACE помогает искусственному интеллекту сначала увидеть целостную картину»,

- заявил директор Центра практического искусственного интеллекта Сбербанка Николай Тиден.

Авторы также упоминают возможное применение в медицине: данные о визитах к врачу и результатах анализов устроены похоже на транзакции - события во времени, разная частота, смысл в траектории, а не в отдельных записях.

От arXiv до продукта

Пока FinTRACE - принятая научная статья, не готовый банковский продукт. Путь от академической публикации до промышленного внедрения длиннее, чем следует из анонса. Главная проверка для подхода начнётся тогда, когда его попробуют встроить в реальные системы скоринга или антифрода. Если промежуточный слой окажется действительно переносимым и объяснимым - у него есть шансы стать удобным стандартом между банковскими данными и языковыми моделями. Если нет, статья останется в академическом архиве.

03:30
135
Нет комментариев. Ваш будет первым!