Сбер представил FinTRACE: языковые модели учатся читать транзакции

Исследователи Центра практического искусственного интеллекта Сбербанка совместно с командой Sber AI разработали FinTRACE - подход к работе с финансовыми данными клиентов для больших языковых моделей. Статья под руководством Максима Макаренко принята на 49-ю международную конференцию ACM SIGIR - одну из главных мировых площадок по информационному поиску и рекомендательным системам.
Почему LLM не справляются с банковскими данными
История транзакций - это длинная нерегулярная таблица: даты, суммы, категории покупок, частота операций. Для языковой модели такой массив неудобен: у него нет нарратива, нет структуры, понятной модели. Контекст переполняется, поведенческие паттерны за набором строк не читаются.
Большинство существующих подходов передают транзакции «как есть» и получают слабое качество. FinTRACE предлагает другую логику.
База знаний вместо сырого массива
Система сначала анализирует историю операций и выделяет устойчивые паттерны: повторяющиеся привычки, изменения в структуре расходов, регулярность платежей. Всё это сохраняется в структурированную базу знаний о поведении конкретного клиента.
Только после этого языковая модель работает с базой, а не с исходными данными. Авторы описывают это как retrieval-first architecture: сначала поиск и извлечение релевантных поведенческих сигналов, затем детекторы правил, и лишь затем рассуждение модели.
Такой слой переиспользуется. Одна и та же база знаний о клиенте применяется для кредитного скоринга, антифрода и персонализации - без пересборки системы под каждый сценарий. Архитектура ценна именно этим: один раз извлёк паттерны, дальше решаешь разные задачи поверх них.
MCC растёт вдвое при почти нулевой разметке
Самый ценный результат в статье - улучшение в условиях слабого обучения. В финансовых данных размеченных примеров хронически мало: редкие события, конфиденциальность, сложность ручной разметки.
В тесте на zero-shot прогнозе оттока метрика MCC (показатель качества при несбалансированных данных - когда одного класса примеров значительно больше, чем другого) выросла с 0,19 до 0,38. В сценарии с 16 размеченными примерами - с 0,25 до 0,40. Рост вдвое без полноценного обучающего набора говорит о том, что поведенческий паттерн действительно выделяется явно, а не угадывается из сырых строк.
Для финансовых сервисов это критично: редкие события - мошенничество, дефолт, отток - чаще всего самые дорогостоящие, а размеченных примеров по ним меньше всего.
Кредитный скоринг, персонализация, комплаенс
Сбер называет несколько направлений: прогнозирование оттока, кредитный скоринг, маркетинговые кампании, персонализация предложений и комплаенс-контроль. Банки, финтех и платёжные сервисы смогут применять FinTRACE как универсальный слой поверх событийных данных.
Здесь важна объяснимость. Регулятор и клиент не принимают ответ «модель решила так». Нужно понимать, какие признаки повлияли: регулярность платежей, изменение структуры расходов, появление нестандартных операций. Архитектура с явно выделенными паттернами потенциально упрощает эту задачу: интерпретируемые признаки уже есть до обращения к модели.
«Новый подход FinTRACE помогает искусственному интеллекту сначала увидеть целостную картину»,
- заявил директор Центра практического искусственного интеллекта Сбербанка Николай Тиден.
Авторы также упоминают возможное применение в медицине: данные о визитах к врачу и результатах анализов устроены похоже на транзакции - события во времени, разная частота, смысл в траектории, а не в отдельных записях.
От arXiv до продукта
Пока FinTRACE - принятая научная статья, не готовый банковский продукт. Путь от академической публикации до промышленного внедрения длиннее, чем следует из анонса. Главная проверка для подхода начнётся тогда, когда его попробуют встроить в реальные системы скоринга или антифрода. Если промежуточный слой окажется действительно переносимым и объяснимым - у него есть шансы стать удобным стандартом между банковскими данными и языковыми моделями. Если нет, статья останется в академическом архиве.