Построение моделей вероятности дефолта банка.
Выбор спецификации и построение базовой модели играют важную роль, так как несбалансированность данных крайне негативно сказывается на качестве моделей бинарного выбора [Karminsky, Kostrov, 2014]. В нашем случае один класс наблюдений (продолжающие деятельность банки) существенно доминирует над другим классом (в нашем случае — над допустившими дефолт банками), так как модель должна обучаться на наблюдениях обоих классов. Несмотря на усилия по сохранению наблюдений типа «дефолт» при формировании базы, их доля составляет лишь порядка 1%.
Поэтому был использован способ балансировки, описанный в [Не et al., 2009]. Для увеличения доли наблюдений типа «дефолт» при моделировании применялся следующий алгоритм. Формировались 1000 подвыборок, каждая из которых содержала 5% наблюдений типа «банк продолжает операционную деятельность» от начальной выборки и все имеющиеся наблюдения типа «дефолт». Это позволило повысить долю допустивших дефолт банков до 10— 12% в каждой из подвыборок, а значит, каждая из них оказывается пригодной для построения logit-модели.
При построения модели финансовые показатели брались с лагами. Выбор величины лага по финансовым объясняющим переменным осуществлялся в пределах восьми кварталов, так как финансовые трудности банка не очень быстро находят отражение в его балансе.
Для определения величины лага в модели вероятности дефолта банка использовался набор потенциальных финансовых объясняющих переменных, найденных ранее. Строились логистические регрессии для каждой величины лага (от одного до восьми кварталов, поквартально) для финансовых переменных. На основе анализа статистических характеристик для выбранной спецификации модели определялась величина лага по финансовым переменным.
Проведенный анализ показан, что с увеличением лага падают качество моделей и адекватность модели эмпирическим данным. В связи с этим для дальнейшего рассмотрения принят лаг в два квартала. Такую модель будем называться базовой моделью (basic). Параметры модели приведены в табл. 3.7.
Исходя из экономических соображений влияние нелинейности по двум переменным, характеризующим отношения соответственно балансовой прибыли Ьр_са и собственного капитала sk_ca к чистым активам, оценивается включением в модель полиномов до 8-й степени.
LR-тест статистически подтвердил, что модели с включением полиномов второй степени по переменным Ьр_са и sk_ca вполне достаточны и модели с более высокими степенями не дают положительного эффекта. Модель с финансовыми переменными Ьр_са и sk_ca с нелинейностью 2-го порядка будет называться моделью с учетом нелинейностей 1-го типа (basic_exponentl или b_e 1).
Проведем дополнительный анализ нелинейностей, включающий использование квадратов и кубов объясняющих переменных в базовой эконометрической модели basic за исключением переменных размера банка 1п_са и качества управления ln_oks_ca. Для проверки целесообразности включения нелинейности последовательно отбрасывались значимые объясняющие финансовые переменные, начиная с наименее значимых, и одновременно анализировались статистические характеристиками модели. Данный алгоритм дал результат, близкий к ранее полученному, но по статистическим характеристикам эта модель превзошла первую. Данная модель будет называться моделью с учетом нелинейностей 2-го типа (basic_exponent2 или Ь_е2).
Анализ статистических характеристик полученных ранее моделей показывает, что коэффициент при показателе размера банка, выраженном в виде логарифма активов 1п_са, далеко не всегда значим. В то же время существующая практика, анализ статистических данных по дефолтам российских банков, а также экономические соображения, приведенные ранее, показывают, что нелинейность по размеру банка существует и носит U-образный характер, причем описание линейной зависимостью неудовлетворительно. Эту гипотезу попытаемся подтвердить для итоговой модели.
Одним из недостатков простой логистической модели является неучет фактора времени. Для учета фактора времени по годам введем ежегодные Л/Аи/иу-переменные для временного интервала 1998-2009 гг. Последовательно, исключая незначимые dummy с использованием LR-теста, удалось показать, что значима только одна йФш/иу-переменная на 2009 г., отражающая накопленные результаты по кризису 2008 г.
Аналогично рассмотрев проблему сезонности, удалось показать, что в модель должна быть включена dumту-переменная на I квартал. Это отражает наличие практики консервативной отчетности за I квартал года. Полученная модель будет называться моделью с учетом фактора времени (basic_exponent2_time или b_e2_t).
Использование макроэкономических переменных потенциально позволяет улучшить прогнозное качество модели. Были отобраны шесть макроэкономических переменных. При выборе
Итоговая таблица
характеристик предложенных моделей вероятности дефолта банков
Название модели |
Базовая |
Базовая с учетом нелинейности 1-го тина |
Базовая с учетом нелинейности 2-го тина |
С дополнительным учетом фактора времени |
С дополнительным уметом фактора времени, макроэкономических переменных |
С дополнительным учетом фактора времени, макроэкономических и институциональных переменных |
Финальная базовая модель |
Обозначение |
basic |
b_el |
Ь_е2 |
b_e2_t |
b_e2_t_m |
b_e2_t_m_i |
b_e2_t_m_i_s |
sk_ca_lag2 |
-0,55 |
-11,05*** |
_9 75*** |
—9 98*** |
-9,10*** |
-12,43*** |
-10,91*** |
(sk_ca lag2)2 |
16,56*** |
14,56*** |
15,04*** |
14,39*** |
16,81*** |
14,09*** |
|
ln_ca_lag2 |
-0,13** |
-0,01 |
0,008 |
-0,13* |
-0,10*** |
-0,11 |
-1,94** |
(ln_ca_lag2)2 |
0,06** |
||||||
bp_ca_lag2 |
— 11 45*** |
—71 90*** |
-74,52*** |
—72,42*** |
67,51*** |
-61,50*** |
-60*** |
(bp_ca_lag2)2 |
1014*** |
976*** |
1073*** |
976*** |
1088*** |
1039*** |
|
ncb_ca_lag2 |
3,99*** |
447*** |
-6,20*** |
-4,80* |
-4,95* |
-4,25*** |
-4,55* |
(ncb_ca_lag2)2 |
24,05*** |
22,28*** |
22,50*** |
15,54** |
16,08** |
||
pzs_ke_lag2 |
6,38*** |
4 72*** |
4,33*** |
3,94*** |
4,23*** |
5,17 |
4,96*** |
ln(oks_ca_lag2) |
-1,09*** |
-1,08*** |
-1,08*** |
-1,01*** |
-1,19 |
-1,18*** |
|
d_09 |
1,61*** |
2,15*** |
2,21 |
2,26*** |
|||
d_q 1 |
— 1 07*** |
-1,28*** |
_141 *** |
_1 47*** |
|||
gdp_gr_lag2 |
0,17** |
0,11 |
0,12 |
||||
cpi_lag2 |
0.10*** |
0,10*** |
0,10*** |
||||
l_index |
-2,51*** |
-2,38*** |
|||||
region |
2,85*** |
2 9i*** |
|||||
Pseudo R2 |
0,52 |
0,59 |
0,60 |
0,63 |
0,64 |
0,706 |
0,71 |
S под ROC |
0,89 |
0,92 |
0,92 |
0,94 |
0,94 |
0,97 |
0,97 |
Pr (верное предсказание), |
92,7 |
93,7 |
94,4 |
93,3 |
93,7 |
94,8 |
94,8 |
% Pr( ExWork), % |
27,7 |
24,1 |
22,7 |
21,6 |
20,9 |
16,2 |
15,5 |
макроэкономических переменных учитывалось, что они могут сильно коррелировать между собой (проблема мультиколлинеарности). В результате первоначального эконометрического отбора остановились на двух: ежеквартальные темпы роста ВВП gdp_gr и индекс потребительских цен cpi. Выбор величины лага по макроэкономическим переменным проводился так же, как и по финансовым, и оказался равным двум кварталам.
Учет институциональных переменных, проведенный ниже, учитывает не только типовые факторы институционального характера, но и особенности их реализации в России. Были рассмотрены три институциональные переменные: региональная принадлежность, принадлежность к системе страхования вкладов, а также индекс Лернера, который отражает уровень монопольной власти для отдельно взятого банка. Реестр банков — участников системы обязательного страхования вкладов был подготовлен экспертами информационно-правового портала «Гарант». Индекс Лернера был рассчитан в соответствии с традиционной методологией.
После проверки значимости факторов (не значима принадлежность к системе страхования вкладов) модель с дополнительным учетом макроэкономических и институциональных переменных (basic_exponent2_time_macro_institutional или b_e2_t_m_i) включила две институциональные переменные (расположение головного офиса и индекс Лернера).
К сожалению, с помощью регрессионного анализа невозможно оценить влияние типа собственности банка на вероятность дефолта кредитной организации. Дело в том, что ни один банк со 100%-м участием нерезидентов в нашей выборке не допустил дефолта за 1998-2011 гг. Некоторое снижение числа банков со 100%-м участием нерезидентов в капитале произошло в результате мирового финансового кризиса 2008—2009 гг., однако отзывы лицензий были связаны с реорганизацией банков. Тем не менее в условиях растущей экономической нестабильности в мировых масштабах 100%-е участие нерезидентов в капитале банка не гарантирует его безоблачное финансовое состояние (и соответственно низкую вероятность дефолта). В связи с этим банки с иностранным участием требуют не менее пристального внимания со стороны регулятора.
Для проверки справедливости сформулированного ранее утверждения о нелинейности зависимости вероятности дефолта относительно размера банка в модель была включена вторая степень по данной переменной. Эта модель называться моделью с дополнительным учетом фактора времени, макроэкономических и институциональных факторов, квадратичностью размера банка. Данную спецификацию будем считать финальной базовой моделью. В нее входит ряд незначимых переменных, включение которых экономически обосновано и соответствует проверяемым гипотезам. Итоги рассмотренных и наращиваемых по сложности моделей представлены в табл. 3.7.
Основные финансовые показатели взяты с лагом в два квартала lag = 2. В таблице для каждой модели приведены коэффициенты при соответствующей объясняющей переменной, статистическая значимость указанных коэффициентов, а также показатели, характеризующие качество модели. На рис. 3.9 приведено сравнение ROC-кривых для ключевых моделей.