기업 부실 예측 모형#
1. 연구주제#
텍스트 분석과 재무비율을 결합한 기업 부실 예측 모형 구축
2. 연구 배경 및 목적#
기업의 신용위험에 대한 분석과 예측은 금융시스템의 건전성에 중요한 요인임에도 불구하고 전통적인 신용위험 평가 방법은 주로 재무비율과 구조적 모형에 의존
블랙-숄즈-머튼(Black-Scholes-Merton) 모형과 같은 구조적 신용위험 모형은 기업의 자본을 그 자산에 대한 콜 옵션으로 간주하고, 이를 바탕으로 자산 변동성, 부도 지점, 표류 성분 등을 평가하여 기업의 부실 확률을 추정하는 방식으로 복잡한 금융 시장의 현상을 수학적 모델로 잘 표현하는 장점이 있지만, 모델의 가정이 현실과 항상 일치하지 않는 단점도 존재
최근의 머신러닝 기술의 발전과 빅데이터 활용의 증가에 따라, 재무 데이터 외에도 뉴스 기사, 신용 평가 기관 보고서, 경영진의 발표와 같은 비정형 텍스트 데이터의 분석이 가능해짐
이러한 텍스트 데이터는 기업의 신용위험에 영향을 미칠 수 있는 다양한 정보를 담고 있어, 텍스트 마이닝 기법을 활용하여 이를 분석하고 신용위험 예측에 활용하는 것이 필요
본 연구의 목적은 이러한 배경을 바탕으로, 재무비율 분석, 텍스트 마이닝 기법을 통합하여 회사의 신용위험을 보다 전반적이고 정확하게 평가하는 신용위험 예측 모델을 개발에 있음
우선, 기업의 재무제표 데이터에서 수익성, 유동성, 자본 구조, 영업 효율성 등에 대한 분석을 진행하여 기업의 재무 건전성을 정량적으로 평가
다음으로 토픽 모델링 기법을 사용하여 뉴스 기사, 신용평가기관 보고서, 경영진의 발표 등의 비정형 텍스트 데이터에서 신용위험과 관련된 주제를 추출하고, 이를 바탕으로 부실 가능성 추정하는 두 단계 접근법을 사용
텍스트 마이닝 모델의 결과로 기업 신용의 잠재적인 위험 요인을 수치화 한 후 이를 재무비율 분석 결과와 결합하여 최종적인 기업 신용위험 점수 산출
전통적 구조모형의 방법론과 시의성 있는 텍스트 데이터를 결합하여 기업의 신용위험을 예측하고 기업 위험에 대한 효과적인 정책적 대응을 유도할 수 있는 효과적인 모형을 구축
3. 주요 내용 및 분석방법#
구조화된 재무 비율 데이터와 비정형 텍스트 데이터를 결합하여 기업의 신용위험을 보다 정확하고 실시간으로 예측하는 종합적 접근법을 활용
이 접근법은 세 가지 핵심 요소, 즉 재무 비율 분석, 텍스트 분석, 그리고 이들을 통합하는 모델 조합에 기반
재무비율 분석#
우선 재무비율인 수익률 비율(예: 자본 수익률, 이익률), 부채 비율(예: 순부채/자본), 커버리지 비율(예: EBITDA/이자, 현금흐름/부채), 유동성 비율(예: 유동비율, 현금/부채), 성장률(예: ROE 증가율, EPS 성장의 안정성)을 통해 회사의 재무 건전성을 측정
이러한 비율은 기업의 재무 상태에 대한 핵심적인 지표를 제공하며 기업의 신용위험 평가에 객관적이고 정량적인 비교 기준을 제공
텍스트 분석#
텍스트 마이닝을 통해 비정형 텍스트 데이터에서 신용위험과 관련된 정보를 추출
이는 재무비율 분석이 제공하는 과거 정보에 비해 보다 신속하고 직접적인 정보를 제공하며 이를 통해 기업의 부실 위험을 예측하는 데 기여
기업의 실시간 뉴스 기사, 신용평가기관 보고서, 경영진 발표 등의 텍스트 데이터를 수집하고, 이를 통해 신용위험과 관련된 언어 패턴을 식별
(토픽모형) 텍스트 데이터를 효과적으로 분석하기 위해 토픽 모델링을 통해 텍스트 데이터에서 주요 주제를 추출
어떤 뉴스 기사와 보고서가 회사의 신용도에 관련된 정보를 포함하고 있는지 판별할 수 있도록 신용평가기관의 공식 보고서를 사용하여 토픽모형*을 학습
* 잠재 디리클레 할당 (LDA) 또는 잠재 의미 색인 (LSI) 등을 사용
(부실추정모형) 기업의 부실을 나타내는 별도의 관련 텍스트로 학습된 특화언어모형*을 사용하여 기업신용등급과 밀접한 주제로 분류된 기사가 나타내는 기업의 부실 가능성의 강도를 측정
* 특화언어모형(Finetuned Language Model)은 GPT나 LLAMA와 같은 사전학습된 거대 언어모형으로 자연어 처리 작업에 대한 뛰어난 성능을 보여주는 기초모형(Foundational Model)을 분석 목적에 맞게 추가학습한 모형
[그림 1] 기업부실 예측모형의 구성 및 흐름
모형의 결합#
기업의 규모 및 특징에 따라 수집 가능한 텍스트 데이터의 양이 각각 상이하므로 이를 보완하기 위해 재무비율 분석과 텍스트 분석 결과를 결합
기간별로 수집되는 텍스트의 양에 따라 텍스트 마이닝에 부여된 가중치가 조정되므로 해당 기업의 재무적 이슈에 대한 시장의 관심과 중요도가 반영되도록 결합함으로써 신용위험의 모멘텀을 나타낼 수 있음
산출된 텍스트기반 신용점수와 재무비율 자료를 활용하여 고정효과를 고려한 패널프로빗모형을 추정하고 기업 부실위험을 측정할 수 있는 모형을 구축
\[\begin{split} Pr(\Delta C_{i,t}<0|x{i,t},\alpha_i) = \beta_1 \Delta \ln \Pi_{it} + \beta_2 \Delta \ln D_{i,t} + \beta_3 \Delta \ln EBITDA_{i,t} \\ + \beta_4 \Delta \ln Liq_{i,t} + \Delta \ln G_{i,t} + \beta_6 \Delta \ln S_{i,t} + X_{i,t} + \alpha_i + \tau_t + \upsilon_{i,t} \end{split}\]\(C_{i,t}\)는 \(i\)기업의 \(t\)기 신용등급이며 , \(\Pi_{it}\)는 수익률 비율, \(D_{i,t}\)는 부채비율, \(EBITDA_{i,t}\)는 이자보상배율, \(Liq_{i,t}\)는 유동성비율, \(G_{i,t}\)는 성장률, \(S_{i,t}\)는 텍스트기반 신용점수를 의미하며 \(X_{i,t}\)는 기업의 특성을 반영한 통제변수, \(\alpha_i\)는 기업별 고정효과, \(\tau_t\)는 시간 고정효과
4. 정책적 시사점#
본 연구는 재무 데이터와 텍스트 데이터를 독립적으로 접근하는 전통적 방법론에 비해 재무 데이터와 텍스트 데이터를 결합하여 기업의 신용위험을 평가하는 하이브리드 방식을 사용하여 기업신용 평가에 정확도를 제고
기업 부실위험 예측에 실시간 데이터를 활용함으로써 기업의 재무 건전성에 영향을 미치는 이벤트를 보다 정확하게 반영할 수 있어 급변하는 금융 환경에서 그 중요성이 더욱 부각될 것으로 기대
모델의 성능은 선택한 텍스트 소스와 데이터 품질에 크게 의존하므로 향후 연구에서 다양한 텍스트 데이터 소스를 사용하거나 텍스트 마이닝 및 토픽 모델링 방법을 개선하고 모형 성능을 제고할 수 있을 것으로 기대
신용위험 예측에 영향을 미치는 기업의 사회적 책임, 환경, 거버넌스(ESG) 지표 등 비재무적 요인을 고려하는 모형으로 확장 가능