기업 부실 예측 모형#

1. 연구주제#

텍스트 분석과 재무비율을 결합한 기업 부실 예측 모형 구축

2. 연구 배경 및 목적#

  • 기업의 신용위험에 대한 분석과 예측은 금융시스템의 건전성에 중요한 요인임에도 불구하고 전통적인 신용위험 평가 방법은 주로 재무비율과 구조적 모형에 의존

    • 블랙-숄즈-머튼(Black-Scholes-Merton) 모형과 같은 구조적 신용위험 모형은 기업의 자본을 그 자산에 대한 콜 옵션으로 간주하고, 이를 바탕으로 자산 변동성, 부도 지점, 표류 성분 등을 평가하여 기업의 부실 확률을 추정하는 방식으로 복잡한 금융 시장의 현상을 수학적 모델로 잘 표현하는 장점이 있지만, 모델의 가정이 현실과 항상 일치하지 않는 단점도 존재

    • 최근의 머신러닝 기술의 발전과 빅데이터 활용의 증가에 따라, 재무 데이터 외에도 뉴스 기사, 신용 평가 기관 보고서, 경영진의 발표와 같은 비정형 텍스트 데이터의 분석이 가능해짐

    • 이러한 텍스트 데이터는 기업의 신용위험에 영향을 미칠 수 있는 다양한 정보를 담고 있어, 텍스트 마이닝 기법을 활용하여 이를 분석하고 신용위험 예측에 활용하는 것이 필요

  • 본 연구의 목적은 이러한 배경을 바탕으로, 재무비율 분석, 텍스트 마이닝 기법을 통합하여 회사의 신용위험을 보다 전반적이고 정확하게 평가하는 신용위험 예측 모델을 개발에 있음

    • 우선, 기업의 재무제표 데이터에서 수익성, 유동성, 자본 구조, 영업 효율성 등에 대한 분석을 진행하여 기업의 재무 건전성을 정량적으로 평가

    • 다음으로 토픽 모델링 기법을 사용하여 뉴스 기사, 신용평가기관 보고서, 경영진의 발표 등의 비정형 텍스트 데이터에서 신용위험과 관련된 주제를 추출하고, 이를 바탕으로 부실 가능성 추정하는 두 단계 접근법을 사용

    • 텍스트 마이닝 모델의 결과로 기업 신용의 잠재적인 위험 요인을 수치화 한 후 이를 재무비율 분석 결과와 결합하여 최종적인 기업 신용위험 점수 산출

      • 전통적 구조모형의 방법론과 시의성 있는 텍스트 데이터를 결합하여 기업의 신용위험을 예측하고 기업 위험에 대한 효과적인 정책적 대응을 유도할 수 있는 효과적인 모형을 구축

3. 주요 내용 및 분석방법#

  • 구조화된 재무 비율 데이터와 비정형 텍스트 데이터를 결합하여 기업의 신용위험을 보다 정확하고 실시간으로 예측하는 종합적 접근법을 활용

    • 이 접근법은 세 가지 핵심 요소, 즉 재무 비율 분석, 텍스트 분석, 그리고 이들을 통합하는 모델 조합에 기반

재무비율 분석#

  • 우선 재무비율인 수익률 비율(예: 자본 수익률, 이익률), 부채 비율(예: 순부채/자본), 커버리지 비율(예: EBITDA/이자, 현금흐름/부채), 유동성 비율(예: 유동비율, 현금/부채), 성장률(예: ROE 증가율, EPS 성장의 안정성)을 통해 회사의 재무 건전성을 측정

    • 이러한 비율은 기업의 재무 상태에 대한 핵심적인 지표를 제공하며 기업의 신용위험 평가에 객관적이고 정량적인 비교 기준을 제공

텍스트 분석#

  • 텍스트 마이닝을 통해 비정형 텍스트 데이터에서 신용위험과 관련된 정보를 추출

  • 이는 재무비율 분석이 제공하는 과거 정보에 비해 보다 신속하고 직접적인 정보를 제공하며 이를 통해 기업의 부실 위험을 예측하는 데 기여

  • 기업의 실시간 뉴스 기사, 신용평가기관 보고서, 경영진 발표 등의 텍스트 데이터를 수집하고, 이를 통해 신용위험과 관련된 언어 패턴을 식별

  • (토픽모형) 텍스트 데이터를 효과적으로 분석하기 위해 토픽 모델링을 통해 텍스트 데이터에서 주요 주제를 추출

  • 어떤 뉴스 기사와 보고서가 회사의 신용도에 관련된 정보를 포함하고 있는지 판별할 수 있도록 신용평가기관의 공식 보고서를 사용하여 토픽모형*을 학습

    * 잠재 디리클레 할당 (LDA) 또는 잠재 의미 색인 (LSI) 등을 사용

  • (부실추정모형) 기업의 부실을 나타내는 별도의 관련 텍스트로 학습된 특화언어모형*을 사용하여 기업신용등급과 밀접한 주제로 분류된 기사가 나타내는 기업의 부실 가능성의 강도를 측정

    * 특화언어모형(Finetuned Language Model)은 GPT나 LLAMA와 같은 사전학습된 거대 언어모형으로 자연어 처리 작업에 대한 뛰어난 성능을 보여주는 기초모형(Foundational Model)을 분석 목적에 맞게 추가학습한 모형

[그림 1] 기업부실 예측모형의 구성 및 흐름

        graph TB
A[재무비율분석] --> |재무비율산출| AA[재무비율: 수익성, 레버리지, 커버리지, 유동성, 성장성]
B[텍스트분석] --> |뉴스기사수집| BB[주요언어패턴파악]
BB --> |텍스트마이닝| CC[신용부실 가능성 측정]
AA --> D[모델 결합]
CC --> D
D --> |텍스트양 기반 비중 조정| E[종합부실평가모형]
E --> F[누락 정보 처리]
F --> |신용위험 모멘텀 파악| G[종합적 신용위험 측정]
G --> H[최종 점수 산출]
    

모형의 결합#

  • 기업의 규모 및 특징에 따라 수집 가능한 텍스트 데이터의 양이 각각 상이하므로 이를 보완하기 위해 재무비율 분석과 텍스트 분석 결과를 결합

    • 기간별로 수집되는 텍스트의 양에 따라 텍스트 마이닝에 부여된 가중치가 조정되므로 해당 기업의 재무적 이슈에 대한 시장의 관심과 중요도가 반영되도록 결합함으로써 신용위험의 모멘텀을 나타낼 수 있음

  • 산출된 텍스트기반 신용점수와 재무비율 자료를 활용하여 고정효과를 고려한 패널프로빗모형을 추정하고 기업 부실위험을 측정할 수 있는 모형을 구축

    \[\begin{split} Pr(\Delta C_{i,t}<0|x{i,t},\alpha_i) = \beta_1 \Delta \ln \Pi_{it} + \beta_2 \Delta \ln D_{i,t} + \beta_3 \Delta \ln EBITDA_{i,t} \\ + \beta_4 \Delta \ln Liq_{i,t} + \Delta \ln G_{i,t} + \beta_6 \Delta \ln S_{i,t} + X_{i,t} + \alpha_i + \tau_t + \upsilon_{i,t} \end{split}\]

    \(C_{i,t}\)\(i\)기업의 \(t\)기 신용등급이며 , \(\Pi_{it}\)는 수익률 비율, \(D_{i,t}\)는 부채비율, \(EBITDA_{i,t}\)는 이자보상배율, \(Liq_{i,t}\)는 유동성비율, \(G_{i,t}\)는 성장률, \(S_{i,t}\)는 텍스트기반 신용점수를 의미하며 \(X_{i,t}\)는 기업의 특성을 반영한 통제변수, \(\alpha_i\)는 기업별 고정효과, \(\tau_t\)는 시간 고정효과

4. 정책적 시사점#

  • 본 연구는 재무 데이터와 텍스트 데이터를 독립적으로 접근하는 전통적 방법론에 비해 재무 데이터와 텍스트 데이터를 결합하여 기업의 신용위험을 평가하는 하이브리드 방식을 사용하여 기업신용 평가에 정확도를 제고

  • 기업 부실위험 예측에 실시간 데이터를 활용함으로써 기업의 재무 건전성에 영향을 미치는 이벤트를 보다 정확하게 반영할 수 있어 급변하는 금융 환경에서 그 중요성이 더욱 부각될 것으로 기대

  • 모델의 성능은 선택한 텍스트 소스와 데이터 품질에 크게 의존하므로 향후 연구에서 다양한 텍스트 데이터 소스를 사용하거나 텍스트 마이닝 및 토픽 모델링 방법을 개선하고 모형 성능을 제고할 수 있을 것으로 기대

  • 신용위험 예측에 영향을 미치는 기업의 사회적 책임, 환경, 거버넌스(ESG) 지표 등 비재무적 요인을 고려하는 모형으로 확장 가능