
인과관계는 통계를 이긴다
다음의 시나리오를 생각해봅시다.
사고에 연루된 택시가 블루 택시일 확률은 얼마나 될까요?
목격자의 진술이 없었다면 기저율에 의해 15퍼센트가 되고, 목격자의 신뢰성만 생각하면 80퍼센트가 됩니다. 하지만 이 정보는 베이즈 규칙에 의해 41퍼가 됩니다. 그런데 이 문제를 답한 사람들은 기저율을 무시한 채 목격자의 증언만 생각하고 그 결과 80퍼센트라고 대답하게 됩니다.
하지만 문제를 조금 바꿔보면 사람들은 기저율을 이용해 확률을 판단하게 됩니다. 문제를 다음과 같이 바꿔보겠습니다.
위의 예시는 기저율의 두 가지 유형을 보여줍니다. 통계 기저율은 해당 사례가 속한 모집단과 관련한 사실이며, 개별 사건과는 관련이 없다는것, 반면에 인과관계 기저율은 개별 사례가 어떻게 그렇게 되었는가를 바라보는 개인의 시각을 바꾼다는점 입니다.
우리는 어떤 범주에 속하는 사람이나 사물을 그 범주의 표준을 정해 그 집단의 대표 이미지로 기억합니다. 이 때 그 대표 이미지를 전형이라고 말합니다.
택시 문제에서 보면, 기저율 정보를 무시하는 것은 베이즈 추론을 외면한 인지 결함이지만, 인과관계 기저율에 의존하는 것은 바람직합니다. 그래서 그린 택시 기사들을 전형화하면 판단의 정확도를 높일 수 있습니다.
평균 회귀
성공에는 운이 따라야 합니다. 성공과 운에는 다음의 방정식이 성립한다고 해봅시다
이런 사실을 스포츠 경기에 대입해보면 다음과 같은 생각을 해볼 수 있습니다.
어떤 경기의 득점 평균이 100이라고 합니다. 그리고 A라는 선수는 첫 경기에서 120의 득점을 했습니다. 그러면 그 선수는 다음경기에서 평균 100에 가까운 득점을 하거나 그보다 못한 득점을 할 가능성이 높습니다.
이것이 평균 회귀 입니다. 평균 회귀는 어떤 측정치가 평균에 가까워지는 것을 말합니다.
첫 경기에서는 운이 좋아 평균 이상의 득점을 했지만 그 운이 지속될 가능성이 낮기에 평균득점을 할 가능성이 높은것입니다.
회귀 이해하기
회귀 효과는 일상적인 상황에서도 많이 발견하기 쉽습니다. 하지만 회귀 현상을 정확하게 수치화 하는건 힘듭니다. 회귀에서 중요한건 상관관계입니다. 상관관계가 불완전할 땐 평균회귀가 일어난다는 점을 알아야 합니다.
평균을 벗어나게 되는 현상이 발생했을 때, 그리고 평균을 벗어나는 현상이 지속된다면 그 현상을 지속시키는 정확한 상관관계가 존재합니다. 만일 상관관계가 존재하지 않는다면 단지 회귀가 일어나기까지 기간이 충분하지 않았을 뿐 평균 회귀가 발생하게 됩니다.
회귀 개념을 이해하기 힘들게 하는것은 시스템 1과 시스템 2 둘 다 입니다. 시스템 1은 인과관계 해석을 끊임없이 요구하지만 회귀는 인과관계와는 전혀 상관없으며, 시스템 2는 상관관계와 회귀 둘 사이의 모호한 관계를 이해하기 힘들어 합니다.
직관적 예측 길들이기
예측이 들어가는 판단 중에는 상세한 분석과 계산뒤에 내리는 판단이 있습니다. 반면 직관같은 시스템 1이 관여하는 판단도 있는데 이런 직관은 크게 두 가지 형태가 있습니다. 하나는 반복된 경험에서 생긴 기술과 전문성에서 나오는 직관이고, 다른 하나는 어려운 문제를 쉬운 문제로 바꾸는 어림짐작에서 나오는 직관입니다. 전문 영역에서의 판단은 분석과 직관의 결합에서 나옵니다.
비회귀 직관
대학 신입생 상담사 일부에게 다음의 질문을 했습니다.
그리고 다른 참가자들에게는 다음의 질문을 던졌습니다.
이 두가지 질문은 다릅니다. 한번은 현재의 모습을 평가하고 다른 하나는 학기말의 성적을 평가하는 결과를 예측하는 것 입니다. 하지만 놀랍게도 상담사들은 두 질문을 같은것으로 취급했습니다.
미래 예측이 현재 증거 평가와 구분되지 않다보니 예측이 평가와 일치하게 된 것입니다. 어쩌면 이것이 바꿔치기의 역할을 보여주는 최고의 증거가 아닌가 싶습니다.
그러다보니 불확실성을 다루지 않은 편향된 예측이 나오고, 평균 회귀는 완전하게 무시됩니다.
직관적 예측 수정하기
앞에서 우리는 평균 회귀를 무시한 편향된 예측을 확인했습니다.
그렇다면 평균 회귀를 적용한 예측을 하려면 어떻게 해야할까요? 비편향 결론에 이르는 법을 간단하게 4단계로 정리하면 다음과 같습니다.
1. 우선 예측하려는 부분의 평균을 추정한다. 2. 예측하려는 대상의 증거에 의한 예측을 수행한다. 3. 증거와 예측하려는 대상의 상관관계를 추정한다. 4. 상관관계가 0.3이면 평균에서 30% 만큼 예측을 수정한다.
이런 단계를 거쳐 예상을 한다면 우리가 직관을 이용하더라도 평균에 가까운 예측을 수행할 수 있습니다.
극단적 예측 변호하기?
앞의 기저율과 인과관계의 이야기 역시 평균회귀를 무시하는 편향과 닮은 현상입니다. 그래서 그 해결과정 역시 비슷하게 적용할 수 있습니다.
직관적 예측 수정은 시스템 2가 하는 일입니다. 관련 범주를 찾아내거나, 기준치를 예측하거나, 증거의 질을 평가하는 작업은 상당한 노력이 필요하기 때문입니다. 이러한 비편향 예측의 특성중 하나는 아주 드문 예측이나 극단에 치우친 예측은 관련된 정보가 대단히 유효할 때(상관관계가 굉장히 클 때)만 내놓는다는 것입니다.
직관적 예측 조절 원칙에 대한 반감도 다룰 필요가 있습니다. 편향을 없애는 것이 항상 중요한 문제는 아니기 때문입니다. 우리는 늘 합리적은 아니며, 때로는 왜곡된 추정으로 안도감을 찾아야 할 때도 있기 때문입니다. 하지만 이렇게 극단적 예측을 사용하기로 했다면 그 사실이라도 인지하고 있어야 하는것이 좋습니다. 직관적 예측 수정 절차의 가장 값진 점은 자신이 얼마나 알고 있는가를 생각해보게 한다는 점입니다.
회귀를 바라보는 두 시스템의 시각
극단에 치우친 예측이나 빈약한 증거로 예측하는 성향은 모두 시스템 1이 작동한 결과입니다. 연상 체계가 예측의 극단성과 예측의 바탕이 되는 증거에서 인지되는 극단성을 짝짓는 것은 자연스러운 일이며, 바꿔치기가 작동하는 원리이기도 합니다. 그래서 직관은 지나치게 극단적인 예측을 하는 경우가 있고, 그 예측을 과신하기 쉽다는 부분도 있다는 점을 명심해야 합니다.
정리
편향에 대한 두번째 정리 입니다.
인과관계와 기저율은 사람들은 무언가를 판단할 때 인과관계에 의한 판단을 하는경우에 기저율과 같은 통계치를 무시하는 경향이 있다는 내용을 다루고 있습니다.
평균 회귀는 사람들은 무언가 평가를 할 때 평균보다 잘할때와 못할때가 있는데 이 현상 자체가 평균회귀와 관련있다는 점을 인식하지 못하고 인과관계가 존재하는것으로 착각하는것을 말합니다.
직관적 예측 길들이기는 우리가 직관을 통해 어떤 예측을 수행하려면 평균이나 기저율을 이용한 직관적 판단을 하는방법을 알려주는 방법을 알려줍니다.
인상적인 부분은 사람들한테 미래를 예측하라고 하면 현재의 추정치를 미래에 대입한다는점 입니다.
미래에 대한 판단을 할 때 현재 상태들을 기반으로만 판단을 하기 때문에 시간이 흐름에 따른 불확실성은 예측에 반영이 되지 않는 경우가 많습니다. 이러한 불확실성들의 데이터가 포함된것이 평균이나 기저율 데이터에 포함되기 때문에 이들을 활용해서 예측하면 편향된 예측을 어느정도 피할 수 있다는점을 알 수 있었습니다.