본문 바로가기
IT

Big Data 시대에 반드시 알아야 할 기초 통계지식 (최종평가 문항 및 답)

by KR_guide 2023. 4. 29.

 

국비지원으로 대충 수업만 듣고 끝내려고 했다면 꽤나 난감할 강의. 중간평가-최종평가-과제제출까지 거쳐야 수료가 인정된다. 중간평가는 스스로 풀어서 통과할 수 있었지만, 비전공자가 듣기엔 후반부로 갈수록 난이도가 너무 높고 이해도는 떨어져서 도저히 혼자 풀 수가 없었다. 결국 구글링과 챗GPT의 도움까지 받아가며 겨우 클리어!

 

 

 

Big Data 시대에 반드시 알아야 할 기초 통계지식 (최종평가 문항 및 답)

 

 

1 새로운 자동차 엔진 보호제가 자동차 주행거리에 영향을 미치는가를 파악하기 위해 총 15대의 자동차를 대상으로 엔진 보호제 첨가 전후의 주행거리를 측정하는 경우 대응표본 t-검정을 사용하는 것이 적절하다. (획득 5 점 / 배점 5 점)

  • O 정답
  • X
정답해설

동일한 조사 대상에 대해 엔진 보호제 첨가 전후의 차이를 분석한 것이므로 대응표본에 대한 t검정을 사용한다.

 

 

 

2 중심극한정리란 모집단의 분포와 상관없이 표본의 크기가 10이상으로 크면 표본평균의 분포는 정규분포를 근사적으로 따른다는 것을 말한다. (획득 5 점 / 배점 5 점)

  • O
  • X 정답
정답해설

대표본(30이상)일 경우 표본평균의 분포는 중심극한정리에 의해 모집단의 분포와 상관없이 근사적으로 정규분포를 따르게 된다는 것을 말한다.

 

 

 

3 결합확률분포표에서 다른 확률변수와 관계없이 발생하는 개별변수의 확률을 도출할 수 있는 확률을 주변확률이라고 한다. (획득 5 점 / 배점 5 점)

  • O 정답
  • X
정답해설

주변확률에 대한 올바른 설명이다. 이는 한계확률 또는 비조건부 확률이라고도 한다.

 

 

 

4 다중회귀분석이란 독립변수가 2개 이상인 회귀분석을 말한다. (획득 5 점 / 배점 5 점)

  • O 정답
  • X
정답해설

다중회귀분석은 독립변수가 2개 이상으로 구성되며 독립변수가 1개인 경우는 단순회귀분석이라고 한다

 

 

 

5 교호효과란 반복적으로 자료를 수집하는 이원분류분산분석에서 두 요인이 동시에 작용할 때 급간 변동이 발생하는가를 파악하는 것을 말한다. (획득 5 점 / 배점 5 점)

  • O 정답
  • X
정답해설

교호효과에 대한 올바른 설명이다. 이원분류분산분석은 자료를 구분하는 기준이 두 개이며 두 요인이 동시에 작용할 경우 집단간 차이가 발생하는가를 파악하는 것은 교호효과가 있는가를 보는 것이다.

 

 

 

6 연속균등분포의 발생 구간이 [2, 12]일 때 P(4 < X <10)의 확률은 얼마인가? (획득 5 점 / 배점 5 점)

  • 1 0.4
  • 2 0.5
  • 3 0.6 정답
  • 4 0.8
정답해설

균등분포의 확률은 (x2 - x1)/(b - a) 이므로 (10 - 4)/(12 - 2) = 0.6

 

 

 

7 공분산에 대한 설명으로 잘못된 것은? (획득 5 점 / 배점 5 점)

  • 1 공분산의 범위는 -∞에서 ∞이다.
  • 2 공분산의 식은 Cov[XY] = E[XY] - E[X]E[Y]로 구해질 수 있다.
  • 3 공분산이 음의 값을 가지면 두 변수가 - 선형관계를 갖는다는 의미이다.
  • 4 공분산의 절대값이 클수록 두 변수간의 선형관계도 높다. 정답
정답해설

공분산은 두 변수간의 방향성만을 나타내며 선형관계의 강도는 파악할 수 없다.

 

 

 

8 다음 중 가설검정에 대한 설명으로 잘못된 것은? (획득 5 점 / 배점 5 점)

  • 1 귀무가설은 항상 =이 포함된다.
  • 2 가설검정은 양측검정과 단측검정이 있다.
  • 3 가설검정은 일단 귀무가설이 사실이라는 전제하에서 수행된다.
  • 4 우측검증의 경우 계산된 검정통계량이 임계치보다 작을 때 귀무가설을 기각한다. 정답
정답해설

계산된 검정통계량이 임계치보다 더 커서 기각역에 속할 때 귀무가설을 기각한다.

 

 

 

9 세 개의 이동통신사 고객들의 월평균 요금에 차이가 있는가를 비교하기 위해 가장 적절한 분석방법은? (획득 5 점 / 배점 5 점)

  • 1 카이제곱 검정
  • 2 t검정
  • 3 회귀분석
  • 4 분산분석 정답
정답해설

세 개의 모집단에서 표본을 뽑아 모집단 평균 차이를 분석하는 방법은 분산분석이다.

 

 

 

10 1시간에 평균 10명의 고객이 도착하는 은행에서 도착하는 고객 수에 대한 확률분포를 파악하려고 한다. 각 시간의 고객 도착 여부는 독립이라고 할 때 가장 적합한 확률 분포는? (획득 5 점 / 배점 5 점)

  • 1 이항분포
  • 2 초기하분포
  • 3 포아송분포 정답
  • 4 정규분포
정답해설

단위시간 내의 평균사건 발생수에 대한 분포는 포아송분포를 적용한다

 

 

 

11 다음 중 자료의 성격이 다른 하나는? (획득 5 점 / 배점 5 점)

  • 1 성별
  • 2 주민등록번호
  • 3 온도 정답
  • 4 우편번호
정답해설

다른 자료는 명목척도인데 온도는 구간척도로 나타내는 것이 일반적이다.

 

 

 

12 대표치로서의 평균에 대한 특성을 잘못 설명한 것은? (획득 5 점 / 배점 5 점)

  • 1 산술평균은 자료에 극단적인 값이 포함될 경우에도 적절한 대표치가 된다. 정답
  • 2 모평균과 표본평균은 산술평균에 속한다.
  • 3 평균은 모든 자료의 값이 다 반영되어 계산된다.
  • 4 가장 대표적인 중심경향도로 사용된다.
정답해설

평균은 모든 자료가 다 반영되어 도출되므로 극단적인 값에 영향을 받으므로 극단적인 값이 포함될 경우에는 적절한 대표치가 되지 못한다.

 

 

 

13 해외영업부 사원을 대상으로 동일한 영어 학습 교육을 수행하였으나 학습효과는 모두 달랐다. 어떠한 변수가 작용했기 때문이라고 볼 수 있는가? (획득 5 점 / 배점 5 점)

  • 1 독립변수
  • 2 종속변수
  • 3 매개변수
  • 4 조절변수 정답
정답해설

독립변수와(영어 교육) 종속변수(학습효과) 사이에서 강하고 불확실한 영향을 미치는 변수는 조절변수이다. 예를 들어 사원들의 영어 관심도에 따라 종속변수의 결과가 다르게 나타날 수 있는데, 이때 영어관심도가 조절변수에 해당한다.

 

 

 

14 다음 중 정성조사에 속하는 조사방법으로 보기 어려운 것은? (획득 5 점 / 배점 5 점)

  • 1 출구조사 정답
  • 2 집단심층면접조사 (FGI)
  • 3 에스노그라피
  • 4 고객가장관찰조사
정답해설

출구조사는 선거 등의 결과 예측에 주로 사용되며 선거를 마치고 나오는 다수의 유권자들에게 동일한 유형의 설문조사를 정량적으로 수행하는 것이다.

 

 

 

15 "다음 제시된 가전제품의 제조사에 대한 선호도를 1,2,3순위로 평가하여 주십시오" 라고 했다면 이는 어떤 자료 측정 방법이라고 할 수 있는가? (획득 5 점 / 배점 5 점)

  • 1 비율척도
  • 2 등간척도
  • 3 서열척도 정답
  • 4 명목척도
정답해설

서열척도에 대한 설명이다. 서열 자료의 수치도 명목 자료와 마찬가지로 자료를 구분하기 위한 것이지만 순위나 서열의 의미가 포함된 척도를 말한다.

 

 

 

16 다음 중 신뢰구간의 길이를 길게 하는 조건이라고 볼 수 없는 것은? (획득 5 점 / 배점 5 점)

  • 1 신뢰수준이 증가할 때
  • 2 표준오차가 커질 때
  • 3 표본의 크기가 커질 때 정답
  • 4 표본의 표준편차가 커질 때
정답해설

신뢰수준, 표준오차 등의 산포도가 커지면 신뢰구간의 길이는 길어지지만 표본의 크기는 커질수록 신뢰구간의 길이는 줄어든다.

 

 

 

17 대학 졸업 학점을 기준으로 신입사원을 선발하였다. 학점이 높았던 사원이 1년 뒤 인사고과에서도 높은 점수를 보였다. 어떠한 타당성이 높은 것인가? (획득 5 점 / 배점 5 점)

  • 1 동시타당성
  • 2 예측타당성 정답
  • 3 판별타당성
  • 4 집중타당성
정답해설

미래에 발생할 어떤 사건을 얼마나 잘 예측하는가는 예측타당성이며 대학 때 학점으로 업무능력을 예측한 것이므로 예측타당성이 높은 것이다.

 

 

 

18 결합확률분포표에서 이산확률변수인 X와 Y의 독립성 여부를 측정하는 과정에 대해 잘못 설명한 것은? (획득 5 점 / 배점 5 점)

  • 1 결합확률과 주변확률을 비교하여 독립성 여부를 검토할 수 있다.
  • 2 f(x,y) = f(x)f(y)일 경우 두 변수는 독립이다.
  • 3 f(x,y) ≠ f(x)f(y)일 경우 두 변수는 독립이 아니다.
  • 4 f(x,y) = f(x)f(y)일 경우 두 변수는 동시에 발생하지 않는다. 정답
정답해설

f(x,y) = f(x)f(y)일 경우 두 변수는 독립이며 발생 확률에 영향을 주지 않는다는 의미이지 동시에 발생하지 않는 것은 아니다.

 

 

 

19 가설검정에 대한 오류의 설명으로 잘못된 것은? (획득 5 점 / 배점 5 점)

  • 1 제 2종 오류는 귀무가설이 사실이 아닌데도 기각하지 못하는 경우이다.
  • 2 유의수준은 대립가설을 기각할 확률이다. 정답
  • 3 검정력이 높다는 것은 가설검정 결과에 대한 신뢰성이 높다는 것을 의미한다.
  • 4 표본의 크기를 증가시키면 1종 오류와 2종 오류를 동시에 감소할 수 있다.
정답해설

유의수준은 사실인 귀무가설을 기각할 확률이다.

 

 

 

20 다음 중 정량조사의 특성을 잘못 설명한 것은? (획득 5 점 / 배점 5 점)

  • 1 조사 문제가 비교적 명확하다.
  • 2 조사 결과의 일반화 가능성이 높다.
  • 3 탐색조사, 기술조사, 인과관계 조사에 다양하게 이용된다. 정답
  • 4 조사 대상자가 다수이다.
정답해설

탐색조사는 조사 문제가 불명확하여 소수를 대상으로 조사 문제를 파악하기 위해 수행하므로 정량조사는 적합하지 않다