개발/Data Science

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-기출 15회

huiyu 2023. 2. 28. 06:42

ADsP 기출 15회
 문제 3) 다음 중 확률분포에 대한 설명 중 가장 적절하지 않은 것은?
  1) 확률변수란 표본공간의 각 원소에 하나의 실숫값을 대응시켜주는 함수이다.
  2) 확률변수가 취할 수 있는 값이 유한하거나 또는 무한히 많더라도 하나씩 셀 수 있는 경우를 이산형 확률변수라고 한다.
  3) 이산확률변수의 확률분포를 나타내는 함수를 확률밀도함수라고 한다.
  4) 겨로가가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행이라고 한다.

* 확률밀도함수는 연속형 확률변수의 확률분포를 의미한다.

 문제4) 다음 중 추정에 대한 설명 중 가장 적절하지 않는 것은?
  1) 구간추정은 일정한 구간을 두어 추정하는 것으로서 단측(one-sided) 구간추정과 양측(two-side)구간 추정으로 나뉜다.
  2) 정규분포가 아닌 경우 구간추정을 사용할 수 없다.
  3) 추정치(estimate)는 표본의 자료로 구한 추정량의 구체적 수치 값을 뜻한다.
  4) 점 추정은 미지의 분포에 대하여 가장 근사한 단일 값을 구하는 것이다.

* 자료가 관찰된 모집단의 분포가 정규분포가 아닌 경우에도 중심극한 정리(Central limit theorem)에 의하여 구간추정이 가능하다.

문제 5) 다음 중 데이터 시각화에 대한 설명 중 가장 적절하지 않는 것은?
  1) 줄기잎 그림은 각 데이터의 점들을 구간단위로 요약하는 방법으로 계산량이 많고 자료가 많은 경우 나타내기가 쉽다.
  2) 히스토리그램은 어떠한 변수에 대해서 구간별 빈도수를 나타낸 그래프다.
  3) 파레토그림(Pareto diagram)은 불량, 결점, 고장 등의 발생 건수를 분류항목별로 나누어 불량 개수나 손실금액 등을 크기 순서대로 나열 후 막대 그래프로 나타낸 그림을 말한다.
  4) 상관관계에서 산점도는 두 개 변수 간의 관계를 통해 선형 또는 비선형의 형태와 같은 수학적 모델을 확인해봄으로써 그 방향성과 강도를 조사할 수 있다.

* 줄기잎 그림은 각 학생들이 가지고 있는 정보나 내용은 무엇인지 알 수가 없고, 자료가 많은 경우 시각화하기 힘들며, 줄기의 수를 줄이거나 늘리면 분포의 모양도 달라지는 단점이 있다.

문제 6) 다음 중 상관계수에 대한 설명으로 가장 부적절한 것은?
 1) 피어슨 상관계수는 두 변수간의 선형관계의 크기를 의미한다.
 2) 스피어만 상관계수는 두 변수간의 비선형관계 측정도 가능하다.
 3) 피어슨 상관계수의 범위는 -1<=r<=1
 4) 피어슨 상관계수는 두 변수를 순위로 변환시킨 후, 두 순위 사이의 스피어만 상관계수수로 정의된다.
* 스피어만 상관계수는 상관계수를 계산할 두 데이터의 실제 값 대신 두 값의 순위를 사용해 상관 계수를 계산하는 방식이다.

문제 8) 회귀분석의 잔차분석 결과 'U'곡선 패턴을 나타날 때 해결 방안은?
 1) 이차항을 모형에 추가
 2) 변수 통합
 3) 능형회귀
 4) 변수 제거
 * 잔차분석의 U형태는 회귀분석 가정에 선형성을 위배했다는 증거이다. 따라서 이차항을 회귀분석함수인 lm()함수에 추가해서 회귀분석을 실시한다.

문제 10) 다음 중 시계열 모형에 대한 설명으로 부적절한 것은?
  1) 과거 자료가 현재 자료에 영향을 주는 모형을 자기회귀모형이라고 한다.
  2) 현재 자료를 과거의 백색잡음의 결합으로 나타내는 모형을 이동평균모형이라고 한다.
  3) 정상성을 만족하지 않느 시계열 자료는 모형화할 수 없다.
  4) 계절성을 갖는 비정상 시계열은 계절차분을 이용해 정상 시계열로 바꿀 수 있다.
 * 비정상 시계열은 변환이나 차분을 통해 정상시계열로 변환할 수 있다.

문제 11) 다음 중 시계열을 구성하고 있는 요소 4가지에 대한 설명으로 가장 부적절한 것은?
  1) 추세 요인 - 자료가 엄떤 특정한 형태를 취할 때 추세요인이 있다고 한다.
  2) 계절 요인 - 고정된 주기에 따라 자료가 변화할 경우 계절요인이 있다고 한다.
  3) 순환 요인 - 경제적이나 자연적인 이유 등 잘 알려진 주기를 가지고 자료가 변화할 떄 순환요인이 있다고 한다.
  4) 불규칙 요인 - 추세, 계절, 순환 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인을 불규칙 요인이라고 한다.
 * 경제적이거나 자연적인 이유가 없이 알려지지 않느 주기를 가지고 자료가 변화할 떄 순환요인이 있다고 한다.

문제 12) 아래 표는 불순도 측정 결과이다. 지니 지수는 얼마인가? 

◆ㅇㅇㅇㅇ

* 지니 지수 : 불순도 측정 지표, 값이 작을수록 순수도가 높음(분류가 잘됨)
   Gini(T) = 1- ∑(각 범주별수/전체수)^2
-> 1 - (1/5)^2 - (4/5)^2 = 0.32

문제 15) 인공신경망의 은닉층 노드가 너무 적으면 발생하는 문제는?
 1) 네트워크가 복잡한 의사결정 경계를 만들 수 없다.
 2) 네트워크의 일반화가 어렵다.
 3) 훈련용 데이터에서는 만족스러운 결과를 보여주나, 실제 적용에서는 분류가 정확하지 않은 모형의 과적합 현상을 일으키는 경우 발생
 4) 출력층 노드의 수는 입력 차원의 수로 결정한다
* 2)3)은 은닉 노드수가 너무 많을 떄 발생, 출력층 노드수는 출력범주의 수로 결정

문제 16) 반응변수가 범주형이 경우 적용하는 회귀분석 모형은?
  1) 로지스틱 회귀분석
  2) 다중회귀분석
  3) 판별 분석
  4) 랜덤포레스트

문제 17) 군집분석에서 사용되는 거리(Distance)개념으로 두 지점의 단순한 거리뿐만 아니라, 표준편차와 상관계수를 함꼐 고려되는 거리로 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리는?
  1) 유클리드 거리
  2) 표준화 거리
  3) 민코프스키 거리
  4) 마할라노비스 거리
 * 마할라노비스 거리 : 평균과의 거리가 표준편차의 몇 배인지를 나타내는 값

문제 18) 저차원(2차원 내지 3차원) 격자에 고차원 데이터의 각 개체들이 대응하도록 인공신경망과 유사한 방식의 학습을 통해 군집을 도출해내는 기법을 무엇이라고 하는가?
  1) 자기조직화지도(SOM)
  2) 다차원척도법(MDS)
  3) 인공신경망(ANN)
  4) 로지스틱회귀분석

문제 21) k-means 군집 분석에 대한 설명으로 가장 적절하지 않은 것은?
  1) 초기 군집의 중심으로 k개의 객체를 임의로 선택한다.
  2) 각 자료를 가장 가까운 군집 중심에 할당한다.
  3) 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신한다.
  4) 군집의 중심 변화가 자료의 95%이상 변화가 없으면 군집분석을 종료한다.
* 군집중심의 변화가 없을떄까지 반복한다.

문제 22) 군집분석의 유사도 측도에 대한 설명 중 가장 적절하지 않은 것은?
  1) 자카드 지수는0 과 1 사이의 값을 가지며, 두 집합이 동일하면 1의 값을 가지고, 공통의 원소가 하나도 없으면 0의 값을 가진다.
  2) 코사인 유사도는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사도 정도를 의미한다.
  3) 유클리드 거리는 두 점을 잇는 가장 짧은 직선 거리를 의미한다.
  4) 피어슨의 상관계수는 각 변수를 해당 변수의 표준편차로 척도 변환한 후에 유클리어드 거리를 계산한 거리이다.
* 4) 표준화 거리에 대한 설명

문제 24) 다음 중 신경망 분석에 대한 설명으로 부적절한 것은?
  1) 은닉층과 은닉마디의 적절한 개수를 결정하기 어렵다.
  2) 효과적인 결합함수와 활성함수를 선택해야 한다.
  3) 독립변수 간 교호작용을 쉽게 파악할 수 있다.
  4) 가중치 초기값에 따라 전역해에 도달하지 못할 수도 있다.

* 3)은 의사결정나무의 장점

단답형)
문제 25) 최적 회귀방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을떄까지 설명변수를 제거하는 방법은?
 - 후진 제거법
* 전진선택법

문제 26) 분류분석의 모형평가 방법으로 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 등급별로 파악하는 그래프는 무엇인가?
 - 향상도 곡선

문제 27)모형평가 지표 중 범주 불균형 문제를 가지고있는 자료에 대해서 실제값이 FALSE인 관측지 중 예측치가 적중한 정도를 의미하는 모형평가 지표는?
 - 특이도

문제 28) 제3사분위수보다 큰 자료는 몇 %인가?
 - 25%

 

 

728x90
반응형