개발/Data Science 47

Data Science - 이상치 & 결측치

1. 이상치 - 이상치 : 중심 경향성에서 멀리 떨어진 값 - 이상치의 처리 방법 1) 이상치 처리에 절대적인 기준은 없음 2) 대표적으로 Carling, Tukey 방법이 존재 3) 분포 기반으로 처리도 가능 2. 결측치 - 결측치 : 갑싱 기록되지 않고 비어있음 - 결측치의 처리 방법 1) 결측치 처리에 절대적인 기준은 없음 2) 단순 제거와 특정 값으로 대체하는 방식이 있음 3) 분석 데이터에서 결측치가 차지하는 비중이 낮은 경우 단순 제거하는 경우가 많음 3. 판다스 함수 - pandas - isna(), iusnull() 1) 결측치 원소를 True, 관측치를 False로 반환하는 메소드 2) 반대의 기능을 하는 메서드는 notna()와 notnull() - pandas - fillna() 1)..

개발/Data Science 2023.03.24

ADsP 생각 잘 안나는 단답형 정리

[1과목] 1. 인공 지능의 하위 범주로, 컴퓨터가 패턴 인식 작업을 개발하는 프로세스 또는 특정 프로그래밍 없이도 컴퓨터가 지속적으로 학습하고 데이터를 기반으로 예측하여 필요한 작업을 수행하는 능력을 의미하는 용어를 무엇이라 하는가? * 데이터 모델의 매개 변수를 자동으로 학습한다. * 훈련 데이터에서 최적의 매개변수를 찾고 시험 데이터를 사용해 모델의 실력을 평가한다. 2. 조직이나 기업의 인적 자원이 축적하고 있는 개별적인 지식을 체계화하여 공유함으로써 경쟁력을 향상시키기 위한 기업 정보시스템을 무엇이라 하는가? 3. 빅데이터 환경에서는 논리적인 (1) 분석 뿐만 아니라 (2) 또는 연관분석을 통하여 다양한 문제해결에 도움을 받을 수 있다. 즉 (1) 로부터 (2) 분석으로의 이동이 빅데이터 분석의..

개발/Data Science 2023.03.16

데이터분석 준 전문가(ADsP) 기출 34회 오답

[1과목 데이터 이해] 문제 1. 다음 중 빅데이터 분석의 특성에 대한 설명으로 옳지 않은 것은? 1) 더 많은 데이터가 더 많은 가치를 창출하는 것은 아니다. 2) 비즈니스의 핵심은 객관적이고 통찰력 있는 데이터를 추출하는 그것이 중요하다. 3) 분석적 방법과 성과에 대한 이해 부족은 빅데이터 과제에 대한 걸림돌이다. 4) 데이터 크기가 커질수록 더 많은 분석을 수행하는 것이 경쟁우위 확보의 원천이다. * 빅데이터가 가져다 주는 기회는 데이터의 크기에 있다기보다는 음성, 텍스트, 로그, 이미지나 비디오 같은 새롭고 다양한 정보 원천의 활용에 있다. [2과목 데이터 분석 기획] 문제 2. 분석 준비도의 분석 업무 영역이 아닌 것은? 1) 업무별 적합한 분석 기법 사용 2) 최적화 분석 업무 3) 발생한 ..

개발/Data Science 2023.03.15

데이터분석 준 전문가(ADsP) 기출 33회 오답

[1과목 데이터 이해] 문제 9. 기업의 의사결정을 지원할 수 있는 분석 정보를 제공하는 데이터베이스로 데이터의 주제 지향성, 통합성, 시계열성, 비휘발성을 특징으로 하는 데이터베이스를 무엇으로 하는가? - 데이터 웨어하우스 [2과목 데이터 분석기획] 문제 1. 다음 중 분석 프로젝트 관리방안에 관한 설명으로 적절하지 않은 것은? 1) 정확도는 실제로 TRUE인 비율 중 TRUE로 예측되었던 정도를 의미한다. 2) 정밀도는 TRUE로 예측한 비율 중 실제로 TRUE인 정도를 의미한다. 3) 분석의 활용적 측면에서는 정확도가 중요하고, 안정적인 측면에서는 정밀도가 중요하다. 4) 분석 모델의 정확도와 정밀도는 트레이드 오프(trade-off) 관계를 이룬다. *정확도는 실제 측정과 절대 측정 간의 일치 수..

개발/Data Science 2023.03.14

데이터분석 준 전문가(ADsP) 기출 32회 오답

[1과목 데이터 이해] 문제 4. 다음 중 딥러닝과 가장 관련 없는 분석 기법은? 1) LSTM 2) Autoencoder 3) SVM : Support Vector Machine 4) RNN [2과목 데이터 분석 기획] 문제 8. 기업의 데이터 분석 도입의 수준을 명확하게 파악하기 위한 방법으로 분석 준비도(Readiness)를 진단 할 수 있다. 다음 중 분석준비도를 측정하기 위한 요소로 가장 부적절한 것은? 1) 분석 업무 파악 2) 인력 및 조직 3) 분석 기법 4) 분석 성과 문제 10. 분석 수준 진단 방법 중 조직의 분석 및 활용을 위한 역량 수준을 파악하기 위해 도입 -> ( ) -> 확산 -> 최적화의 분석 성숙도 단계 포지셔닝을 파악하게 된다. 빈칸에 알맞은 용어는? - 답 : 활용 [..

개발/Data Science 2023.03.13

데이터분석 준 전문가(ADsP) 기출 31회 오답

[1과목 데이터 이해] 문제 10. 조직이나 기업의 인적 자원이 축적하고 있는 개별적인 지식을 체계화하여 공유함으로써 경쟁력을 향상시키기 위한 기업정보시스템을 무엇이라 하는가? - KMS(지식관리시스템) [2과목 데이터 분석 기획] 문제 4. 프로토타이핑 프로세스에 대한 설명 중 적절하지 않는 것은? 1) 가설 생성 2) 디자인에 대한 실험 3) 실제 환경에서의 테스트 4) 반복적 위험 분석을 수행하여 위험관리 개선 * 테스트 결과에서의 통찰 도출 및 가설 확인으로 구성 문제 9. 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 ()를 수행한다. ()는 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내/외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 ..

개발/Data Science 2023.03.12

데이터분석 준 전문가(ADsP) 기출 29회 / 30회 오답

29회 기출 문제 [1과목 데이터 이해] 문제 2. SQL 빈칸에 알맞은 구문은? select department_id 부서번호, round(avg(salary)) 평균급여 from employees group by department id ( ) avg(salary) 공분산 0이라고 해서 두 변수간 아무런 관계가 없다는 것은 아니다. 두 변수간에 비선형적인 관계가 존재할 수 있기 때문에, 두 변수 간의 관계를 파악하려면 공분산만으로 판단하기보다는 산점도를 그려서 시각적으로 파악하는 것이 좋다. 문제 15. 다음 중 로지스틱 회귀분석에 관한 설명 중 옳지 않은 것은? 1) 로지스틱 회귑분석의 모형 탐색은 최대 우도추정법을 이용한다. 2) 로지스틱 회귀분석은 독립변수에 대한 어떠한 가정도 필요하지 않다. ..

개발/Data Science 2023.03.11

데이터분석 준 전문가(ADsP) 기출 28회 오답

[2과목 데이터 분석 기획] 문제 9. 비즈니스 모델 관점에서는 해당 기업의 사업 모델을 도식화한 비즈니스 모델 캔버스의 9가지 블록을 다순화 하여 (1), (2), 고객 단위로 문제를 발굴하고, 이를 관리하는 두 가지의 영역인 규제와 감사 영역과 (3) 영역에 대한 기회를 추가로 도출하는 작업을 수행한다. (1) 업무 (2) 제품 (3) 지원인프라 문제 10. 소프트웨어 개발 및 전산장비 운영 업체들의 업무 능력 및 조직의 성숙도를 평가하기 위한 모델을 무엇이라 하는가? - 답 : 능력 성숙도 통합 모델 [3과목 데이터 분석] 문제 4. 상관분석에 대한 설명으로 틀린 것은? 1) 종속 변수에 미치는 영향력의 크기를 파악해 종속변수를 예측하는 선형모형 산출방법 2) 등분산성이라는 가정을 충족시켜야 한다...

개발/Data Science 2023.03.10

데이터분석 준 전문가(ADsP) 기출 27회 오답

[1과목 데이터 이해] 문제 9) 다음 중 빈칸 (1)(2)에 공통으로 들어갈 알맞은 용어는? - 빅데이터 환경에서는 논리적인 (1) 분석 뿐만 아니라 (2) 또는 연관분석을 통해 다양한 문제해결에 도움ㅇ르 받을 수 있다. 즉 (1)로부터 (2)분석으로의 이동이 빅데이터 분석의 주요 변화라고 할 수 있다. (1) : 인과관계 (2) : 상관관계 [2과목 데이터 분석 기획] 문제 5) CRISP-DM 분석방법론의 데이터 준비 단계의 Task가 아닌 것은? 1) 데이터 정제 2) 데이터 통합 3) 데이터 탐색 4) 분석용 데이터셋 선택 *CRISP-DM 분석 절차 1) 업무 이해 : 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 2) 데이터 이해 : 초기 데이터 수집, 데이터 ..

개발/Data Science 2023.03.09

데이터분석 준 전문가(ADsP) 기출 26회 오답

[3과목 데이터 분석] 문제 8. 판별분석에 대한 설명 중 올바르지 않는 것은? 1) 피어슨 상관계수를 이용하여 선형판별함수를 도출한다. 2) 판별분석은 모수통계에서의 분류 기법 중 하나로 대표적인 지도학습 모델링 기법이다. 3) 변수들 간의 분산 - 공분산 행렬은 동일하다는 가정을 전제로 한다. 4) 소속집단이 불명확할 때 특정 변수가 속한 집단을 예측하는 분석방법이다. - 판별분석이란 분류에 사용되는 머신러닝 방법 중 하나로 두 개 이상의 모집단에서 추출된 표본들의 정보를 활용하여, 이 표본들이 어떤 집단에서 추출된 것인지 결정할 수 있는 기준을 찾는 분석법이다. - 판별변수는 표본이 어떤 집합에 속하는지 판별하기 위한 변수로, 데이터에 포함된 독립변수 중 판별력이 높은 변수이다. - 선택한 판별변수..

개발/Data Science 2023.03.08
반응형