본문 바로가기
방통대

방통대 빅데이터의 이해와 활용 동영상 강의 연습 문제 정리

by 4.5/4.5 2024. 12. 1.
반응형

1강 빅데이터의 개요 1

1. WISE 피라미드는 데이터로부터 정보, 지식과 지혜를 만들어 가는 과정을 표현한 것이다.

1) O

2) X

정답: X

해설: DIKW 피라미드는 데이터로부터 정보, 지식과 지혜를 만들어 가는 과정을 표현한 것이다.

2. 빅데이터는 거대한 크기를 가진 정형 데이터로 생성-유통-소비가 빠르게 일어나 기존 방식으로 관리·분석이 어려운 데이터 집합이다.

1) O

2) X

정답: X

해설: 빅데이터는 거대한 크기를 가지고, 다양한 비정형 데이터를 포함하며, 생성-유통-소비가 빠르게 일어나 기존 방식으로는 관리·분석이 어려운 데이터 집합이다.

3. 다음 중 빅데이터의 5V와 가장 거리가 먼 것은?

1) Value

2) Volume

3) Velocity

4) Volatility

정답: 4

해설: 빅데이터를 규모(Volume), 다양성(Variety)과 속도(Velocity) 등 3V로 우선 정의하는데, 여기에 정확성(Veracity)과 가치(Value)를 추가하여 5V로 정의한다.

4. 빅데이터가 확산된 배경과 가장 거리가 먼 것은?

1) 스마트폰의 확산
2) 클라우드 컴퓨팅의 확산
3) 유무선 네트워크 환경 고도화
4) 개인정보보호법 제정

정답: 4
해설: 개인정보보호법 제정은 빅데이터의 확산 배경이라기 보다는 빅데이터 확산의 결과이다.

2강 빅데이터의 개요 2

  1. 빅데이터 시대의 데이터분석은 좋은 데이터에 공정한 규칙 기반 통계모형을 적용, 얻은 결과가 최상”이라는 과정 중심이다.

1) O
2) X

정답: X
해설: 빅데이터 시대의 데이터분석은 “무엇인지는 설명할 수 없지만, 데이터로부터 좋은 결과(예측력이 좋은)를 내는 모형이 새로운 데이터에서 좋은 성과를 내는 모형”이라는 결과 중심이고, 빅데이터 시대 이전의 데이터분석이 과정 중심이다.

  1. 데이터과학자는 데이터 수집·보관·저장·관리·정제하고, 관련 컴퓨팅 환경을 제공하는 일을 한다.

1) O
2) X

정답: X
해설: 데이터 수집·보관·저장·관리·정제하고, 관련 컴퓨팅 환경을 제공하는 일을 하는 사람은 데이터 공학자이다.

  1. 다음 중 가장 바르게 기술한 것은?

1) 데이터의 가치는 최신일수록, 다른 데이터와 결합할수록 높아진다.
2) 데이터의 가치는 오래될수록, 다른 데이터와 결합하지 않을수록 높아진다.
3) 데이터의 가치는 최신일수록, 다른 데이터와 결합하지 않을수록 높아진다.
4) 데이터의 가치는 오래될수록, 다른 데이터와 결합할수록 높아진다.

정답: 1
해설: 데이터의 가치는 최신일수록, 모일수록, 사용할수록, 정확할수록, 다른 데이터와 결합할수록 높아진다.

3강 빅데이터의 수집과 활용 1

  1. 구글 독감 트렌드에 대해 가장 바르게 기술한 것은?

1) 구글 독감 관련 키워드의 검색 트렌드
2) 구글 독감 환자 검색 트렌드
3) 구글 독감 관련 키워드의 검색 수와 독감 증상이 있어서 병원을 방문한 환자 수 간의 관계를 바탕으로 독감 유행 수준의 실시간 예측 서비스
4) 독감 환자 수를 시계열 모형으로 예측한 서비스

정답: 3
해설: 구글 독감 트렌드는 구글 독감 관련 키워드의 검색 수와 독감 증상이 있어서 병원을 방문한 환자 수 간 관계를 바탕으로 독감 유행 수준 실시간 예측한 서비스

  1. API(Application Programming Interface)는 외부 개발자·사용자들이 사용할 수 있도록 하는 프로그래밍 인터페이스이다.

1) O
2) X

정답: O

  1. 구글 북스(books)에서 키워드의 시간적 흐름을 살펴볼 수 있는 서비스는?

1) Ngram Viewer
2) Trend
3) Datalab
4) Tracker

정답: 1
해설: Ngram Viewer는 구글 북스 탐색 서비스이다.

4강 빅데이터의 수집과 활용 2

  1. 빅카인즈는 한국언론진흥재단이 언론사들로부터 수집한 뉴스 통합 데이터베이스에 분석 접목하여 개발한 뉴스 분석 서비스이다.

1) O
2) X

정답: O

  1. MIT Billion Price 프로젝트는 리고본리와 카벨로(R. Rigobonry and A. Cavallo)가 쇼핑몰 가격을 웹 스크래핑하여 데이터베이스를 만들고 이를 바탕으로 실시간 주가지수를 작성한 프로젝트이다.

정답: X
해설: MIT Billion Price 프로젝트는 실시간 물가지수를 작성한 프로젝트이다.

  1. 2020년 코로나 19 감염증이 확산하는 초기에 마스크 판매 관련 앱을 만들어서 문제를 해결할 때 마스크 판매현황 데이터를 수집한 곳은?

정답: 3
해설: 당시 공적 마스크는 약국을 통해 개인별로 배정했고, 약국을 통해 판매현황 데이터가 입력된 데이터는 건강보험심사평가원에 축적되어 제공되었다.

5강 텍스트 빅데이터

  1. 다음 중 자연어 처리로 할 수 있는 일과 관계가 없는 것은?

1) 새로 발표된 정부의 부동산 정책에 대해 사람들이 소셜미디어에 올린 의견을 분석하였다.
2) 카페에서 로봇에게 커피를 주문했다.
3) 올해 주가를 분석하여 내년 전망을 예측했다.
4) 뉴욕타임즈 영문 기사를 구글 트랜슬레이터로 번역하여 한글로 읽어보았다.

정답: 3
해설: 주가 분석에 사용되는 데이터는 숫자이기 때문에 자연어 처리를 하지 않는다.

  1. TF-IDF는 각 문서를 대표하는 중요한 단어를 찾는데 적합한 알고리즘이기 때문에 문서를 검색하는데 주로 사용된다.

1) O
2) X

정답: O
해설: TF-IDF는 단어의 중요도를 단순히 빈도수를 바탕으로 계산을 하는 것이 아니라, 각 문서에서 얼마나 중요한 지를 계산하기 때문에 문서의 검색, 챗봇에서 답변의 탐색 등에 사용된다.

  1. 지문과 같이 단어사전이 구축되어 있을 때 제시된 단어의 원-핫 인코딩 행렬을 구하시오.

정답: [0, 0, 0, 0, 0, 0, 1, 0, 0, 0]
해설: ‘집합’이라는 단어의 인덱스는 6이어서 인덱스 6 자리에만 1을 표기하고 나머지는 0으로 표기한다.

6강 데이터 시각화

  1. 다음 중 시계열 데이터를 표현하기에 적합하지 않은 시각화는 무엇인가?

1) 선 그래프
2) 점 그래프
3) 네트워크 그래프
4) 버블 그래프

정답: 3
해설: 네트워크 그래프는 관계를 표현하기에 적합한 그래프이다.

  1. 소셜 네트워크의 시각화에서 행위자들은 ( 가 ) 혹은 ( 나 )로 표현되고, 두 ( 가 또는 나 )를 연결하는 선을 ( 다 ) 혹은 ( 라 )라고 부른다.

정답: 소셜 네트워크의 시각화에서 행위자들은 버티스 혹은 노드로 표현되고 노드와 노드사이에 연결이 이루어질 때 두 노드를 연결하는 선을 엣지 혹은 링크라고 부르고 노드와 엣지의 관계를 그림으로 표현한 것을 그래프라고 부른다.

  1. 단어의 공출현(co-occurrence) 네트워크 시각화는 서로 다른 문장에 등장하는 단어들을 엣지(링크)로 연결한 것이다.

1) O
2) X

정답: X
해설: 단어의 공출현 네트워크 시각화는 같은 문장 혹은 같은 문서에 함께 등장한 단어들을 엣지(링크)로 연결하여 그린다. 같은 문장 (혹은 문서)에 함께 출현하는 단어는 같은 생각을 전달한다고 가정하고 있다.

7강 추천 시스템

  1. 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 연관성에 대한 규칙을 발견하기 위해 적용되며 마케팅에서는 손님의 장바구니에 들어 있는 품목 간의 관계를 알아본다는 의미에서 장바구니 분석이라고도 부르는 분석은 무엇인가?

1) 앙상블 방법

2) 협력적 정화방법

3) 연관규칙 분석

4) 군집분석

정답: 3
해설: 연관규칙분석은 데이터에 존재하는 항목(item)들간의 if-then 형식의 연관규칙을 찾는 방법이다. 연관규칙분석은 흔히 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 연관성에 대한 규칙을 발견하기 위해 적용된다.

  1. 개인의 선호도와 과거 상품 구매 이력 등을 분석하여 개인에게 최적인 상품을 추천을 위한 통계적 방법은 무엇인가?

1) 협력적 정화방법
2) 앙상블 방법
3) k 평균 군집 방법
4) 계층적 군집 방법

정답: 1
해설: 협력적 정화방법은 개인화된 추천을 위한 통계적 방법이다.

  1. 상품들 사이의 유사성 척도를 구한 후, 관측되지 않은 rui를 i번째 품목과 유사한 상품들의 고객 uu의 선호도를 이용하여 추정하는 방법은 무엇인가?

1) 고객 중심 협력적 정화방법
2) 행렬분해를 이용한 협력적 정화방법
3) 연관규칙분석방법
4) 품목 중심 협력적 정화방법

정답 : 4
해설: 품목중심의 협력적 정화방법은 상품들 사이의 유사성 척도를 구한 후, 관측되지 않은rui를 i번째 품목과 유사한 상품들의 고객 uu의 선호도를 이용하여 추정한다.

  1. 연관규칙이 유용한 규칙일 필요조건에 대한 측도로 연관규칙의 ( )는 전체 거래들 중 품목 X와 품목 Y를 동시에 포함하는 거래의 비율로 정의된다.

1) 지지도
2) 신뢰도
3) 향상도
4) 선호도

정답: 1
해설: 지지도는 전체 거래들 중 품목 X와 품목 Y를 동시에 포함하는 거래의 비율이다.

8강 기계학습

  1. 빅데이터를 활용해 정보를 알아내는 것으로, 컴퓨터가 자동으로 새로운 지식을 학습하게 하는 방법론은?

1) 군집분석
2) 역전파 알고리즘
3) 로그가능도
4) 기계학습

정답: 4
해설: 기계학습은 컴퓨터가 빅데이터로부터 자동으로 지능에 대한 정보를 얻어내는 방법이다.

  1. 생물과 인간의 뇌 구조를 모방하여 만든 수학/공학적 모형으로 입력값과 출력값 사이의 함수를 복잡한 형태의 비선형으로 가정한 모형은?

1) 선형모형
2) 부스팅
3) 인공신경망
4) 군집분석

정답: 3
해설: 인공신경망은 뇌 구조를 모방하여 만든 기계학습 모형으로, 입력층과 출력층 사이 여러 개의 비선형 은닉층을 사용한다.

  1. 시각인지과정을 모방한 신경망 모형 중 하나로 이미지 분류문제 또는 분석에서 뛰어난 성능을 보이는 딥러닝 모델은?

1) RNN
2) 덴드로그램
3) CNN
4) Ensemble

정답: 3
해설: CNN 모델은 컴퓨터 비전(Computer vision)분야에서 이미지 검색, 식별 등에 뛰어난 성능을 보이는 인공신경망 모형이다.

  1. 비지도학습 방법 중 하나인 차원 축소에 활용되는 오토인코더(Auto-encoder)에 대한 설명으로 옳은 것은?

1) 오토인코더는 인코더와 디코더를 거쳐 나온 출력 데이터가 입력 데이터와 최대한 비슷하게 하는 목적 함수로 학습한다.
2) 오토인코더는 여러 개의 약한 예측 모형(weak learner)들을 활용하는 방법 중 하나이다.
3) 오토인코더는 주성분을 선형으로 표현하여 차원을 축소하는 방법이다.
4) 가장 대표적인 모형으로는, 구글에서 개발한 버트(BERT) 등이 있다.

정답: 1
해설: 오토인코더는 차원 축소를 위한 인코더와 입력 데이터 복원을 위한 디코더를 거쳐 나온 출력 데이터가 입력 데이터와 최대한 비슷하게 하는 목적 함수를 사용한다.

9강 빅데이터 의사결정 1

  1. 메킨지가 실시한 기업들의 빅데이터 경영 환경 변화 인식 조사에서 기업들은 “그 동안 사용하지 않던 데이터를 사용해 통찰력을 도출”하는 것이 가장 많은 변화라고 응답했다.

1) O
2) X

정답: X
해설: “경쟁사들이 데이터 기반 상품과 서비스를 출시한다”는 응답이 수위를 차지하였다.

  1. 앱이나 웹사이트에서의 고객 등록 정보, 온라인 설문조사 등은 이제 기장 기본적인 고객 데이터 소스이다.

정답: O
해설: 홈페이지나 앱을 통해 고객이 해당 기업을 처음 접촉하는 경우가 일반화되면서 이러한 소스들은 고객 정보의 원천이 되고 있다.

  1. 다음 중 빅데이터와 기업의 경영성과에 대한 설명 중 적절한 것은?

1) 빅데이터가 기업의 경영성과에 긍정적인 영향을 미친다는 실증적인 증거는 아직 발견되지 않았다.
2) IT 컨설팅 업체인 캡제미니의 조사결과 빅데이터를 적극적으로 활용하는 기업과 그렇지 않은 기업 간에 직원당 수익, 고정 자산 회전율, 수익성 등에서는 큰 차이가 없었다.
3) 경영 컨설팅 업체 메킨지의 조사 결과 응답자의 47%는 데이터와 분석이 지난 3년 동안 해당 산업의 경쟁 특성을 크게 또는 근본적으로 변화시켰다고 말했다.
4) 2011년 MIT 경영대학원의 경제학자 에릭 브린욜프슨(Erik Brynjolfsson)의 연구에 따르면 데이터 및 분석에 기반한 의사결정을 강조하는 기업은 의사결정을 위해 직관과 경험에 의존하는 기업보다 성과 면에서 50~60% 더 나은 결과를 보였다.

정답: 3
해설: 이런 수치는 이전 설문조사 이후로 무려 38%나 증가한 수치임. ④는 성과 면에서 50

60%가 아닌 5

6% 향상되었다.

  1. 다음 중 BCG가 말한 빅데이터를 활용한 가치창출의 3가지 핵심 과정에 속하지 않는 것은?

1) 데이터의 확보
2) 통찰력의 창출
3) 의사결정의 실행
4) 외부 데이터의 공유

정답: 4
해설: 외부 데이터의 공유는 데이터 확보의 한 방법으로, 내부 데이터의 활용 등 다양한 데이터 확보 방법이 존재한다.

10강 빅데이터 의사결정 2

  1. 서술적 분석은 탐색적 분석(exploratory analytics)이라고도 하며 사업 분야에서 발생한 사건 혹은 관심 사항들의 원인을 찾는 분석이다.

정답: X
해설: 관심 사항의 원인을 찾고 탐색적 분석이라고도 불리는 분석 단계는 진단적 분석 단계이다.

  1. 처방적 분석은 다양한 대안과 시나리오를 기반으로 어떤 일이 일어날지 이해하고 최상의 옵션을 선택하며 앞으로 일어날 일을 최적화하는 데 중점을 둔다.

정답: O
해설: 처방적 분석은 무엇이 최선의 해결책인가? 'What’s the Best that Can Happen?'를 찾는 단계이다.

  1. 빅데이터 의사결정 4단계 중 각종 모델링 기법을 사용하여 앞으로 일어날 일에 대한 통찰력을 제공하기 위해 미래를 내다보고 가정 시나리오와 위험 평가에 중점을 두는 단계는?

1) 서술적 분석
2) 진단적 분석
3) 예측적 분석
4) 처방적 분석

  1. 한 소매업체에서 지난 달의 고객 수, 제품별 판매액 등을 참고해서 진열대의 상품 구성과 배치를 조정했다면 이는 빅데이터 의사결정의 분석 수준에서 어느 수준의 데이터 활용이라고 할 수 있는가?

1) 서술적 분석
2) 진단적 분석
3) 예측적 분석
4) 처방적 분석

정답: 1
해설: 데이터를 분석해 어떤 제품이 왜 많이 판매 되었는지나 그럴 가능성을 예측하는 대신 과거의 판매 실적을 바탕으로 사람이 판단하는 것은 서술적 분석 수준의 데이터 활용이다.

11강 빅데이터 기업 경영 1

  1. 관리회계에서 빅데이터는 잠재적 회계부정의 식별, 더 나은 회계 데이터의 구성, 재무제표에 대한 감사의견 예측 등에 사용될 수 있다.

정답: O
해설: 관리회계의 주요 기능은 다양한 도구를 사용하여 재무회계 정보를 분석, 측정하고 조직의 목표를 달성할 수 있도록 의사결정을 위해 관리자에게 해석을 제공하는 것이다.

  1. 생산운영관리에서 빅데이터가 가장 많이 활용되는 3분야는 품질 관리, 장비 유지 관리, 공급망 관리이다.

정답: O
해설: 생산운영관리에서 빅데이터 분석은 재고관리 및 재고 수준 최적화에서 유지 관리 최적화 및 시설 위치에 이르기까지 다양한 의사결정에 사용된다.

  1. 잠재적 회계부정의 식별, 더 나은 회계 데이터의 구성 등이 빅데이터로 가능해진 경영관리 분야는?

1) 관리회계
2) 재무회계
3) 투자관리
4) 위험관리

정답: 1
해설: 다양한 도구를 사용하여 재무 정보를 분석 및 측정하고 조직의 목표를 달성할 수 있도록 의사결정을 위해 재무 관리자에게 해석을 제공하는 관리회계에 해당되는 내용이다.

  1. 다음 중 개인에 관한 대체신용평가에 사용되는 데이터가 아닌 것은?

1) SNS 데이터
2) 이동통신사 데이터
3) 신문 기사
4) 각종 앱 사용 내역

정답: 3
해설: 신문기사를 통해 일반 개인에 대한 데이터를 확보하는 것은 불가능하다.

12강 빅데이터 기업 경영 2

  1. 국내 ㈜너울정보라는 회사는 반려견 목거리로 디지털 음성 데이터를 만들어 내어 사업화한, 빅데이터 창출형 비즈니스 모델을 실현하고 있다.

정답 : O
이 회사의 목거리는 반려견이 내는 각종 소리를 빅데이터로 처리해 감정 상태, 즉 안정-불안-분노-슬픔-행복 등 5가지 상태를 찾아주는 솔루션을 제공한다.

  1. 한국데이터산업진흥원의 조사에 따르면 국내 기업들이 마케팅 분야에서 빅데이터를 가장 많이 활용하는 분야는 “신상품 및 서비스 개발”이었다.

정답 : X
가장 많은 활용되는 분야는 “고객 관리 및 모니터링”으로 조사되었다.

  1. 고객이 기업의 상품/서비스를 이용하는 그 순간 및 전후의 과정에서 다양한 채널들을 어떻게 이용하고 있는 지를 파악하는 것을 무엇이라고 하는가?

1) 고객 여정 분석
2) 고객 맞춤화
3) 고객 니즈 분석
4) 고객 세분화

정답 : 1
고객 여정 분석은 고객 경험(혹은 고객 만족도)을 향상시켜 기업이 평생 동안 고객으로부터 얼마를 벌 계획을 세울 수 있는지를 의미하는 고객 생애 가치의 극대화를 목표로 한다.

  1. 국내 스타트업인 제네시스랩(Genesis Lab)의 AI 기술인 '뷰인터HR'이 적용된 분야는?

1) 직원 성과 평가
2) 인재 채용
3) 직무 훈련
4) 직원 배치

정답 : 2
해당 기술은 적절한 인재 선발을 위해 면접자의 비언어적 행동 분석과 역량 평가를 행한다.

13강

  1. 다음 중 하둡 맵리듀스에서 사용하는 요소가 아닌 것은?

1) name node
2) reducer
3) combiner
4) mapper

정답 : 1
네임노드는 하둡 분산 파일 시스템의 구성요소이다.

  1. 다음 중 NoSQL 데이터베이스가 아닌 것은?

1) Pandas
2) MongoDB
3) 아파치 HBase
4) Cassandra

정답: 1
해설: Pandas는 Python 라이브러리이다.

  1. 스파크(Spark)에 대한 설명 중 가장 바른 것은?

1) 대용량 데이터 처리를 위해 만들어진 스칼라(Scala), 인-메모리 기반 오픈소스 프레임워크
2) 대용량 데이터 처리를 위해 만들어진 스칼라, 디스크 기반 오픈소스 프레임워크
3) 대용량 데이터 처리를 위해 만들어진 파이선(Python), 인-메모리 기반 오픈소스 프레임워크
4) 대용량 데이터 처리를 위해 만들어진 파이선, 디스크 기반 오픈소스 프레임워크

정답: 1
해설: 스파크는 대용량 데이터 처리를 위해 만들어진 Scala, 인-메모리 기반 오픈소스 프레임워크이다.

14강 빅데이터 기술 2

  1. 다음 중 대스크(Dask)의 계층 구성 요소가 아닌 것은?

1) 스케줄러
2) 대스크 Delayed 객체
3) 구글 파일 시스템
4) 대스크 배열

정답 : 3
구글 파일 시스템은 구글의 독자적 파일시스템이다.

  1. 빅데이터를 파이선(Python)으로 통계분석하는데 제약조건에 대해 바르게 기술한 것은?

1) 파이선은 모든 데이터를 메모리에 올려서 처리하기 때문에 빅데이터를 분석하는 데에는 한계가 있다.
2) 파이선은 모든 데이터를 하드디스크에 올려서 처리하기 때문에 빅데이터를 분석하는 데에는 한계가 있다.
3) 파이선은 빅데이터를 분석할 수 있는 함수가 없기 때문에 빅데이터를 분석하는 데에는 한계가 있다.
4) 파이선은 빅데이터를 읽을 수 있는 함수가 없기 때문에 빅데이터를 분석하는 데에는 한계가 있다.

정답: 1
해설: 파이선은 모든 데이터를 메모리에 올려서 처리하기 때문에 빅데이터를 분석하는 데에는 한계가 있다.

15강

  1. 프라이버시(privacy)는 개인의 사생활 또는 남에게 알려지지 않거나 간섭받지 않을 권리이다.

정답 : O

  1. 옵트아웃(Opt-out) 방식은 개인에게 개인정보 수집에 대해 사전 동의를 받는 개인정보 이용 동의 방식이다.

정답 : X
옵트인 방식이 개인에게 개인정보 수집에 대해 사전 동의를 받는 개인정보 이용 동의 방식이다.

  1. 1) k-익명성 모형
    2) l-다양성 모형
    3) t-근접성 모형
    4) 차분 프라이버시 모형

정답 : 1
k-익명성 모형은 동일한 속성을 가지는 관측치가 일정 숫자 이상 있도록 하여 프라이버시를 보호하는 모형이다.

반응형