본문 바로가기
ADsP Study

ADsP) 1-2. 데이터의 가치와 미래

by @0-0 2023. 2. 21.
반응형

* 블로그 요약본과 기출문제를 참고해 작성했습니다 =)

                   :  출제 문제

                   :  추가 정보

 

 

1. 데이터의 이해

1-1. 데이터의 이해

1-2. 데이터의 가치와 미래

     - 빅데이터의 이해

     - 비즈니스 모델

     - 위기 요인과 통제 방안

     - 미래의 빅데이터

1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

2. 데이터 분석 기획

2-1. 데이터 분석 기획의 이해

2-2. 분석 마스터플랜

3. 데이터 분석

3-1. 데이터 분석 개요

3-2. R 프로그래밍 기초

3-3. 데이터 마트

3-4. 통계분석

3-3. 정형 데이터 마이닝

 

 

빅데이터의 이해

 

# 빅데이터의 정의

- 3V로 요약되는 데이터 자체 특성 변화에 초점 맞춘 좁은 범위의 정의

   . Volume (양) : 데이터의 규모 측면

   . Variety (다양성) : 데이터의 유형과 소스 측면

   . Velocity (속도) : 데이터의 수집과 처리 측면

  +  Veracity(정확성)  X   ← 헷갈리지 말 것!

- 데이터 자체와 처리, 분석, 기술적 변화까지 포함되는 중간 범위의 정의

   . 새로운 처리, 저장, 분석 기술 및 아키텍처   (ex. 텍스트 마이닝)

   . 클라우드 컴퓨팅 활용  : 빅데이터 분석에 경제성을 제공해 준 결정적인 기술

- 인재, 조직 변화까지 포함한 넓은 관점에서의 정의

   . 새로운 인재 필요

   . 데이터 중심 조직

- 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처

 

 

# 빅데이터의 출현 배경

- 빅데이터 현상은 새로 등장한 것이 아닌, 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 뜻함

- 분산처리 기술(ex. 하둡)의 발전

- 통신 기술(ex. M2M, IoT)의 발전

- SNS(ex. 트위터, 페이스북)의 급격한 확산

 

 

# 빅데이터의 출현에 따른 변화

- 기존 방식으로는 얻을 수 없었던 통찰, 가치 창출, 사업방식, 시장, 사회, 정부 등의 변화와 혁신 주도

- 사용자 로그(log) 정보(사용자가 인터넷에 접속한 시간과 정보, 검색기록 등)에 대한 프로파일링이 이루어지기 시작하면서, 아이덴티티가 뚜렷해지고 사용자와 광고를 매칭하는 정확도도 향상함

- 공공데이터(ex. 의료정보)의 개방 가속화   ←빅데이터 출현 배경 X

 

 

# 빅데이터에 거는 기대를 잘 표현한 비유

- 빅데이터는 차세대 산업혁명에서 석탄과 철 역할을 할 것

  : 제조업 뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화생활 전반에 혁명적 변화를 가져올 것으로 기대됨

- 빅데이터는 21세기 원유임

  : 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망

- 빅데이터는 렌즈의 역할을 할 것

  : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것

  ex) 구글의 Ngram Viewer(모든 책을 디지털로 전환해 검색 서비스에 포함시키려는 프로젝트, 말뭉치가 시간에 흐름에 따라 어떤 빈도로 사용되어 왔는지를 보여줌)

- 빅데이터는 플랫폼 역할을 할 것

  : 다양한 서드파티(3rd party) 비즈니스에 빅데이터가 활용되면서 플랫폼 역할을 할 것

  + 빅데이터의 플랫폼 기능 : 생산된 데이터를 저장해 두고 이 데이터를 3rd party에 API를 통해 공개하여

                                              활용할 수 있도록 할 수 있음  = 비즈니스 측면에서 공동 활용의 목적으로 구축된 구조물

   ex) IoT 센서 데이터의 공개 API를 통한 활용

 

 

# 빅데이터가 만들어 내는 본질적인 변화

- 사전처리 시대 → 사후처리 시대

  : 필요한 정보만 수집하고 필요하지 않은 정보는 버리는 시스템. 가능한 한 많은 데이터 모으고, 그 데이터를 다양한 방식으로 조합해 숨은 정보 찾아냄

- 표본조사 → 전수조사

  : 데이터 수집 비용 감소와 클라우드 컴퓨팅 기술 발전으로 전수조사로 변화. 샘플링(표본조사)이 주지 못하는 패턴이나 정보를 찾을 수 있게 됨

- 질 → 양

  : 데이터가 지속적으로 추가될 때, 양질의 정보가 오류보다 많아져 전체적으로 좋은 결과를 산출 함에 긍정적 영향을 미친다는 추론에 바탕을 둠

- 인과관계 → 상관관계

  : 상관관계를 통해 특정 현상의 발생 가능성이 포착되고 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나, 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래 예측을 더 압도해 갈 것으로 전망

 

 

 

비즈니스 모델

 

# 빅데이터 활용 기본 테크닉

연관규칙학습 어떤 변수들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
ex) 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가
유형분석(분류) 조직을 그룹으로 나눌 때, 특성에 따라 분류할 때 사용
기계 학습 훈련 데이터로부터 학습한, 알려진 특성을 활용해 예측하는 방법.
대규모 데이터를 처리 분석할 때 상당한 분석 인프라와 시간이 소요될 수 있음
회귀 분석 독립변수와 종속변수의 관계를 파악할 때 사용됨
ex) 개인의 신용도 평가, 고객의 만족도가 충성도에 미치는 영향
감정 분석 특정 주제에 대해 말하거나, 글을 쓴 사람의 감정을 분석.
한국어의 경우 언어적 특성으로 인해 감정 분석에 상대적으로 어려운 측면이 있음
소셜 네트워크 분석 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하거나 영향력 있는 사람을 찾아낼 때 사용
ex) 핀테크 기업에서 대출을 제공할 때 활용, 친분관계가 승진에 미치는 영향
유전자 알고리즘 최적화가 필요한 주제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법
ex) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가,
     택배차량을 어떻게 배치하는 것이 가장 비용 효율적인가

 

 

 

위기 요인과 통제 방안

 

# 위기 요인과 통제 방안

- 사생활 침해 → 동의에서 책임으로

  : 빅데이터에 의한 사생활 침해 문제의 포괄적인 해결책으로 동의제를 책임제로 바꾸는 방안을 제안

  ex) 빅브라더가 개인의 일상생활 전반을 감시, 여행 사실을 트윗한 사람의 집에 강도가 침입

- 책임 원칙 훼손 → 결과 기반 책임 원칙 고수

  : 빅데이터 기본 분석과 예측 기술이 발전하며 정확도가 증가해, 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성도 올라감. 책임 원칙 훼손 위기 요인에 대한 통제 방안으로 기존의 책임 원칙을 좀 더 보강하고 강화함

   ex) 범죄 예측 프로그램에 의해 범행 전에 체포

-  데이터 오용 → 알고리즘 접근 허용

  : 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 미래를 예측하는 것은 항상 맞을 수는 없음. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있음. 대응책으로 알고리즘에 대한 접근권을 제공해 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문함.  (= 소비자 행동 예측 알고리즘에 대한 이해당사자의 접근권 보장)

   ex) 검색엔진의 검색결과의 차별적 누락에 따른 피해 발생 

 

 

# 연방거래 위원회(FTC)가 제시한 '소비자 프라이버시 보호 3대 권고사항'

- 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용

- 소비자에게 수집된 정보 내용 및 접근권 부여

- 소비자에게 공유 정보 옵션 제공

 

 

# 데이터 익명화

- 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 것

- 가명, 일반화, 치환, 섭동 등 

 

 

 

미래의 빅데이터

 

- 데이터 사이언티스트는 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문 인력. 빅데이터의 다각적 분석을 통해 인사이트를 도출하고, 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자로서 전문가 역할을 할 것으로 기대.

 

 

 

 

 

#####

 

# 빅데이터 가치 산정을 어렵게 만드는 요인

- 데이터의 재사용

- 2차적 목적으로의 활용

- 창조적 방식으로 활용되며 새로운 가치를 창출하는 것

 

 

# 빅데이터를 통한 경영 혁신의 단계

1. 새로운 차원의 생산성 향상

2. 발견에 의한 문제해결

3. 의사결정의 과학화와 자동화

4. 새로운 고객가치와 비즈니스 창출

 

 

# 빅데이터 시대의 가치 패러다임 변화 3단계

1. Digitalization(디지털화) : 아날로그의 세상을 효과적으로 디지털화 하는 것

2. Connection(연결) : 디지털화된 정보와 대상들의 연결을 효과적이고 효율적으로 제공하는 것

3. Agency(에이전시) : 복잡한 연결을 효과적이고 신뢰성 있게 관리해주는 것

 

 

# 빅데이터가 기업에 주는 영향

- 혁신 촉진

- 경쟁력 제고

- 생산성 향상

 

 

# 내부 프로세스와 관련된 전형적인 분석 활용기법

- 베이즈 추론 : 증거를 관찰하기 전과 후의 가설에 대한 믿음의 정도를 나타내는 추정치로 수익예측에 사용

- 최적화 : 일부 변수의 값이 반드시 정수여야 할 때, 한정된 자원으로 특정 목적을 달성하는 솔루션을 내놓은 효과적인 할당을 의미

- 몬테카를로 시뮬레이션 : 특정 결과 혹은 위험이 발생할 확률을 평가하는 계산 기법으로 수학적 모델을 통해 가설 사건을 여러 차례 실험하고 미리 정해진 확률 분포와 비교

- 신경망 분석 : 투입 요소들을 구분할 때까지 반복해서 학습이 이루어지며 주로 대규모 데이터베이스에 사용

 

 

 

 

 

 

 

 

 

출처: https://0utlier.tistory.com/39

반응형