본문 바로가기
ADsP Study

ADsP) 1-1. 데이터의 이해

by @0-0 2023. 2. 21.
반응형

* 블로그 요약본과 기출문제를 바탕으로 작성했습니다 =)

                   :  출제 문제

                   :  추가 정보

 

 

1. 데이터의 이해

1-1. 데이터의 이해

     - 데이터와 정보

     - 데이터베이스 정의와 특징

     - 데이터베이스 활용

1-2. 데이터의 가치와 미래

1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

2. 데이터 분석 기획

2-1. 데이터 분석 기획의 이해

2-2. 분석 마스터 플랜

3. 데이터 분석

3-1. 데이터 분석 개요

3-2. R 프로그래밍 기초

3-3. 데이터 마트

3-4. 통계분석

3-3. 정형 데이터 마이닝

 

 

데이터와 정보

 

# 데이터의 정의

- 데이터는 추론과 추정의 근거를 이루는 사실

- 단순한 객체로서의 가치 뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 가지는 것

 

 

# 데이터의 특성

- 존재적 특성: 객관적 사실

- 당위적 특성: 추론, 예측, 전망, 추정을 위한 근거

 

 

# 데이터의 유형

- 정성적(qualitative) 데이터: 형태와 형식이 정해져 있지 않아 저장, 검색, 분석하는데 많은 비용과 기술적 투자 수반

     ex) 언어, 문자, ...

- 정량적(quantitative) 데이터: 데이터의 양이 크게 증가하더라도 저장, 검색, 분석하여 활용하기 유용

     ex) 수치, 기호, 도형

 

- 정형 데이터 : 구조화 된 데이터. 미리 정해놓은 형식과 구조에 따라 저장된 데이터

                        (ex. 관계형 데이터베이스, 스프레드시트, csv데이터)

- 반정형 데이터 : 구조에 따라 저장된 데이터지만 데이터의 형식과 구조가 변경될 수 있는 데이터. 데이터의 구조 정보를

                          데이터와 함께 제공하는 파일 형식. 형태가 있으면서 연산이 불가능한 경우

                         (ex. URL 형태 - HTML / 오픈 API 형태 - XML, JSON / 로그 형태 - 웹  로드, IoT 센서 데이터)

- 비정형 데이터 : 정해진 구조 없이 저장된 데이터

                         (ex. 이진 파일 형태 - 동영상, 이미지 / 스크립트 파일 형태 - 소셜 데이터의 텍스트)

 

 

 

# 지식경영의 핵심 이슈

- 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함

암묵지 학습, 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는(내면의) 지식
형식지 문서나 메뉴얼 처럼 형상화된(전달과 설명이 가능한 적절히 표현되고 정리된) 지식

- 암묵지는 사회적으로 중요 but 타인에게 공유되기 어려움. 개인에게 축적된 내면화된지식이 조식의 지식으로 공통화 됨

- 형식지는 전달, 공유가 용이. 언어, 기호, 숫자로 표준화된 지식이 개인의 지식으로 연결화

 

 

# DIKW 피라미드

Data(데이터) 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실.
존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미.
사건의 특징을 기술하는 사실.
Information(정보) 데이터의 가공, 처리와 데이터 간 연관관계 속에서 의미가 도출된 것.
데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터.
상황에 맞게 의미 있고 유용하게 변환된 데이터.
Knowledge(지식) 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것.
상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물.
Wisdom(지혜) 지식의 축적과 아이디어과 결합된 창의적인 산물.
근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어

 

 

 

데이터베이스 정의와 특징

 

# 데이터베이스의 정의

- 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위해 일정한 구조에 따라서 편성된 데이터의 집합

- 관련된 레코드의 집합, 소프트웨어로는 데이터베이스 관리 시스템(DBMS)을 의미

- 문자, 기호, 음성 화상 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보 통신 기기에 의해 체계적으로 수집, 축적하여 다양한 용도, 방법으로 이용할 수 있도록 정리한 정보의 집합체

 

 

# DBMS (데이터베이스 관리 시스템)

- 사용자와 DB 사이에서 사용자의 요구에 따라 정보를 처리해주고 DB를 관리해주는 소프트웨어

- 사용자가 쉽게 DB를 구축하고 유지할 수 있도록 하는 소프트웨어

- DB와 DBMS를 함께 데이터베이스 시스템이라 함

 

 

# 데이터베이스의 특징

- 통합된 데이터(integrated data): 동일한 내용의 데이터가 종복되어 있지 않다는 것을 의미. 데이터 중복은 관리상의 복잡한 부작용을 초래

- 저장된 데이터(stored data): 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미. DB는 기본적으로 컴퓨터 기술을 바탕으로 한 것

- 공용 데이터(shared data): 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미. 대용량화, 복잡한 구조.

- 변화되는 데이터(changeable data): DB에 저장된 내용 = DB의 현 상태. 다만 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지해야함

- 데이터 베이스는 다양한 방법으로 필요한 정보를 검색할 수 있는 검색 가능성을 가짐

 

 

데이터웨어하우스

 

# 데이터웨어하우스

- 기업 내의 의사결정 지원 어플리케이션에 정보 기반을 제공하는 하나의 통합된 저장 공간

 

 

# 데이터 웨어하우스의 특성

- 데이터의 주제 지향성 : 특정 주제에 따라 데이터들이 분류, 저장, 관리됨

- 데이터 통합

- 데이터의 시계열성 : 데이터웨어하우스에서 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장함

- 데이터의 비휘발성

 

- 데이터웨어하우스의 데이터들은 전사적 차원에서 일관된 형식으로 정의됨

   (특정 업무 분야에 초점을 맞춰 구축되는 것은 데이터 마켓)

- 기업 내의 의사결정지원 어플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장공간

- ETL은 주기적으로 내외부 DB로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 정보를 적재함

- 데이터웨어하우스에서 관리하는 데이터들은 시간의 흐름에 따라 변화하는 값을 유지함

 

 

 

 

 

데이터베이스의 활용 

 

# OLTP (On-Line Transaction Processing, 온라인 거래 처리)

- 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태 중 하나.

- 여러 단말에서 보내 온 메시지에 따라 호스트 컴퓨터가 DB를 엑세스하고 바로 처리 결과를 돌려보내는 형태.

- 데이터베이스의 데이터를 수시로 갱신하는 프로세싱

   ex) 주문 입력 시스템, 재고 관리 시스템, ...

 

 

# OLAP (On-Line Analytical Processing)

- 정보 위주의 분석 처리를 의미

- 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻게 해주는 시스템

- 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어

 

 

# CRM (Customer Relationship Management)

- 기업이 고객과 관련된 내, 외부 자료를 분석, 통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정

- 오늘날 CRM은 기존의 목적은 유지하고, 다양한 방법론을 모색 중임

 

 

# SCM (Supply Chain Management)
- 기업에서 원재료의 생산, 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 '공급망 관리'를 뜻함

 

 

# ERP (Enterprise Resource Planning)

- 인사, 재무, 생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리시스템의 경영자원을 하나의 통합 시스템으로 재구축해 생산성을 극대화하려는 경영혁신기법

- 기업 전체를 경영자원의 효과적으로 이용하기 위해 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템

 

 

# BI (Business Intelligence)

- 기업이 보유하고 있는 수많은 데이터를 정리, 분석해 기업의 의사결정에 활용하는 일련의 프로세스

- 기업의 사용자가 더 좋은 의사결정을 하도록 데이터 수집, 저장, 분석, 접근을 지원하는 응용시스템과 기술
- 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구

 

 

# BA(Business Analytics)

- 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법

 

 

# Data Mining

- 대용량 데이터로부터 의미있는 관계, 규칙, 패턴을 찾는 과정

 

 

 

#####

 

# 데이터 양의 표시 단위

- 테라바이트 = 10244

- 페타바이트 = 10245

- 엑사바이트 = 10246

- 제타바이트 = 10247

- 요타바이트 = 10248

 

 

# 데이터에 대한 설명

- 1바이트는 0 ~ 255 까지의 정수 값을 표현할 수 있는 데이터의 크기를 의미

- 영어 한 글자는 1바이트로 저장할 수 있지만, 한글 한 글자는 2바이트로 저장하는 것이 일반적임

- 수치 데이터는 용량이 증가하더라도 텍스트 데이터에 비해 DBMS에서 관리하기 용이함

- 설문조사의 주관식 응답 = 텍스트 데이터 = 비정형 데이터   /   객관식 응답 = 수치형 데이터 = 정형 데이터

 

 

# 기업내부의 데이터베이스 활용

- 2000년대 들어서면서 기업 DB 구축의 화두는 CRM, SCM으로 바뀌었음

- 2000년대 들어 금융부문에 DW를 적극적으로 도입

- 제조부문은 DB 기술의 가장 중요한 적용분야로 부품 테이블이나 재고관리 등의 영역에서 DB 활용이 중점을 이루다가, 부품의 설계부터 유통까지 전 공정으로 확대 됨

- '실시간 기업' 기업의 비즈니스 프로세스를 투명하고 민첩하게 유지해 환경 변화에 다른 적응 속도를 최대화해 지연시간을 없애는 정보화 전략

 

 

# 데이터 무결성(integrity)

: DB 내의 데이터에 대한 정확성, 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경, 수정 시 제한을 두어 데이터의 정확성을 보증하는 것

 

 

 

# SQL

 

- _A%  →  _ : 하나의 글자  /  % : 모든 문자   = 두 번째 문자가 A인 경우

 

- DDL (Data Definition Language, 데이터 정의어) : 데이터베이스 스키마 정의, 조작하기 위해 사용

  . CREATE : 정의

  .  ALTER : 수정

  . DROP : 삭제

  . TRUNCATE : DROP 후 CREATE

 

- DML (Data Manipulation Language, 데이터 조작어) : 데이터 조작하기 위해 사용, 실질적 데이터 처리 위해 사용

  . SELECT : 조회  (→ DQL(Data Query Language))

  . INSERT : 추가

  . DELETE : 삭제

  . UPDATE : 변경

  . LOCK, EXPLAIN, CALL 등

 

- DCL (Data Control Language, 데이터 제어어) : 데이터의 보안, 무결성, 회복, 병행, 수행제어 등을 정의

  . COMMIT : 트랜잭션의 작업 결과를 반영  ( → TCL(Transaction Control Language): 트랜잭션 제어)

  . ROLLBACK : 트랜잭션의 작업을 취소 및 원래대로 복구  ( → TCL: 트랜잭션 제어)

  . GRANT : 사용자에게 권한 부여

  . REVOKE : 사용자 권한 취소

 

 

 

 

 

 

 

 

 

 

 

출처: https://0utlier.tistory.com/39

반응형