상세 컨텐츠

본문 제목

[빅데이터 분석] 00. 4차 산업혁명 기술과 데이터 과학 기반의 빅데이터 분석

[SW]/[빅데이터] 2023 (완)

by 시원00 2023. 5. 3. 00:02

본문

 

4차 산업혁명 기술과 데이터 과학 기반의 빅데이터 분석

 

00-1. 4차 산업혁명 기술

  1. 4차 산업혁명 
  2. 초연결
  3. 초지능
  4. 4차 산업혁명 서비스 사례

 

00-2. 데이터 과학 기반의 빅데이터 분석

  1. 빅데이터 산업의 이해
  2. 빅데이터 서비스 프레임워크
  3. 빅데이터 분석을 위한 데이터 과학 방법론
  4. 데이터 과학 방법론의 6단계

 


 

00-1. 4차 산업 혁명 기술

 

1. 4차 산업혁명

 

4차 산업혁명 ((1)~(6))

(1) IoT

      - 로봇 공학     - 드론

(2) 인공지능

      - 4차 산업혁명의 꽃

      - 머신러닝     - 딥러닝

(3) 빅데이터

      - 데이터 처리

      - IoT 산업을 통해 정보 획득: 인공지능 시스템에 의해 가치화

(4) 클라우드

      - 클라우드 기반 작업

(5) 3D 프린팅

      - 이전 트렌드(2차 산업혁명 이후): 소품종 대량 생산 -> 대중문화 사회

           여러 사람들이 비슷한 물건 사용 (비슷한 음식, 비슷한 음악 등)

           대기업 중심

      - 4차 산업혁명의 컨셉: 다품종 소량 생산

           커스텀마이징 - ex. 반스: 나만의 신발

           같은 브랜드, 다른 디자인

           기존의 공장은 비효율적인 구조 -> 스마트 팩토리

           직접 만들어내는 시대: 3D 프린팅

           대기업(플랫폼 제공)과 작고 많은 스타트업이 공생 - ex. 네이버스토어

(6) 블록체인

 

인체로 보는 4차 산업

- 빅데이터 : 피

- 클라우드 컴퓨팅 : 심장

- AI : 뇌

- 센서, IoT : 손

- 로봇 : 다리

=> 4차 산업의 핵심: 인공지능

 

초연결과 초지능

- 4차 산업 혁명 -> 디지털로의 전환 -> 현실에서 가상으로 -> 초연결과 초지능

- 초연결: 다양한 데이터들이 모여 알고리즘과 학습을 통해 서비스 제공

     모든 사물과 인간을 연결

     인간과 사물에서 발생하는 모든 데이터를 걷어냄

     인간으로부터 (전 우주로부터) 데이터를 모두 모음

- 초지능: 걷어낸 데이터를 바탕으로 컴퓨터를 트레이닝(학슴) 시킴

 

 

2. 초연결

 

초연결

- 모든 것을 연결하여 데이터를 끌어옴: 기하급수적인 증가

- 사물인터넷의 진화와 모든 데이터의 디지털화

      사물과 공간 / 제품과 서비스의 연결성이 무한 확장

      -> 인터넷, 네트워크의 의존성 증가

- 초연결 사회를 실현시킨 대표적 기술

      사물인터넷(IoT)

      5세대 통신(5G)

 

초연결 - IoT

- 2005년 ITU 처음으로 공식 정립

      '언제나, 어디서나, 어느 것'과도 연결될 수 있는 새로운 통신 환경

- 센서 네트워크(USN)에서 시작

      사물과 사물간 통신을 의미하는 M2M(Machine to Machine)으로 발전

- 만물인터넷(IoE)으로 발전할 전망

 

초연결 - 5G

- 최대 20Gpbs / 일상적으로는 100Mbps 속도 가능

- 기존보다 1만배 이상 더 많은 트래픽을 수용하는 대용량

- 평방 킬로미터당 1백만 개의 기기 사용이 가능한 고밀집

- 배터리 하나로 10년 간 구동 가능한 고에너지 효율

- 1ms 이하의 낮은 지연 시간

- 이동 간 제로 중단을 실현하는 고안정성

=> 5G의 특징: 초고속, 초연결, 초저지연, 고안정성

 

 

3. 초지능

 

초지능

- 인공지능 기능을 더하여 사물의 지능화를 의미

- 더 나아가 인간의 지능을 넘어서는 특이점을 통과하여 거의 모든 영역에서 인간의 인지 능력을 크게 능가하는 경우

- 초지능을 위한 기술: 인공지능(AI)

- 인공지능의 원료: 빅데이터

 

초지능 - AI

- 제 1의 겨울: 알고리즘이 없음

- 제 2의 겨울: 인공 신경망은 존재하지만, 이를 학습시킨 좋은 데이터가 없음. 제대로된 학습 불가.

- 1995년 급증가: World Wide Web 개발 (Web 1.0 시작) : 많은 데이터가 쌓임

- 2007년 꾸준한 증가: 스마트폰 등장

     (web 2.0) 싸이월드 등: 데이터 생산 -> 좋은 데이터들이 쌓이기 시작 -> 인공지능 가속도

     알렉스넷: 이미지 판별

- 현재까지 끊임없는 발전

     초연결: 모든 생물, 미생물에서 데이터를 끌어옴 -> 좋은 데이터를 가려내는 것이 필요

     현재: 인공지능의 3차 전성기

 

초지능 - 빅데이터

- 정의

     1. 디지털 환경에서 발생하는 대량의 모든 데이터

     2. 대규모의 데이터를 저장, 관리, 분석할 수 있는 하드웨어 및 소프트웨어 기술, 데이터를 유통, 활용하는 모든 프로세스를 포함하는 빅데이터 플랫폼 (사업 전반을 통틀어 말함. 넓은 범위로 정의됨)

     3. 빅데이터 플랫폼을 구성하는 하드웨어, 소프트웨어, 애플리케이션을 이용하여 가치 창출

- 각 기관별 빅데이터 정의

     맥킨지, 가트너의 정보가 유익함: 신기술 등장시 참고

 

- 데이터의 양적 팽창 -> 이를 관리하는 것: 빅데이터

     ex. 카드 회사: 20대 여성 사용자 적음 -> 20대 여성의 카드 사용 분석 -> 그에 맞는 혜택 증가 -> 20대 여성 사용자 증가

- 활용 사례

     코로나로 인한 온라인 수업 -> 수업이 빅데이터로 축적

     '퍼듀대학': 수업 중 어플로 질문 시작 -> 교수 및 학생들이 답변

     아마존 예측 배송: 불확실한 구매 여부 -> 미리 주변 매장에 주문해 놓음 -> 주문시 빠른 배송 (고객의 주문 여부 미리 판단)

     농업 클라우드: 기상 정보 + 외부 데이터 -> 농약 살포, 수확 시점 등을 알려줌

     신한 카드: 사용자의 특성에 맞는 혜택 제공

     교통 문제 해결 등에도 도움

 

- 분류: 빅데이터의 종류를 분리하는 것이 중요

구분 설명 수집 및 처리 난이도
정형 데이터 - 고정된 필드에 저장
- 관계형 데이터베이스처럼 스키마 형식에 맞게 저장
- 예: RDB, 스프레드시트
- 내부 시스템에 의한 데이터라 수집하기 쉬움
- 파일 형태의 스프레드시트는 형식을 가지고 있어 처리하기 쉬움
- 처리 난이도: 하
반정형 데이터 - 고정된 필드에 저장되어 있지는 않지만 메타 데이터나 스키나 등을 포함
- 예: XML, HTML, JSON, 웹 문서, 웹 로그
- API 형태로 제공되므로 데이터 처리 기술이 필요함
- 처리 난이도: 중
비정형 데이터 - 데이터 구조가 일정하지 않음
- 규격화된 데이터 필드에 저장되지 않음
- 예: 소셜 데이터, 텍스트 문서, 이미지/동영상/음성 데이터, 문서 파일(PDF)
- 파일을 데이터 형태로 파싱해야 하므로 처리하기 어려움
- 처리 난이도: 상

- 특징

     3Vs

     1. Volume: 양이 많음. 대량.

     2. Velocity: 데이터 생산 속도가 빠름. 커뮤니티 글의 댓글, 웹툰의 댓글 등 실시간으로 빠르게 생성.

     3. Variety: 다양성

     +3Vs

     4. Value: 가치. 기업 입장에서 돈이 되는 정보. 도움이 되는 정보

     5. Veracity: 정확성, 편향된 데이터, 거짓된 데이터 등 믿을 수 있는 정보인가

     6. 6번째 V는 의견이 갈림 (가변성 또는 시각화)

          6-1. Variability: 가변성. 같은 수치라도 문맥에 따라 다르게 해석. 같은 현상이지만, 문맥에 따라 의미가 부정적 현상이 될 수도 긍정적 현상이 될 수도 있음

          6-2. Visualization: 시각화

 

 

 

4. 4차 산업혁명 서비스 사례

- 자율주행차

- 커넥티드 카: 다른 장치, 장소와 연결. 상황에 맞게 목적지 설정 등 (기름 부족: 주유소, 차에 문제 발생: 정비소)

- 스마트 시티: 공간의 가치 창출 및 서비스 제공

- 스마트 헬스 케어

 

 


00-2. 데이터 과학 기반의 빅데이터 분석

 

 

1. 빅데이터 산업의 이해

 

빅데이터 플랫폼

- 빅데이터를 처리

- 대량의 데이터를 저장 및 분석, 처리할 수 있는 대용량의 고속 저장 공간과 고성능 계산 능력의 컴퓨팅 인프라

- 하드웨어적, 소프트웨어적 공간(환경) / 인프라

 

빅데이터 에코시스템

- 유기적 공동체

- 빅데이터 서비스 공급자 + 빅데이터 서비스 소비자 + 어플리케이션 공급자

- 데이터 수집 기술 -> 정리 및 보관(정형, 반정형, 비정형 등에 따라 정리) -> 쿼리문 -> 분산 처리(운영체제, 플랫폼 필요) -> 데이터를 주고 받기 위한 프로토콜 -> 데이터 가공 -> 알고리즘(데이터 분석) 적용 -> 가치 창출(소비자에게 제공)

- 다양한 서브 프로젝트: 시각적 분석 틀, 어플리케이션, 언어 -> 모두 유기적으로 연결: 에코시스템 (-> 필요한 정보를 뽑아낼 수 있음)

 

빅데이터 서비스 프레임워크

 

 

2. 빅데이터 서비스 프레임워크

 

서비스 공급자 분류

- 하드웨어 공급자: 빅데이터 서비스를 위한 인프라를 공급

- 처리 소프트웨어 공급자: 저장한 빅데이터를 효과적으로 저장 및 처리할 수 있는 소프트웨어를 공급

- 분석 소프트웨어 공급자: 빅데이터를 분석할 소프트웨어를 공급

-> 필요(하드웨어, 처리 소프트웨어, 분석 소프트웨어)에 따라 서비스 공급자가 달라짐

 

서비스 유형/수준에 따른 분류

- 인프라 계층: 빅데이터를 위한 기초 작업을 담당하는 하드웨어나 운영체제를 제공

- 플랫폼 계층: 클라우드 컴퓨팅 서비스나 하드웨어에 종속되지 않는 처리 및 분석 소프트웨어 등을 제공

- 애플리케이션 계층: 

     소비자가 빅데이터와 소통하는 매커니즘을 제공

     빅데이터 처리 결과를 바탕으로 소비자가 원하는 분석 결과를 제공하거나 시장에 유통

 

서비스 플랫폼

- 모든 것이 유기적으로 연결

- 서비스 플랫폼 전체를 구성하는 것은 개인이 할 수 없음 (팀 프로젝트)

 

빅데이터 서비스 공급자 분류를 위한 빅데이터 서비스 프레임워크

- 빅데이터를 서비스 공급자와 수준에 따라 분류

- 프로젝트에서는 F 유형 사용 (분석 소프트웨어 - 애플리케이션 유형): 있는 데이터를 분석하여 유의미한 데이터 창출

 

- A: 하드웨어 - 인프라 유형: 기업 등에서 자체 데이터센터를 구축할 수 있게 해주는 서비스 유형

- B: 하드웨어 - 플랫폼 유형: 클라우드를 기반으로 서비스를 제공하는 유형

- C: 처리 소프트웨어 - 인프라 유형: 하드웨어와 소프트웨어를 함께 제공하는 서비스 유형

- D: 처리 소프트웨어 - 플랫폼 유형: 오픈 소스 기반의 소프트웨어 플랫폼을 제공하는 서비스 유형

- E: 분석 소프트웨어 - 플랫폼 유형: 일반 소비자를 위한 분석 소프트웨어를 제공하는 서비스 유형

- F: 분석 소프트웨어 - 애플리케이션 유형: 고객 맞춤형 솔루션 서비스. 데이터의 의미를 파악하고 이를 분석해서 활용하는 서비스를 제공.

 

 

3. 빅데이터 분석을 위한 데이터 과학 방법론

 

데이터 과학

- 빅데이터를 다루고 그 안에서 가치를 도출하는 과정

 

앞으로 우리가 적용할 데이터 과학 방법론

- 하향식 접근법 + 프로토타입 접근법

- 하양식 접근법

     문제 해결을 위해 근본 원인을 파악하고 분석 과제를 도출한 뒤 해결 방안을 도출

     문제 해결 방법을 찾기 위해 필요한 데이터를 수집 및 분석

     문제 제시-> 문제 해결을 위한 문제 원인 파악, 해결 방안 도출

          ex. 20대 여성 이용객이 적음 -> 20대 여성이 많이 사용하는 업종의 혜택 증정

- 프로토타입 접근법

     빅데이터 환경의 불확실성을 고려한 방식

     소비자의 요구 사항이나 데이터를 규정하기가 어렵고, 데이터 원천도 명확히 파악하기 어려운 경우

     프로토타입을 만들어 분석을 시도한 뒤, 결과를 확인하고 개선하고 이를 반복

          ex. 오후 3시에 특정 지역의 교통량 증가 (퇴근 시간X, 출근 시간X, 원인 불명확)

               가설 세우기: 근처 학교 존재 -> 학원을 가기 위한 차량 중가

               가설 확인 (결과 확인 및 개선 반복)

 

 

4. 데이터 과학 방법론의 6단계

 

1단계. 연구 목표 설정

- 프로젝트와 관련된 모든 참여자가 연구 목표를 함께 정의하고 산출물과 일정 등의 계획에 합의한 뒤 프로젝트 헌장 작성

- 프로젝트 헌장(프로젝트 진행 계획서). 앞으로의 과정 진행 계획

 

2단계. 데이터 수집

- 프로젝트에 필요한 데이터의 위치와 형태를 확인하고 원시 데이터를 수집

     > 필요한 데이터를 수집할 때는 이미 가지고 있는 내부 데이터베이스나 데이터 저장소를 이용

     > 외부에서 수집하는 경우 다양한 수집 기술을 활용할 수 있음

     > 수집할 데이터의 유형과 종류를 파악한 뒤 그에 맞는 수집 기술을 선택해서 사용

 

3단계. 데이터 준비

- 수집한 원시 데이터의 품질을 높이기 위해 정제 후 사용 가능한 형태로 가공

- 수집한 데이터를 다음 단계에서 사용할 수 있게 오류를 여과하거나 수정하여 정제

- 필요에 따라서는 데이터를 통합하거나 형태를 변환

 

4단계. 데이터 탐색

- 데이터와 변수 간의 관계나 상호 작용을 이해하기 위한 단계

- 변수 간의 관련성, 데이터의 분포, 편차, 패턴 존재 여부를 확인하는 탐색적 데이터 분석(EDA)이라고도 함

- 데이터를 쉽게 이해하기 위해 꺾은선 그래프나 히스토그램, 분포도 등과 같은 그래픽 기법을 많이 사용

 

5단계. 데이터 모델링

- 이전 단계에서 얻은 데이터 탐색 결과로 프로젝트에 대한 답을 찾는 단계

- 변수를 선택하여 모델을 구성하고 실행 미치 평가하는 과정을 반복 수행: 문제 해결 모델을 완성

- 이때 분석하려는 데이터의 특성과 목적에 따라 모델 유형을 선택

 

6단계. 결과 발표 밑 분석 자동화

- 프로젝트 수행 결과가 연구 목표를 달성했는지를 이해 당사자, 특히 의사 결정자에게 이해시키고 가능하다면 이후의 유사 프로젝트 수행을 위해 분석 과정을 자동화하는 단계

- [1단계]에서 작성한 프로젝트 헌장에 명시된 목표를 달성했는지, 산출물이 제대로 작성되었는지, 일정과 예산은 계획대로 진행되었는지 여부를 확인

- 모든 참여자를 대상으로 분석 결과를 발표

- 분석 과정을 재사용할 수 있도록 자동화

 

 

FIN.

관련글 더보기

댓글 영역