본문 바로가기
컴퓨터공학/멀티미디어개론

8. 멀티미디어 빅데이터

by meow0110 2024. 6. 22.

■ 빅데이터 (Big Data)
- 기존의 데이터 응용 소프트웨어(데이터베이스, 분석툴)가 처리하기에 매우 거대하거나 복잡한 데이터의 집합
- 정보 통신 기술의 주도권이 데이터로 이동

 

 

■ 중요하다.

 

■ 형태가 고정되어 있다. 즉, 데이터가 어떠한 기준에 의해 잘 정리되어 있다.

■ 즉 필드에 고정되어 있다는 뜻이다.

 

■ 반정형 데이터 (Semi-structured Data)
- 메타데이터(데이터를 설명하는 데이터), 스키마(메타데이터와 비슷한 개념)를 통하여 표현되는 데이터

 

■ 비정형 데이터 (Unstructured Data)
- 정형, 반정형이 아닌 모든 데이터
- 가장 큰 증가를 보이는 데이터 유형

 

■ 구조가 없다. 

 

■ 로컬 환경 : 컴퓨터 내부의 독립적 환경 (네트워크 연결X)

 

■ 수집 방식 3가지

■ 크롤링, 센싱의 경우는 내가 직접 활동하지 않아도 직접 수집해준다.

 

■ 데이터 저장 3곳

■ 서버, 스토리지, DB는 서로 묶인 경우가 많다.

 

■ 확률 모델링 : 확률적 가설을 세운 모델링

■ 통계분석은 사람이 개입한다. 하지만 기계학습은 사람의 노력을 상당히 줄일 수 있다.

■ NLP : 자연어 처리

 

 

■ 최근 비정형 데이터를 많이 쓴다고 하나, 비정형 데이터를 다루는데 있어 정형 데이터에 대해 알아볼 필요가 있다.

■ 정형,비정형, 반정형 데이터를 분석하는데 있어, 중요한 의미를 추출하는 데이터 마이닝에 대해 알아보자.

 

■ KDD : 데이터베이스에서 지식을 발견(수집)하는 것.  데이터마이닝을 KDD로 말할 수 있다.

 

■ 분류 : 집단에 대해 미리 정의화 되어 있음. 어떤 집단에 분류가 되는지 추론하는 것.

■ 군집화 : 여러 데이터를 통해 특정 패턴이나 공통점 등을 탐색 (분류의 반대)

■ 연관성 : 시간, 여러개의 데이터가 필요. A에서 어떤 사건영상이,  B에서 어떤 사건영상이 있다고 하자. 이런 영상들 사이의 연계성 발견해서 A라는 지역에서 사건이 일어나고, 그다음 B에서도 사건이 일어났다. 즉 이런 순차적인 관계를 파악해보고 연관성을 파악하는 것이다.

■ 연속성 : 특정한 기간에 걸쳐 발생하는 어떤 사건의 관계들을 규명하는데 사용.

■ 예측 : 미래 사건을 예측. 현재와 과거의 데이터를 이용해서!

 

 

■ 지도학습 = 교사 학습 (누군가 가르친다.) = 감시 학습

 

■ 정형 데이터의 2가지 작업, 분류와 군집화

 

 

■ kNN : k는 인접되어 있는 k개의 이웃이라는 의미. N은 이웃. (이웃을 가지고 그룹을 결정하는 방식)

■ 의사결정 나무 : 스무 고개처럼 생각하자.

■ 베이지안 정리 : 조건부 확률. 이 조건부 확률의 식을 뒤집어보면, 동시에 발생한 사건 간의 관계를 정의하는데 활용할 수 있다.

■ svm (서포트 벡터 머신) : 주어진 데이터 집합을 가장 최적으로 표현할 수 있는 모델을 찾는 기법.

 

 

■ 가운데 녹색 : 나는 어디에 속해야해 ?

■ 실선 내부 : 총 3개가 있다. 그래서 k는 3이다. k=3 (3명의 이웃) 그런데 그 3명중에 2명은 빨간색 세모이다. 그래서 나를 빨간 세모라고 분류하는 것이다.

■ 점선 내부 : 총 5개가 있다. k=5(파란네모3 / 빨간세모2)  그런데 파란네모가 3개다. 그래서 나를 파란 네모로 분류한다.

 

■ 질문의 yes no 에 따라 최종적으로 나오게 되는 판별 결과를 확률적으로 모델링하는 것.

 

■ 위는 FANN 모델이다.

■ input은 입력 / output은출력이다. 여기서 hidden  신경망이 있다. 이 신경망의 연결 강도를 조절해주는 것이 인공신경망 모델이다.

 

■ SVM 모델 : 어떤 데이터가 있는데, 그 데이터를 최적으로 분할 해줄수 있는 모델링

■ 왼쪽 그림 : 검은 점, 흰 점을 가르는 가장 좋은 선은 어딘가? 즉, 나중에도 적용할 때 검은 점과 흰 점을 가장 잘 구별할 수 있는 선을 구하는 것이 svm 모델이다. (가운데 가장 이상적인 실선을 하이퍼플레인(초평)이라고 함.)

 

■ 오른쪽그림 : 커널 함수를 가우시안 함수로 사용해서 나눈 것. 가운데 진한 선이 나눈 선이다. 즉 파란점과 빨간 점을 나눈 곡선이 가우시안 함수를 이용해서 2개의 점을 나눈 svm 모델이다.

 

 

■ 군집화를 적용 할 때, 어떤 그룹이 존재한다고 가정하지 않는다.

■ 알아서 찾아낼 수 있게끔, 기초적인 그룹 정보만 제공, 그룹 정보를 점차로 바꿔가면서 찾게함

 

■ 토너먼트와 비슷하다.

■ 1과 3을 더하면 0.5 / 2와 5는 0.7 등으로 나타난다.

■ 나타나는 데이터들의, 그룹의 군집의 빈도를 계층적으로 결정해주는 것.

 

■ k-Means

■ 처음에는 내가 군집 정보를 정확하게 나눠져있는지 모르는 상태다. 군집 정보를 점차로 업데이트하면서 찾는다. 

■ 군집 중심점들을 점차로 업데이트 해가면서 찾아내는 과정.

 

■ 멀티미디어 데이터(비정형 데이터)의 3가지

- 텍스트 데이터
- 멀티미디어 데이터
- 소셜 네트워크 데이터

 

■ 비정형 데이터 = 멀티미디어 데이터

- 기존 통계적 방법 적용 불가

-그래서 비정형 데이터만을 위한 멀티미디어 빅데이터 처리 기법 필요.

 

 

■ 자연어 처리 (NLP)

- 의미론에 입각해서 의미의 분석위주로 하는 방법이 자연어 처리

- "어제 라면을 먹었는데 참 맛있었어" 라는 말을 했다고 가정하자. 이런 말로 표현을 했지만, 그 말로 표현된 의미를 중요하게 생각하는 것이다. 즉, 의미론에 입각해서 의미의 분석을 위주로 하는 방식이 자연어 처리(NLP)이다.

-즉, 텍스트 빅데이터를 처리할 때는, 자연어 처리에 기반을 해서 정보를 추출할 필요가 있는 점이 중요하다.

 

 

■ 데이터 처리 : 텍스트 빅데이터에 불필요한 데이터가 많을 수 있다. 그래서 가급적이면 특정 키워드, 의미있는 요소를 추출해야 한다.

■ 전처리(preprocessing) : 필요하지 않는 뭉장 부호, 잘못된 화이트 스페이스 등은 제거하는 수행

 

■ 모사 : 흉내

■ 형태소 분석 : 문맥에 따라서 분석을 해서 분해함. 

■ 품사 부착 : 불완전한 문장을 인간이나 컴퓨터가 만들어내면 적절한 품사를 추가해서 문장을 완성해내는 것.

■ 구절 단위 분석 : 명사구, 동사구, 부사구 등을 식별을 하고 분석을 하는 것

 

 

■ 분석하기 용이하게끔 각각의 단어에 대해서 의미를 가지고 계층도를 만들어 주는 것이 자연어 처리이다. 

■ 맨 위의 문장을 a, dog, is, chasing, a, boy....  등등 하나하나씩 속성을 파악하고 있다. 

 

■ TF-IDF : TF와 IDF는 분석을 해서 추출해낸 수치 값들을 말함. 즉, TF, IDF라는 두 가지의 측정 결과를 조합을 해서 만들어내는 방법론이 TF-IDF이다. 

■ 문서 : 문서 하나

■ 문서군 : 여러 문서들이 모여 있는 집합

 

■멀티미디어 빅데이터 주요 방법론 2가지.

 

■ 특징 추출

- Hand-crafted feature : 사람의 힘으로 분석함. 즉, 사람이 데이터를 미리 보는 것이 아니라, 사람의 지식과 기술력을 바탕으로 추출 알고리즘을 만들어내는 경우가 있다.

- 사람이 일일이 개입을 하다 보면 지금의 거대한 빅데이터를 모두 파악하지 못할 수도 있게 된다. 그래서 나온 것이 딥 러닝이다.

 

■ 딥 러닝

- 자동화해서 특성을 추출하고 정보를 추출할 수 있게 된다.

 

■ 푸리에 변환 : 전자공학에서 사용을 하는 주파수 분석 기법.

■ 인터(inter) : 프레임 간, 장면 장면 간을 뜻하는 것이다. 글로벌이라고 생각하면 된다.

■ 인트라(intra) : 어떤 장면 내부 내부에서의 특징을 추출하는 것. 로컬이라고 생각하면 된다.

 

■ SNS에서는 다양한 데이터들을 발굴할 수 있기 때문에, 향후에 빅데이터 분석에 마케팅 활용가치가 높을 수 있다.

 

■ SNS에서 생성되는 데이터를 마이닝하는 방법

■ NLP 분석 : SNS 상의 데이터는 대부분 우리의 일상 언어를 바탕으로 만들어져 있다. 그래서 NLP의 분석 기법을 이용하는 것이다. NLP가 일상 언어에 가깝게 모사를 하고 있기 때문.

 

 

 

■학습정리

1. 멀티미디어 빅데이터 개요

  • 기존의 데이터 응용 소프트웨어가 처리하기에 매우 거대하거나 복잡한 데이터의 집합
  • 정보 통신 기술의 주도권이 데이터로 이동
  • 빅데이터의 처리 과정: 생성 → 수집 → 저장 → 처리 → 분석(머신러닝, 기계학습을 통해 반자동, 자동으로 데이터 패턴을 발견하게 된다.) → 표현

2. 데이터 마이닝 (Data Mining)

  • 대규모로 저장된 데이터 안에서 체계적이고 자동적인 통계적 규칙이나 패턴을찾아내는 작업
  • 대규모 데이터로부터 의미를 찾아내는 데에 있어 중요도가 급증하고 있음

3. 멀티미디어 빅데이터 처리

  • 특징 추출(Feature Extraction): 오디오, 비디오, 이미지, 텍스트, 뉴미디어 등의 멀티미디어 데이터로부터 특징을 추출
  • 딥 러닝(Deep Learning): 전처리 된 멀티미디어 데이터에 대하여 인공신경망(ANNs) 등의 방법론을 적용하여 자율학습한 모델링 결과를 바탕으로 특징을 추출하는 방법