8. 멀티미디어 빅데이터

■ 빅데이터 (Big Data)
- 기존의 데이터 응용 소프트웨어(데이터베이스, 분석툴)가 처리하기에 매우 거대하거나 복잡한 데이터의 집합
- 정보 통신 기술의 주도권이 데이터로 이동

■ 중요하다.

■ 형태가 고정되어 있다. 즉, 데이터가 어떠한 기준에 의해 잘 정리되어 있다.

■ 즉 필드에 고정되어 있다는 뜻이다.

■ 반정형 데이터 (Semi-structured Data)
- 메타데이터(데이터를 설명하는 데이터), 스키마(메타데이터와 비슷한 개념)를 통하여 표현되는 데이터

■ 비정형 데이터 (Unstructured Data)
- 정형, 반정형이 아닌 모든 데이터
- 가장 큰 증가를 보이는 데이터 유형

■ 구조가 없다.

■ 로컬 환경 : 컴퓨터 내부의 독립적 환경 (네트워크 연결X)

■ 수집 방식 3가지

■ 크롤링, 센싱의 경우는 내가 직접 활동하지 않아도 직접 수집해준다.

■ 데이터 저장 3곳

■ 서버, 스토리지, DB는 서로 묶인 경우가 많다.

■ 확률 모델링 : 확률적 가설을 세운 모델링

■ 통계분석은 사람이 개입한다. 하지만 기계학습은 사람의 노력을 상당히 줄일 수 있다.

■ NLP : 자연어 처리

■ 최근 비정형 데이터를 많이 쓴다고 하나, 비정형 데이터를 다루는데 있어 정형 데이터에 대해 알아볼 필요가 있다.

■ 정형,비정형, 반정형 데이터를 분석하는데 있어, 중요한 의미를 추출하는 데이터 마이닝에 대해 알아보자.

■ KDD : 데이터베이스에서 지식을 발견(수집)하는 것. 데이터마이닝을 KDD로 말할 수 있다.

■ 분류 : 집단에 대해 미리 정의화 되어 있음. 어떤 집단에 분류가 되는지 추론하는 것.

■ 군집화 : 여러 데이터를 통해 특정 패턴이나 공통점 등을 탐색 (분류의 반대)

■ 연관성 : 시간, 여러개의 데이터가 필요. A에서 어떤 사건영상이, B에서 어떤 사건영상이 있다고 하자. 이런 영상들 사이의 연계성 발견해서 A라는 지역에서 사건이 일어나고, 그다음 B에서도 사건이 일어났다. 즉 이런 순차적인 관계를 파악해보고 연관성을 파악하는 것이다.

■ 연속성 : 특정한 기간에 걸쳐 발생하는 어떤 사건의 관계들을 규명하는데 사용.

■ 예측 : 미래 사건을 예측. 현재와 과거의 데이터를 이용해서!

■ 지도학습 = 교사 학습 (누군가 가르친다.) = 감시 학습

■ 정형 데이터의 2가지 작업, 분류와 군집화

■ kNN : k는 인접되어 있는 k개의 이웃이라는 의미. N은 이웃. (이웃을 가지고 그룹을 결정하는 방식)

■ 의사결정 나무 : 스무 고개처럼 생각하자.

■ 베이지안 정리 : 조건부 확률. 이 조건부 확률의 식을 뒤집어보면, 동시에 발생한 사건 간의 관계를 정의하는데 활용할 수 있다.

■ svm (서포트 벡터 머신) : 주어진 데이터 집합을 가장 최적으로 표현할 수 있는 모델을 찾는 기법.

■ 가운데 녹색 : 나는 어디에 속해야해 ?

■ 실선 내부 : 총 3개가 있다. 그래서 k는 3이다. k=3 (3명의 이웃) 그런데 그 3명중에 2명은 빨간색 세모이다. 그래서 나를 빨간 세모라고 분류하는 것이다.

■ 점선 내부 : 총 5개가 있다. k=5(파란네모3 / 빨간세모2) 그런데 파란네모가 3개다. 그래서 나를 파란 네모로 분류한다.

■ 질문의 yes no 에 따라 최종적으로 나오게 되는 판별 결과를 확률적으로 모델링하는 것.

■ 위는 FANN 모델이다.

■ input은 입력 / output은출력이다. 여기서 hidden 신경망이 있다. 이 신경망의 연결 강도를 조절해주는 것이 인공신경망 모델이다.

■ SVM 모델 : 어떤 데이터가 있는데, 그 데이터를 최적으로 분할 해줄수 있는 모델링

■ 왼쪽 그림 : 검은 점, 흰 점을 가르는 가장 좋은 선은 어딘가? 즉, 나중에도 적용할 때 검은 점과 흰 점을 가장 잘 구별할 수 있는 선을 구하는 것이 svm 모델이다. (가운데 가장 이상적인 실선을 하이퍼플레인(초평)이라고 함.)

■ 오른쪽그림 : 커널 함수를 가우시안 함수로 사용해서 나눈 것. 가운데 진한 선이 나눈 선이다. 즉 파란점과 빨간 점을 나눈 곡선이 가우시안 함수를 이용해서 2개의 점을 나눈 svm 모델이다.

■ 군집화를 적용 할 때, 어떤 그룹이 존재한다고 가정하지 않는다.

■ 알아서 찾아낼 수 있게끔, 기초적인 그룹 정보만 제공, 그룹 정보를 점차로 바꿔가면서 찾게함

■ 토너먼트와 비슷하다.

■ 1과 3을 더하면 0.5 / 2와 5는 0.7 등으로 나타난다.

■ 나타나는 데이터들의, 그룹의 군집의 빈도를 계층적으로 결정해주는 것.

■ k-Means

■ 처음에는 내가 군집 정보를 정확하게 나눠져있는지 모르는 상태다. 군집 정보를 점차로 업데이트하면서 찾는다.

■ 군집 중심점들을 점차로 업데이트 해가면서 찾아내는 과정.

■ 멀티미디어 데이터(비정형 데이터)의 3가지

- 텍스트 데이터
- 멀티미디어 데이터
- 소셜 네트워크 데이터

■ 비정형 데이터 = 멀티미디어 데이터

- 기존 통계적 방법 적용 불가

-그래서 비정형 데이터만을 위한 멀티미디어 빅데이터 처리 기법 필요.

■ 자연어 처리 (NLP)

- 의미론에 입각해서 의미의 분석위주로 하는 방법이 자연어 처리

- "어제 라면을 먹었는데 참 맛있었어" 라는 말을 했다고 가정하자. 이런 말로 표현을 했지만, 그 말로 표현된 의미를 중요하게 생각하는 것이다. 즉, 의미론에 입각해서 의미의 분석을 위주로 하는 방식이 자연어 처리(NLP)이다.

-즉, 텍스트 빅데이터를 처리할 때는, 자연어 처리에 기반을 해서 정보를 추출할 필요가 있는 점이 중요하다.

■ 데이터 처리 : 텍스트 빅데이터에 불필요한 데이터가 많을 수 있다. 그래서 가급적이면 특정 키워드, 의미있는 요소를 추출해야 한다.

■ 전처리(preprocessing) : 필요하지 않는 뭉장 부호, 잘못된 화이트 스페이스 등은 제거하는 수행

■ 모사 : 흉내

■ 형태소 분석 : 문맥에 따라서 분석을 해서 분해함.

■ 품사 부착 : 불완전한 문장을 인간이나 컴퓨터가 만들어내면 적절한 품사를 추가해서 문장을 완성해내는 것.

■ 구절 단위 분석 : 명사구, 동사구, 부사구 등을 식별을 하고 분석을 하는 것

■ 분석하기 용이하게끔 각각의 단어에 대해서 의미를 가지고 계층도를 만들어 주는 것이 자연어 처리이다.

■ 맨 위의 문장을 a, dog, is, chasing, a, boy.... 등등 하나하나씩 속성을 파악하고 있다.

■ TF-IDF : TF와 IDF는 분석을 해서 추출해낸 수치 값들을 말함. 즉, TF, IDF라는 두 가지의 측정 결과를 조합을 해서 만들어내는 방법론이 TF-IDF이다.

■ 문서 : 문서 하나

■ 문서군 : 여러 문서들이 모여 있는 집합

■멀티미디어 빅데이터 주요 방법론 2가지.

■ 특징 추출

- Hand-crafted feature : 사람의 힘으로 분석함. 즉, 사람이 데이터를 미리 보는 것이 아니라, 사람의 지식과 기술력을 바탕으로 추출 알고리즘을 만들어내는 경우가 있다.

- 사람이 일일이 개입을 하다 보면 지금의 거대한 빅데이터를 모두 파악하지 못할 수도 있게 된다. 그래서 나온 것이 딥 러닝이다.

■ 딥 러닝

- 자동화해서 특성을 추출하고 정보를 추출할 수 있게 된다.

■ 푸리에 변환 : 전자공학에서 사용을 하는 주파수 분석 기법.

■ 인터(inter) : 프레임 간, 장면 장면 간을 뜻하는 것이다. 글로벌이라고 생각하면 된다.

■ 인트라(intra) : 어떤 장면 내부 내부에서의 특징을 추출하는 것. 로컬이라고 생각하면 된다.

■ SNS에서는 다양한 데이터들을 발굴할 수 있기 때문에, 향후에 빅데이터 분석에 마케팅 활용가치가 높을 수 있다.

■ SNS에서 생성되는 데이터를 마이닝하는 방법

■ NLP 분석 : SNS 상의 데이터는 대부분 우리의 일상 언어를 바탕으로 만들어져 있다. 그래서 NLP의 분석 기법을 이용하는 것이다. NLP가 일상 언어에 가깝게 모사를 하고 있기 때문.

■학습정리

1. 멀티미디어 빅데이터 개요

기존의 데이터 응용 소프트웨어가 처리하기에 매우 거대하거나 복잡한 데이터의 집합
정보 통신 기술의 주도권이 데이터로 이동
빅데이터의 처리 과정: 생성 → 수집 → 저장 → 처리 → 분석(머신러닝, 기계학습을 통해 반자동, 자동으로 데이터 패턴을 발견하게 된다.) → 표현

2. 데이터 마이닝 (Data Mining)

대규모로 저장된 데이터 안에서 체계적이고 자동적인 통계적 규칙이나 패턴을찾아내는 작업
대규모 데이터로부터 의미를 찾아내는 데에 있어 중요도가 급증하고 있음

3. 멀티미디어 빅데이터 처리

특징 추출(Feature Extraction): 오디오, 비디오, 이미지, 텍스트, 뉴미디어 등의 멀티미디어 데이터로부터 특징을 추출
딥 러닝(Deep Learning): 전처리 된 멀티미디어 데이터에 대하여 인공신경망(ANNs) 등의 방법론을 적용하여 자율학습한 모델링 결과를 바탕으로 특징을 추출하는 방법

'컴퓨터공학 > 멀티미디어개론' 카테고리의 다른 글

9. 이미지의 개요와 응용분야 (2) (0)	2024.06.28
9. 이미지의 개요와 응용분야 (1) (0)	2024.06.28
7. 텍스트의 개요와 응용분야 (1)	2024.06.19
6. 저장매체 (0)	2024.06.12
5. 멀티미디어 시스템 (0)	2024.06.12

Second Run

8. 멀티미디어 빅데이터

■학습정리

'컴퓨터공학 > 멀티미디어개론' 카테고리의 다른 글

티스토리툴바

8. 멀티미디어 빅데이터

■학습정리

'컴퓨터공학 > 멀티미디어개론' 카테고리의 다른 글

관련글

티스토리툴바