머신러닝 7

[Azure] AI-900, 인공지능 개요, azure

목차 AI artificial inteliigence 인공지능이 인간의 어떤 능력을 대체하느냐에 따라 아래의 범주로 나눈다. - natural language processing 자연어(우리가 일상적으로 쓰는 대화) 처리 - Perception, Vision 인간의 인지, 감각 - knowledge representation 지식 표현, 추론, 추리 -motion, manipulation 움직임, 조정 -machine learning 기계학습 인공지능 학습에 편향성을 발생시키는 주요 원인 - skewed sample 틀린 것은 아니나, 한쪽으로 치우쳐진 왜곡된 샘플 - tainted example 잘못된 샘플(과거에는 맞았지만 지금은 틀리다던지..) - limited featureds 결과에 중요한 요인..

classification, SVM, support vector machine, kerneling

목차 SVM support vector machine 지도학습으로 separator을 찾아서 여러 케이스들을 분류하는 것이다. SVM은 데이터를 고차원 공간으로 맵핑한 후, separator을 찾는다. 아래와 같이 2차원 공간에 데이터를 두면, linear하게 separate 되지 않는다. 그런데 만약 아래와 같이 고차원 공간에 피처들을 놓는다면, 이야기가 달라진다. 데이터들이 고차원평면으로 separte된다. SVM은 데이터를 분류할 수 있는 최적의 고차원평면(hyperplane)을 찾는 것이 목적이다. Kerneling SVM 알고리즘에서는 kernel 함수 옵션을 제공한다. 고차원 공간으로 데이터를 매핑시키는 것을 커널링이라고 한다. 커널링은 수학적인 함수이며, 다양한 타입이 있다. 모두 장점과 단..

차원감소(dimensionality reduction), SVD

1. 차원감소 dimensionality reduction란? 차원감소 dimensionality reduction은 말 그대로 벡터의 차원을 줄이는 방법을 말합니다. 데이터의 양이 너무 방대할 때, 행렬 내부 원소의 대부분이 0이거나(sparse matrix) 중요도가 낮을 때, 벡터의 차원을 줄이게 됩니다. 이때, 단순히 물질적으로 공간을 축소하는 것이 아니라 중요한 정보는 최대한 유지하면서 줄이는 것이 핵심입니다. 아래의 그림처럼 데이터의 분포를 고려해 중요한 '축'을 찾는 일을 수행합니다. 2. SVD 특잇값분해 차원을 감소시키는 방법 중, 특이값 분해 SVD(Singular Value Decomposition)을 이용하겠습니다. SVD는 임의의 행렬을 세 행렬의 곱으로 분해합니다. U, V는 직..

점별 상호정보량 Pointwise Mutual information(PMI)

1. PMI(Pointwise Mutual information)정의하기 pointwise: 점별의, 즉 주어진 집합의 각점에서 일어나는 경우 mutual: 상호간, 서로의 information: 정보 이를 통해 PMI는 각 벡터에서 일어나는 정보 뿐만이 아니라, 벡터들 간 동시에 일어나는 정보 모두를 고려한다는 것을 유추할 수 있습니다. 2. 식으로 구현하기 PMI는 확률변수 x와 y에 대해 다음 식으로 정의됩니다. P(x,y) 는 x,y가 말뭉치에 동시에 등장할 확률 P(x) x가 말뭉치에 등장할 확률 P(y) y가 말뭉치에 등장할 확률 을 뜻합니다. PMI값이 높다면? 이는 x,y 가 관련이 높다는 것을 뜻합니다. 이번에는 횟수를 사용하여 식을 다시 써봅시다. C(x,y) 는 x,y가 말뭉치에 동시..

코사인 유사도 cosine similarity

백터 사이의 유사도를 측정하는 방법을 배우겠습니다. 다양한 방법이 있겠지만, 자주 이용하는 코사인 유사도에 대해 알아보기로 합시다. 1. 코사인 유사도 cosine similarity 앞서, 단어를 벡터화시켰는데요. 단어와 단어, 즉 벡터와 벡터 사이에 얼마나 관련성이 있는가를 측정하는 것입니다. 만약 코사인 유사도 값이 높다면 이 두 벡터 간의 관련이 높다는 뜻입니다. 2. 구하는 방법 코사인유사도를 구하는 방법은 벡터를 L2노름으로 정규화하고, 내적을 구하는 것입니다. 식은 다음과 같습니다. 분자에는 벡터의 내적이 분모에는 각 벡터의 노름(벡터의 크기)이 등장합니다. 여기에서는 L2노름(벡터의 각 원소를 제곱해 더한 후, 다시 제곱근)을 계산합니다. 두 벡터가 가리키는 방향이 완전히 같다면 코사인 유..