[NLP] Word Embedding
Vector Representation
One-Hot Encoding
사전 안의 단어를 Categorical 변수로 Encoding한 벡터로 표현한 것
사전의 길이만큼 vector의 크기를 만들고 각 단어가 해당하는 vector의 Dimension의 값만 1로 하고 나머지 Dimension에 대해서는 0으로 표현하는 방식이다.
이 One-Hot Encoding의 결과(One-Hot vector)에서 각 vector의 내적은 항상 0이고, 유클리드 거리는 $\sqrt2$이다.
One-Hot vector는 대부분의 값이 0인데 이 값들을 다 저장하고 있어야 하...
[NLP] Tokenization
Tokenization(토큰화)
기본적으로 자연어 데이터는 각 timestep에 대해서 word나 character의 Sequence로 표현된다.
이런 식으로 주어진 자연어 데이터(Text)를 Token단위로 분리하는 방법이 Tokenization이라 하고 이 Token을 NLP 모델의 입력으로 사용한다.
이 때, 모델이 처리할 수 있는 단어는 단어 사전(Vocabulary)에 정의되어 있다. 이 사전을 통해 Token을 one-hot vector로 표현할 수 있다.
Tokenization 방식
Word-Level Tokenization
일반적으로 단어는 띄어쓰기를 ...
High-Resolution Image Synthesis with Latent Diffusion Models
Abstract
Diffusion 모델은 이미지 생성 과정에 연속적으로 denoising autoencoder를 적용하여 분해함으로써, 이미지 합성에서 SOTA를 달성했다.
하지만 이런 diffusion모델은 일반적으로 pixel 공간에서 직접적으로 연산되기에 많은 자원이 필요하다.
그래서 해당 연구에서는 제한된 자원에서 quality와 flexibility를 보존하여 Diffusion 모델을 학습하기 위해 강력한 사전 학습된 autoencoder의 latent 공간에 Diffusion 모델을 적용하였다. 이를 통해 이전과 달리 Diffusion Model 학습에서 복잡도 감소와 detail 보존 사...
[백준] 부녀회장이 될테야
문제
cnt = int(input())
for _ in range(cnt):
floor = int(input())
rooms = int(input())
dp = [[0] * rooms for _ in range(floor + 1)]
for i in range(rooms):
dp[0][i] = i + 1
for f in range(1, floor + 1):
for r in range(rooms):
dp[f][r] = sum(dp[f - 1][:r + 1])
print(dp[floor][rooms - 1])
[프로그래머스] 올바른 괄호
문제
def solution(s):
t = []
for i in s:
if i == '(':
t.append(')')
elif i == ')':
if t:
t.pop()
else:
return False
return True if not t else False
99 post articles, 20 pages.