Home

[CV] Image Classification Model 정리

LeNet-5 LeNet-5는 이미지 분류 문제를 성공적으로 해결한 최초의 CNN 모델로, Conv → Pool → Conv → Pool → FC → FC로 이루어진 간단한 모델이다. Conv Layer는 5x5 필터에 Stride를 1을 사용했고, Pooling Layer에서는 Stride 2에 2 x 2 Average Pooling을 사용했다. AlexNet 5개의 Conv Layer, 3개의 Max Pooling Layer, 3개의 FC Layer로 구성된 LeNet-5와 유사하지만, 더 확장하면서 ReLU, DropOut 등이 적용된 모델이다. AlexNet은 학습 시에 ...

Read more

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Abstract Instruction-following 오디오- 언어 모델은 많은 집중을 받았지만, 다양한 오디오 type과 task를 다룰 수 있는 사전 학습된 모델이 없어 발전이 느렸다. → 그래서 Qwen-Audio 모델을 개발하여, 30개 이상의 작업 및 다양한 오디오 유형을 포함하도록 오디오-언어 사전 훈련을 확대하여 보편적인 오디오 이해 능력을 촉진함으로써 이 한계를 해결하려 함 하지만 서로 다른 데이터 셋과 관련된 텍스트 라벨이 task focus, 언어, 주석의 수준, 텍스트 구조의 차이로 인해 상당한 variation을 가지기에 Interference(간섭) 문제가 있음 간섭 문제를 ...

Read more

[프로그래머스] 시소 짝궁

문제 from collections import Counter from itertools import combinations, permutations def solution(weights): answer = 0 cnt = Counter(weights) for k, v in cnt.items(): if v > 1: answer += v * (v-1) // 2 if k * 2 in cnt.keys(): answer += v * cnt[k * 2] if k * 3 % 2 == 0 and k...

Read more

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

Abstract 몇개의 input view를 사용하여 Underlying continuous volumetric scene function을 최적화하여 복잡한 장면의 새로운 뷰를 합성하는 SOTA 기술을 제시 Convolution없이 Fully-Connected만 사용하고, Input으로는 5D($x, y, z, \theta, \phi$)를 사용하고, output으로는 해당 위치의 Volume Density와 view-dependent emitted radiance가 나온다. $x, y, z, \theta, \phi$들이 input으로 들어오고, $x, y, z$는 공간 위치를 나타내고, $\the...

Read more