Home

LeNet-5 LeNet-5는 이미지 분류 문제를 성공적으로 해결한 최초의 CNN 모델로, Conv → Pool → Conv → Pool → FC → FC로 이루어진 간단한 모델이다. Conv Layer는 5x5 필터에 Stride를 1을 사용했고, Pooling Layer에서는 Stride 2에 2 x 2 Average Pooling을 사용했다. AlexNet 5개의 Conv Layer, 3개의 Max Pooling Layer, 3개의 FC Layer로 구성된 LeNet-5와 유사하지만, 더 확장하면서 ReLU, DropOut 등이 적용된 모델이다. AlexNet은 학습 시에 ...

Abstract Instruction-following 오디오- 언어 모델은 많은 집중을 받았지만, 다양한 오디오 type과 task를 다룰 수 있는 사전 학습된 모델이 없어 발전이 느렸다. → 그래서 Qwen-Audio 모델을 개발하여, 30개 이상의 작업 및 다양한 오디오 유형을 포함하도록 오디오-언어 사전 훈련을 확대하여 보편적인 오디오 이해 능력을 촉진함으로써 이 한계를 해결하려 함 하지만 서로 다른 데이터 셋과 관련된 텍스트 라벨이 task focus, 언어, 주석의 수준, 텍스트 구조의 차이로 인해 상당한 variation을 가지기에 Interference(간섭) 문제가 있음 간섭 문제를 ...

문제 from collections import Counter from itertools import combinations, permutations def solution(weights): answer = 0 cnt = Counter(weights) for k, v in cnt.items(): if v > 1: answer += v * (v-1) // 2 if k * 2 in cnt.keys(): answer += v * cnt[k * 2] if k * 3 % 2 == 0 and k...

Abstract 몇개의 input view를 사용하여 Underlying continuous volumetric scene function을 최적화하여 복잡한 장면의 새로운 뷰를 합성하는 SOTA 기술을 제시 Convolution없이 Fully-Connected만 사용하고, Input으로는 5D($x, y, z, \theta, \phi$)를 사용하고, output으로는 해당 위치의 Volume Density와 view-dependent emitted radiance가 나온다. $x, y, z, \theta, \phi$들이 input으로 들어오고, $x, y, z$는 공간 위치를 나타내고, $\the...

문제 from collections import Counter def solution(topping): answer = 0 bro = Counter(topping) chul = set() for i in topping: bro[i] -= 1 if bro[i] == 0: del bro[i] chul.add(i) if len(bro) == len(chul): answer += 1 return answer

[CV] Image Classification Model 정리

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

[프로그래머스] 시소 짝궁

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

[프로그래머스] 롤케이크 자르기