목록전체 글 (99)
juuuding
※ 혼자 읽고 정리한 글이라 틀린 내용이 있을 수 있습니다. [Rethinking the Inception Architecture for Computer Vision]https://arxiv.org/abs/1512.00567 💡General Design Principles 다음은 합성곱 신경망 아키텍처 설계에서 중요한 원칙들을 대규모 실험을 통해 도출한 내용이다. 1. 네트워크 초반부에서 representational bottleneck을 피해라 네트워크 초기에 정보의 극단적인 압축을 피하고, 정보가 손실되지 않도록 표현의 크기를 점진적으로 감소시키는 것이 중요하다. 정보의 내용은 표현의 차원만으로 평가될 수 없고, 차원은 대략적인 추정치를 제공할 뿐이지 상관 구조와 같은 중요한 요인을 나타내지는 못..
Hyperparameter tuning Tuning Process 하이퍼파라미터는 중요도에 따라서 튜닝을 진행해주어야 한다. 아래는 하이퍼파라미터 별 중요도 순으로 나열한 목록이다. ① learning rate② momentum(0.9), #hidden units, mini-batch size③ #layers, learning rate decay④ Adam: beta1(0.9), beta2(0.999), epsilon(10^-8) 이제 이 하이퍼파라미터들을 선택하는 방법에 대해 알아보자. 하이퍼파라미터를 탐색하는 방법에는 그리드, 랜덤 탐색이 있다. 결론적으로 랜덤 탐색을 사용하는 것이 좋은데, 그 이유는 여러 하이퍼파라미터 중 어떤 것이 중요한지 모르기 때문이다. 참고로 하이퍼파라미터 수가 적을..
cs231n 전체 내용 정리 필기본
※ 혼자 읽고 정리한 글이라 틀린 내용이 있을 수 있습니다. [Visualizing_Understanding_CNN (ZFNet)]https://arxiv.org/pdf/1311.2901 💡Introduction 합성곱 신경망은 얼굴 인식, 숫자 인식 등에 뛰어난 성능을 보였다. 이 뛰어난 성능을 보인데에는 큰 훈련 세트, 강력한 GPU로 인한 큰 모델 생성, dropout과 같은 새로운 regularization 전략 등의 역할도 큰 비중을 차지하였다.이러한 발전들에도 불구하고 이 모델의 내부 연산, 과정, 어떻게 좋은 성능을 내는지에 대한 이해도가 부족하다. 이 점을 해결하기 위해 visualization을 하며 이 시각화는 multi-layered Deconvolutional Network를 ..
Mini-batch gradient descent mini-batch란 총 m개의 훈련 예제가 있다고 가정했을 때 일정한 크기(n)로 훈련 예제를 나누어서 여러 개의 부분으로 나누어 놓은 것을 의미한다. 예를 들어 100000개의 훈련 예제가 있다고 가정했을 때 미니 배치의 크기를 1000으로 설정하면 100개의 서로 다른 미니 배치가 생긴다. 이러한 미니 배치를 가지고 경사 하강을 하는 것을 "mini-batch gradient descent"라고 한다. 반대로 batch gradient descent가 있는데 이것은 모든 훈련 예제를 가지고 동시에 경사 하강을 진행하는 방식이다. 즉 이제까지 하던 경사하강 방식이다. mini-batch gradient descent는 각 배치를 벡터화시켜 경사 하..
※ 혼자 읽고 정리한 글이라 틀린 내용이 있을 수 있습니다. [ImageNet Classification with Deep ConvolutionalNeural Networks (AlexNet)]https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf 💡 Introduction 객체 인식의 성능을 높이기 위해서는 큰 데이터셋과 강력한 모델 학습이 필요하다. 이 전까지의 간단한 작업들에서는 증강 기법을 사용하여 꽤나 적은 데이터로 잘 학습이 되었다. 하지만 실제 환경의 객체를 인식하기 위해서는 매우 큰 훈련 데이터셋이 필수다. 그래서 최신(2012년 기준)에 고해상도의 사이즈가 매..
※ 혼자 읽고 정리한 글이라 틀린 내용이 있을 수 있습니다. [Learning From Imbalanced Data With Deep Density Hybrid Sampling]https://ieeexplore.ieee.org/document/9723474 Abstract 1. 문제 대부분의 경우 모델을 학습할 때 훈련 데이터 세트에서 클래스 간의 샘플 수가 불균형하게 분포되어 있어, 분류기가 다수 클래스에 편향되어 소수 클래스의 성능이 저하되는 문제가 있다. 이를 해결하기 위해 이 논문에서는 DDHS라는 방법을 도입하여 불균형 데이터 세트에서 분류 성능을 향상시키고자 한다. 2. 기존 방법의 문제 - minority 클래스나 majority 클래스에만 집중을 하고 두 클래스 간 관계는..
✏️ Setting up your ML application Train/dev/test sets 모델의 하이퍼파라미터(계층 수, 은닉 유닛 수, 학습률, 활성화 함수)을 정한 후 코드로 구현하고 훈련을 시켜본 후 값을 조금 변경해보면서 성능이 어떤 값을 가진 모델이 제일 좋은지 측정하여야 한다. 최적의 하이퍼파라미터는 한 번에 구하는 것이 거의 불가능하며 수차례 반복 과정을 거쳐야 한다. 가장 최적의 성능을 가진 모델을 찾았다고 해도 이것이 다른 작업/분야에도 똑같이 적용되는 것이 아니며 모든 모델을 설계할 때마다 이러한 작업을 반복해야한다. 이렇게 작업을 반복하며 모델의 성능을 측정하여야 하는데, 이때 필요한 것이 train/dev/test set이다. 이 set은 자료들의 집합을 의미하는데 ..