2015년 12월 Quora 글https://www.quora.com/What-is-the-vanishing-gradient-problem 의 번역 글쓴이 Nikhil Garg - Quora 엔지니어링 매니저 Vanishing Gradient Problem(기울기값이 사라지는 문제)는 인공신경망을 기울기값을 베이스로 하는 method(backpropagation)로 학습시키려고 할 때 발생되는 어려움이다.특히 이 문제는 네트워크에서 앞쪽 레이어의 파라미터들을 학습시키고, 튜닝하기 정말 어렵게 만든다. 이 문제는 신경망 구조에서 레이어가 늘어날수록 더 악화된다. 이것은 뉴럴 네트워크의 근본적인 문제점이 아니다. 이것은 특정한 activation function를 통해서 기울기 베이스의 학습 method를 ..
텐서플로우는 현재 가장 범용적으로 사용되는 딥러닝 프레임워크이다. [장점]1. 텐서 보드(TensorBoard) : 가장 많은 사람들이 압도적으로 텐서플로우를 지지하는 이유라고 볼 수 있다. 텐서 보드를 통해서, 파라미터의 변화 양상이나 DNN에 대한 구조도를 그려줌으로써 Tensor들과의 연결관계, Tensor의 Flowing Status 를 잘 보여주는 것이 매력이라고 한다. - Logging events interactively 리눅스에서 tail -f 과 같은 명령으로 로그파일을 체크하듯 마찬가지로 Logging events를 통해서 할 수 있다. 2. 구글 소프트웨어 전문가들의 작품 : 애초에 산업용으로 만들어진 프레임워크이며, 구글에서 공식 릴리즈하였기 때문에, 그 전문성이 보장된다고 할 수 ..
[Evaluating a Learning Algorithm]1. Deciding What to Try Next - Week6까지 왔다면, 스스로를 머신러닝 전문가라고 불러도 무방하다. 이어지는 강의는 이후 어떻게 나아가야할 지 제시함 - 모델 트레이닝하는데, 무작정 데이터를 모으기만하는 것은 그렇게 큰 도움이 되지 않는다. 그것을 보일 것임 - 만약, hypothesis를 세우고 나서, 테스트를 했는데 예측 성능에 큰 에러를 보였다. 그래서 디버깅을 해야되는데 어떻게 할까? - training example들을 더 모은다. - feature 셋을 좀 줄여서 overfitting을 막는다. - 의미가 있는 feature들을 추가한다.(기존의 feature들이 not informative 하다는 전제) - ..
[Logistic Regression] 굉장히 인기있고, 널리 쓰이는 모델 [Classification and Representation]1. Classficiation - Classification은 binary / multiclass 가 가능한데, 지금은 {0, 1} 로 표현할 수 있는 binary classficiation을 다룸 - linear regression에 threshold classifier output을 적용하는 예를 생각해보자. 만약 h(x) 가 있을 때, 어떤 값 a를 기준으로 그 이상이면 1 아니면, 0으로 구분하여 classification을 할 수 있다. 하지만, 만약 example data가 추가된다면 linear regression의 h(x)가 변화할 수 있고 이러한 변화..
[Multivariate Linear Regression]1. Multiple Features - 이전 시간까지는 variable이 1개, 2개인 것만 봤는데, 조금 더 변수가 많은 multiple featrue 모델을 보자 - n = number of features 이며, x^(i) = input of i_th training example. 만약 x^2라면 2번째 training example의 variable들이며 이는 n by 1 vector로 표현됨 - linear regression에서 x0, 즉 x_0^(i)는 1로 정의한다 - 이 경우, h함수는 0부터 n까지, n+1개의 feature로 이루어진 x벡터 그리고 n+1개의 θ로 이루어진 θ벡터의 inner product로 표현할 수 있다 ..
Caffe는 딥 뉴럴 네트워크를 트레이닝하여 모델을 만들고 해당 모델에 대해 테스트 및 검증을 할 수 있도록 잘 만들어진 딥러닝 프레임워크이다.버클리 비전 & 러닝 센터(BVLC)에서 제작하여 배포하고 있다.BVLC : http://caffe.berkeleyvision.org/ Caffe를 설치 및 테스트 해볼 요량으로 잠깐 건들였다가 꽤 많은 시간을 디버깅에 투자하게 되어, 설치하려는 다른 연구자와 미래의 나를 위해 포스팅을 남긴다.본 포스팅은 Caffe 설치와 해당 예제(LeNet을 이용한 Mnist 이미지 데이터 학습)를 돌려보는 것까지에 대한 이슈를 해결한 것에 대한 문서다. 특별히 configuration이 필요없는 경우 설치는 아래의 링크를 따라하면 충분히 잘 설치될 수 있다.Caffe Ins..
[Linear Algebra Review]1. Matrices and Vectors - 4 by 2 matrix를 IR^(4x2)로 표현하기도 함(matrix를 이루는 숫자들의 집합이 IR일 경우, 주로 대문자로 나타냄 => A, B, C, D - Vector는 n x 1 matrix, 만약 4 x 1 vector가 있을 때 우리는 이것을 4-dimensional vector라고 부르고, IR^4라고 표기함 - vector를 y 라고 할 때 vector의 element는 y_i 로 표기 - 표기방법에는 전통적으로 0과 1로 시작하는, 0-indexed / 1-indexed가 있음. 1-index를 주로사용하지만, 0-indexed를 사용할 필요가 있을 때도 있음 2. Addition and Scalar ..
[Parameter Learning]1. Gradient descent(기울기 강하) - linear regression에서 cost function J 등 여러가지 함수를 minimize하는 알고리즘으로, 머신 러닝 전역에 사용됨 - 두 parameter를 가지는 J function이 있을 때 이를 minimize한다고 하면, 일단 두 parameter가 0으로 초기화될 것을 가정함. 그리고 그 두 파라미터를 인풋으로 한 J의 아웃풋이 local minimum이 되도록 함 - 3D 그래프에서 경사를 가능한 빠르게 내려가는 방법은? 기울기가 가장 급한 곳을 greedy하게 찾아서 내려감. initial point에 따라 local minimum이 완전히 다른 곳으로 가는 특징이 있음 - Gradient ..
[Introduction]1. What is the machine learning - 머신러닝은 인공지능이나 몇 가지 분야의 베이스가 됨 - 웹 클릭 데이터, 의학 레코드, 생물 정보 등 데이터가 쏟아지는 중 - 직접 손으로 프로그램을 짤 수 없는 영역의 프로그래밍 방법(손글씨 인식을 통한 자동 우편 분류, 추천 알고리즘 등) - (미국) 채용시장에서, 기계학습 전공자의 수요가 급격하게 증가 2. Supervised Learning - 정답인 데이터셋을 주고, 이것이 정답이야! 알려줌, 기계는 학습 후 더 많은 정답을 찾아냄 - regression problem 으로 조금 더 정확히 말할 수 있는데, regression이란 연속적인 속성 값을 예측하는 것을 의미함 - classification은 이산적인..
뭔가 공부하고 싶어서 공부할 수 있는 거리가 생긴다는 것은 축복이라고 생각한다.그리고 그것이 평생의 업으로 이어진다면 더욱 좋을 것 같다. 이런 꿈을 찾는 작업에 대해서는 정말 말이 많다.가슴이 뛰는 일을 하라. 아니다, 가슴 뛰는 일이 없다고 잘못된건 아니다.그럼 하고싶은걸 찾는데 그냥 생각만하면 되냐?내 안에서는 이렇게 귀결되었다 => '실제로 일하는 사람들의 경험을 듣거나 관련 분야를 학습해보라' (다음소프트 송길영 부사장) 결국 평생 일을 하며 먹고 살아야 한다면 그런 일들이 내 삶이 되는 것은 필연이다.따라서 그냥 그 자체로 별로인 일을 구태여해서 예정된 실패 수순을 밟아가고 싶지 않다는 것이 기본적인 생각이다.다르게 말하면, 실패하거나 해도 어차피 내가 좋은 일이었기 때문에 실패해도 상관없는 ..
- Total
- Today
- Yesterday
- 예쁜 마음
- caffe
- 만성양꼬치
- 프레젠테이션 문제 해결법
- linear regression
- 트러블 슈팅
- ADP
- 암살 교실
- 뭣이중헌디
- 데이터과학자
- 커널
- Andrew Ng
- 머신러닝
- Quora
- 아웃풋
- vanashing gradient problem
- 나는한번읽은책은절대잊어버리지않는다
- 나의 존재 화이팅
- ADsP
- 영월행 일기
- 딥러닝
- Linear algebra
- tensorflow
- machine learning
- 데이터과학
- 코딩 호러
- logistic regression
- 도커
- 앤드류 응
- 텐서플로우
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |