목록분류 전체보기 (99)
juuuding
출력 변수 y가 숫자 범위에 있는 값 대신 가능한 몇가지 값 중 하나만 가질 수 있는 "Classification"에 대해 알아볼 것이다. 결론부터 말하면 linear regression은 classification 문제에 적합한 알고리즘이 아니며, classification에는 "logistic regression"을 이용한다. Classification 출력 값 y가 오직 두 값 중 하나만 될 수 있을 때 이것을 "binary classification"이라고 한다. 이 binary classification은 0 or 1의 결과 값을 가진다고 표현될 수 있으며, 0은 false(negative), 1은 true(positive)의 의미를 나타낸다. 여기서 negative, positive는 나쁘고 ..
Feature Scaling 경사 하강이 빠르게 실행될 수 있도록 하는 "feature scaling"에 대해서 알아볼 것이다. [Feature and parameter values] 집 값을 정하는 feature가 집의 크기와 방의 수라고 가정하면 집 값을 결정하는 모델의 식은 다음과 같다. 여기서 x1은 집의 크기이며 x1의 범위는 300-2000이고, x2는 방의 수이며 x2의 범위는 0-5이다. 이와 같이 feature들의 범위가 크게 차이가 나면 parameter w의 값을 조절해주는 것이 좋다. feature의 값이 큰 곳에 큰 w 값을 넣고 작은 곳에 작은 w을 넣어줘야 할지, 값이 큰 곳에는 작은 w을 넣고 작은 곳에 큰 w을 넣어야 할지에 대해 나눠서 비교해보자. House: x1=200..
Multiple Features 이전 내용에서는 변수(특징)이 하나인 경우를 다뤘다. 예를 들어 집 값을 결정하는 요소가 집의 크기 하나 뿐이였다는 것이다. 이것과 달리 이번 단원에서는 집 값을 결정하는 요소를 여러개로 설정해볼 것이다. 즉, "multiple features (vairables)"를 사용할 것이다. 위의 식에서 w와 x는 벡터이며 이를 상기시키기 위해 선택적으로 윗부분에 기호를 넣기도 한다. 우리는 이 식을 "dot product"를 사용하며 아래 식과 같이 표현할 수 있다. 이처럼 입력 특성이 여러 개 있는 모델을 "multiple linear regression (다중 선형 회귀)" 모델이라고 한다. 참고로 multivariate regression(다변량 회귀)라는 것이 있는데, ..
💡Machine Learning Overview - 기계 학습의 2가지 주요 유형: supervised / unsupervised (지도/비지도) Supervised Learning * Supervised learning: 모델이 올바른 입력, 출력 쌍을 가지고 학습한 후, 이 전에 본 적 없는 새로운 입력 x를 입력 받아 적절한 출력 값 y를 생성하는 것을 시도할 수 있다. 학습 알고리즘 예제를 제공한다. [Regression] - 무한히 많은 가능한 output들로 수를 예측한다. ex) Housing price prediction [Classification] - 적은 가능한 output들로 범주를 예측한다. ex) Breast cancer detection + classfication과 regre..
회복 1. 회복의 필요성 - 어떤 트랜잭션 T를 수행하는 도중에 시스템이 다운되었을 때, T의 수행 효과가 디스크의 데이터베이스 일부 반영되었을 수 있음 * 어떻게 T의 수행을 취소하여 원자성을 보장할 것인가? - 또한 트랜잭션 T가 완료된 직후에 시스템이 다운되면 T의 모든 갱신 효과가 주기억 장치로부터 디스크에 기록되지 않았을 수 있음 * 어떻게 T의 수행 결과가 데이터베이스에 완전하게 반영되도록 하여 지속성을 보장할 것인가? - 디스크의 헤드 등이 고장 나서 디스크의 데이터베이스를 접근할 수 없다면 어떻게 할 것인가? 2. 회복의 개요 - 여러 응용이 주기억 장치 버퍼 내의 동일한 데이터베이스 항목을 갱신한 후에 디스크에 기록함으로써 성능을 향상시키는 것이 중요함 - 버퍼의 내용을 디스크에 기록하는..
■ 트랜잭션 (transaction) - 데이터베이스를 수천명 이상의 사용자들이 동시에 접근 - 많은 사용자들이 서로 다른 부분, 같은 부분을 접근하면서 데이터베이스를 사용 - 동시성 제어 (concurrency control) √ 동시에 수행되는 트랜잭션들이 데이터베이스에 미치는 영향은 이들을 순차적으로 수행하였을 때 데이터베이스에 미치는 영향과 같도록 보장 √ 다수 사용자가 데이터베이스를 동시에 접근하도록 허용하면서 데이터베이스의 일관성을 유지함 - 회복 (recovery) √ 데이터베이스를 갱신하는 도중에 시스템이 고장 나도 데이터베이스의 일관성을 유지 트랜잭션 개요 * 두개의 UPDATE문을 수행하여할 때, 첫 UPDATE문을 수행한 후 두 번째 UPDATE문을 수행하기 전에 컴퓨터 시스템이 다운..
* 이번 ch는 장거리 통신에 대해 공부한다. 장거리 통신인 WAN은 소유주가 많기 때문에 traffic의 예측이 불가능하고 그렇기 때문에 provisioning을 정확히 할 수 없기 때문에 느리다. 또, 예측이 불가능하기 때문에 높은 transmission rate을 사용한다. [Station, Node, Communication network & Path] (1) Stations - End devices (컴퓨터, 터미널, 폰...) - host, end node : 맨 끝에 존재하며 L1~L5를 모두 가지고 있음 (data를 생성해서 보내고 싶거나, data를 받고 싶은 주체) (2) Nodes - 중간 네트워크 장비라는 뜻으로 사용 -> Intermediate node, network, excha..
제1정규형, 제2정규형, 제3정규형, BCNF 1. 제 1 정규형 - 한 릴레이션 R이 제 1정규형을 만족할 필요충분조건: R의 모든 애트리뷰트가 원자값만을 가짐 - 릴레이션의 모든 애트리뷰트에 반복 그룹이 나타나지 않으면 제1정규형 만족 - 제1정규형을 만족하지 않을 때 제1정규형으로 변환해주기 + 애트리뷰트의 집합에 속한 각 값마다 하나의 투플로 표현 + 모든 반복 그룹 애트리뷰트를 분리해서 새로운 릴레이션에 넣기. 그리고 원래 릴레이션의 기본키를 새로운 릴레이션에 애트리뷰트로 추가함 1-2. 제1정규형에 존재하는 갱신 이상 - 위 그림의 학생 릴레이션은 모든 애트리뷰트가 원자값을 가지므로 제1정규형 만족 - 이 릴레이션의 기본 키는 (학번, 과목번호) 1-3. 삭제 이상 - 어떤 학과에 소속된 마지..