본문 바로가기
반응형

머신러닝 딥러닝4

규제(Regularization) 규제란? 규제는 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는 것을 말합니다. 즉 모델이 훈련 세트에 과대 적합하지 않도록 만드는것이라고 생각하지면 됩니다. 선형 회귀 모델의 경우 특성에 곱해지는 계수(또는 기울기)의 크기를 작게 만드는 일입니다. 특성의 스케일이 정규화되지 않으면 여기에 곱해지는 계수 값도 차이가 나게 됩니다. 일반적으로 선형 회귀 모델에 규제를 적용할 때 계수 값의 크기가 서로 많이 다르면 공정하게 제어되지 않을 겁니다. 그렇다면 규제를 적용하기 전에 먼저 정규화를 해야됩니다. 특성이 55개인 데이터를 사용해 선형 회귀 모델을 훈련하겠습니다. 정규화를 위해서 표준편차를 구합니다. 이때 사용한 클래스는 사이킷런에서 제공하는 StandardScaler 클래스 입니다.. 2022. 7. 29.
특성 공학(Feature engineering) 다중 회귀 여러 개의 특성을 사용한 선형 회귀를 다중 회귀(Multiple regression)라고 부릅니다. 1개의 특성을 사용한 선형 회귀 모델이 학습하는것은 직선입니다. 2개의 특성을 사용한 선형 회귀는 평면을 학습하게 됩니다. 특성 공학이란? 특성 공학이란 훈련에 사용할 좋은 데이터(특성)들을 찾는 것이다. 에러, 이상치, 잡음으로 가득하면 결과가 좋지 않게 나오기 때문에 특성공학이 필요하다. 기존의 특성을 사용해서 새로운 특성을 뽑아내는 작업을 특성 공학이라 부릅니다. 특성 선택(Feature selection): 가지고 있는 특성 중에서 훈련에 가장 유용한 특성을 선택합니다. 특성 추출(Feature extraction): 특성을 결합하여 더 유용한 특성을 만듭니다. 판다스 데이터프레임 판다스.. 2022. 7. 28.
다항 회귀(Polynomial Regression) 다항 회귀(Polynomial Regression)란? 비선형 데이터를 학습하기 위해서 선형 모델을 사용하는 기법이다. 단순 선형 회귀를 이용해 모든 데이터의 관계성을 직선으로 표현할 수는 없으므로 다항 회귀 또는 다중 선형 회귀등과 같은 조금 더 복잡한 회귀 모델이 때에 따라 최적의 회귀선을 나타내고는 한다. https://glorychoi.tistory.com/entry/%EC%84%A0%ED%98%95-%ED%9A%8C%EA%B7%80-Linear-regression-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 선형 회귀 (Linear regression) 알고리즘 선형 회귀 선형 회귀는 널리 사용되는 대표적인 회귀 알고리즘입니다. 비교적 간단하고 성능이 뛰어나기 때문에 맨 처.. 2022. 7. 27.
선형 회귀 (Linear regression) 알고리즘 선형 회귀 선형 회귀는 널리 사용되는 대표적인 회귀 알고리즘입니다. 비교적 간단하고 성능이 뛰어나기 때문에 맨 처음 배우는 머신 러닝 알고리즘 중 하나입니다. 특성이 하나인 경우 어떤 직선을 학습하는 알고리즘입니다. 학습을 해야하는 직선은 특성을 가장 잘 나타낼 수 있는 직선으로 학습해야 하기 때문에 위와 같이 특성을 잘 타나내는 직선이 좋습니다. 사이킷런 선형 회귀 구현 사이킷런은 sklearn.linear_model 패키지 아래에 LinearRegression 클래스로 선형 회귀 알고리즘을 구현해 놓았습니다. LinearRegression 클래스에 훈련, 평가, 예측하는 메서드가 있기 때문에 우린 LinearRegression 클래스를 객체를 생성하여 사용하면 됩니다. LinearRegression .. 2022. 7. 26.
반응형