목록전체 글 (8)
개발하는 뚱이

소켓이란? 컴퓨터 네트워킹에서 프로세스 간 통신을 위해 사용되는 종단점이러한 소켓은 소켓 주소로 다른 호스트에 외부적으로 식별되며, 소켓 주소는 프로토콜, IP주로, 포트 번호의 3 요소이다.- 프로토콜 : 데이터를 주고 받을 때 어떤 형식으로 , 어떤 절차에 따라 통신할지 정함 - TCP : 연결 지향적 통신, 신뢰성 - UDP : 비열결 지향적, 빠른 전송 속도- IP : 네트워크 상에서 각 장치의 고유한 주소- 포트 번호 : 프로세스와 연결된 데이터 통로 - 0 ~ 65535 사이의 숫자 사용 가능 소켓은 어떻게 연결이 될까??(TCP/IP 4계층)응용 계층(Application Layer)애플리케이션이 소켓을 사용해 데이털르 주고 받음전송 계층(Transport ..

백엔드 개발을 하면서 ORM을 그냥 편해서 쓰고 있는데 정작 ORM이 어떤한 점이 좋고 나쁜지 잘 모르고 있는 상태로 개발을 하고 있는 내 모습을 보았다. 그래서 오늘은 ORM이 무엇인지 알아보겠다. ORM(Object-Relational Mapping)란?객체와 관계형 데이터베이스의 데이터를 자동으로 매핑해주는 것을 의미한다.이러한 ORM을 사용하면 SQL을 사용하지 않고도 쉽게 DB 테이블에 작업을 할 수 있다. OOP에서는 클래스와 객체를 사용하여 데이터를 구조화하고 조작한다.반면 RDB는 테이블과 행을 사용하여 데이터를 저장한다.이 둘 사이에는 여러 가지 차이가 있어 직접적으로 매핑하기 어려운 부분이 존재하는데, 이를 객체-관계 불일치라고 한다.그렇기 때문에 ORM을 통해 객체 간의 관계를 바탕으..

서포트 백터 머신(support vector machine)이란??주어진 데이터가 어느 카테고리에 속하는지 분류하는 이진 분류 모델입니다.SVM은 N차원의 공간을 N-1차원으로 나눌 수 있는 초평면을 찾는 기법입니다.이제 차근차근 알아보도록 합시다. 마진과 서포트 백터위 사진은 클래스 0과 클래스 1을 이진분류한 사진입니다.SVM은 2개의 클래스를 이진 분류할 수 있는 구분선(결정 경계)을 찾고자 합니다. 여기서 구분선(결정 경계)이라는 것은 마진을 최대화한 선입니다.여기서 마진은 각 클래스 중 가장 끝에 있는 데이터의 거리입니다.그리고 각 클래스 중 가장 끝에 있는 데이터를 서포트 백터라고 합니다. 서포트 백터라 하는 이유!데이터들의 위치에 따라 초평면의 위치가 달라지기 때문에 초평면 함수를 지지한다는..

규제란??모델이 과적합이 일어나지 않게 가중치를 제한하여 과적합을 완화하는 방법 과적합(Overfitting) 과적합이란 모델이 학습 데이터에 너무 맞춰서 학습한 상태를 말합니다.이때 학습 데이터에서는 성능이 뛰어나지만 새로운 데이터에 대해서 성능이 떨어지는 문제가 생기는 것을 말합니다. 다중 회귀를 하다 보면 독립변수(특성)의 개수가 엄청 많은 경우가 있는데, 이럴 때 모델은 특성들 간의 관계를 학습하기 어려워지고, 유의미한 데이터(노이즈)를 학습하면서 과적합 문제가 발생 합니다.이제 이러한 문제를 해결하기 위한 방법을 알아봅시다. 릿지 & 라쏘 회귀는 선형회귀의 한 종류입니다.선형 회귀에서 독립 변수의 개수에 따라 단순회귀와 다중 회귀로 나뉩니다.단순 회귀 : 독립 변수(특성) = 1다중 회귀 :..

손실함수란??손실함수란 실제값과 예측값의 차이를 나타내는 말입니다.손실함수는 모델이 어떠한 방향으로 학습을 해야 하는지 알려줍니다.(나침반과 같은 역할을 함) 과연 어떻게 손실함수를 구할까??손실함수도 손실은 구하는 방법이 여러 가지가지 있습니다.대표적으로 MSE, MAE에 대해 소개하겠습니다. MSE(Mean Squared Error)- 평균 제곱 오차로 실제값과 예측값을 뺀 뒤 제곱하고 평균을 내어 손실함수를 구합니다.- 오차에 대해 민감한 특징을 가지고 있습니다.(데이터 개수 : n, 실제값 : yi, 예측값 : y^i) MAE(Mean Absolute Error)- 평균 절대 오차로 실제값과 예측값을 뺀뒤 절댓값을 구하고 평균을 내어 손실함수를 구합니다.- 오차에 대해 MSE보다 덜 민감한 특징..

의사결정 트리가 무엇일까??의사결정 트리는 회귀와 분류가 모두 가능한 지도학습의 모델 중 하나입니다.의사결정 트리는 스무고개 하듯이 질문하고 데이터의 특징을 찾아내 분류를 합니다. 아래 그림을 보면 쉽게 이해가 가능합니다.이렇게 질문에 따라 데이터를 구분하는 모델을 결정트리 모델이라고 합니다.그렇게 더 이상 질문할 것이 없고 데이터가 균일하다고 판단될 경우 그 값은 리프 노드가 됩니다. 자! 한 번 어떻게 작동이 되는지 알아봅시다.작동 방식위 사진과 같이 데이터를 잘 구분할 수 있는 질문으로 데이터를 나눕니다.나뉜 범주에서 또다시 데이터를 가장 잘 구분할 수 있는 질문을 하여 나눕니다.하지만 이를 너무 많이 하면 아래와 같은 상황이 발생합니다.위 사진은 오버피팅이 발생한 사진입니다. 이렇게 오버피팅이 ..

로지스틱 회귀란 무엇일까?로지스틱 회귀는 입력 데이터가 들어왔을 때 그 데이터가 어떠한 범주에 속할 확률을 0 ~ 1로 값을 예측 후, 더 높은 범주에속하는 것으로 분류를 하는 지도학습 알고리즘 입니다. 로지스틱 회귀는 이름이 '회귀'이지만 작동 방식은 분류와 가깝습니다. 간단히 생각을 해보면, 스팸 메일을 분류할 때 받은 매일이 스팸 메일이라면 스함에 아니라면 메일함에 넣는것을 생각 하면 됩니다. 그럼 이러한 로지스틱 회귀가 어떠한 방식으로 구현이 되고 작동이 어떻게 되어 있는지 쉽게 알아 봅시다. 로지스틱 회귀의 그래프 && Sigmoid Function 알아보자!이 그림에서 S자 형태의 그래프를 확인할 수 있습니다.이러한 S자 형태는 Sigmoid Function(시그모이드 함수)의 특성을 나타냅..

회귀란 무엇일까?? - 통계학에서 회귀란 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관관계를 모델링하는 기법을 통칭합니다. 예를 들어 집값을 예측하는 모델에서 집의 크기, 방의 개수, 화장실 개수 등등은 독립 변수라 할 수 있고 집값은 종속 변수라고 할 수 있습니다. 이제 이러한 관계가 어떠한 식으로 나타나는지 모델링하고 예측하는 방법입니다. 모델링이란 : 주어진 데이터를 수학적 표현(모델)으로 변환하고, 이를 통해 예측 또는 분석을 할 수 있는 구조를 만드는 과정 쉽게 정리 하자면 두 변수 사이의 상관관계를 분석하는 방법이라고 생각하면 쉽습니다. 그렇다면 이제 회귀 방법 중에서도 가장 기본적인 형태인 선형 회귀에 대해 설명을 해보겠습니다. 선형 회귀란??선형 회귀는 어떠한 독립 변수..