AI/인공지능 당뇨병 관련 예측(diabetes 130)
-
지난 글에 이어 모델 학습 및 평가를 해보겠습니다. # 모델링 데이터에서 X와 y를 분리 시킵니다 #- Scaling - 스케일링은 예를들어 집값의 범위는 100억~천만원 단위인데 BMI 값은 18~30이라 모델링할때 수치가 큰쪽으로 치우쳐 모델링이 잘 안되는것을 방지하기위해 설정한 범위 내의 값으로 변환 시켜줍니다. scaling model로는 StandardScaler를 씁니다. fit_transform()은 fit() 과 transform() 함께 수행하는 메소드 입니다. from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split X = df.loc[:, df.columns !..
Pima Indian Diabetes 데이터 Clustering & Classification (Part.2)지난 글에 이어 모델 학습 및 평가를 해보겠습니다. # 모델링 데이터에서 X와 y를 분리 시킵니다 #- Scaling - 스케일링은 예를들어 집값의 범위는 100억~천만원 단위인데 BMI 값은 18~30이라 모델링할때 수치가 큰쪽으로 치우쳐 모델링이 잘 안되는것을 방지하기위해 설정한 범위 내의 값으로 변환 시켜줍니다. scaling model로는 StandardScaler를 씁니다. fit_transform()은 fit() 과 transform() 함께 수행하는 메소드 입니다. from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split X = df.loc[:, df.columns !..
2021.07.24 -
- PROCESS - 데이터 탐색 -> 데이터 전처리 -> 데이터 클러스터링 -> 모델링 -> 성능 평가 이번에는 데이터분석의 입문용으로 좋은 pima indian diabetes 데이터로 군집화와 분류를 해보겠습니다. 코드는 git에 올려놨으니 참고하시면 되겠습니다. https://github.com/imtelloper/data-analysis-pimaindian-cls-clf.git 데이터 출처 : https://www.kaggle.com/uciml/pima-indians-diabetes-database ############ 데이터 컬럼 설명 ############ Pregnancies: 임신 횟수 Glucose: 포도당 부하 검사 수치 BloodPressure: 혈압(mm Hg) SkinThick..
Pima Indian Diabetes 데이터 Clustering & Classification (Part.1)- PROCESS - 데이터 탐색 -> 데이터 전처리 -> 데이터 클러스터링 -> 모델링 -> 성능 평가 이번에는 데이터분석의 입문용으로 좋은 pima indian diabetes 데이터로 군집화와 분류를 해보겠습니다. 코드는 git에 올려놨으니 참고하시면 되겠습니다. https://github.com/imtelloper/data-analysis-pimaindian-cls-clf.git 데이터 출처 : https://www.kaggle.com/uciml/pima-indians-diabetes-database ############ 데이터 컬럼 설명 ############ Pregnancies: 임신 횟수 Glucose: 포도당 부하 검사 수치 BloodPressure: 혈압(mm Hg) SkinThick..
2021.07.13 -
지난글에 이어서 모델 학습 및 평가를 시작하겠습니다. 사용할 모델입니다. - LogisticRegression - RandomForest - DecisionTree#- GridSearchCV -GridSearchCV는 최적의 파라미터를 찾아주고 교차검증도 해줍니다.여기서 파라미터란 모델에서 bias 값 즉 예측할때 가장 적합한 값을 찾아준다고 보면됩니다.y = wX+b 에서 b값이라고 보면됩니다.#- SMOTE -y의 값이 불균형적이라 1의 값을 늘리고 0의 값을 줄이고 하는 복합적으로 불균형한 데이터를 균형있게맞출 수 있도록 SMOTE를 씁니다. SMOTE는 데이터를 늘리고 줄여서 데이터를 변화시키기 때문에반드시 train 데이터셋에만 적용합니다. test값은 실제로 테스트해봐야하기 때문에 그데로 보..
Diabetes 130 US hospitals for years 1999-2008 / 당뇨병 환자가 30일 이내에 병원을 재방문 할 것인지에 대한 인공지능 예측(2)지난글에 이어서 모델 학습 및 평가를 시작하겠습니다. 사용할 모델입니다. - LogisticRegression - RandomForest - DecisionTree#- GridSearchCV -GridSearchCV는 최적의 파라미터를 찾아주고 교차검증도 해줍니다.여기서 파라미터란 모델에서 bias 값 즉 예측할때 가장 적합한 값을 찾아준다고 보면됩니다.y = wX+b 에서 b값이라고 보면됩니다.#- SMOTE -y의 값이 불균형적이라 1의 값을 늘리고 0의 값을 줄이고 하는 복합적으로 불균형한 데이터를 균형있게맞출 수 있도록 SMOTE를 씁니다. SMOTE는 데이터를 늘리고 줄여서 데이터를 변화시키기 때문에반드시 train 데이터셋에만 적용합니다. test값은 실제로 테스트해봐야하기 때문에 그데로 보..
2021.05.19 -
데이터 다운로드 링크https://www.kaggle.com/brandao/diabetes Diabetes 130 US hospitals for years 1999-2008Diabetes - readmissionwww.kaggle.com diabetes 130데이터는 미국 130 개 병원 및 통합 전달 네트워크에서 10년간의(1999-2008) 임상 치료를 나타냅니다.여기에는 환자 및 병원 결과를 나타내는 50 개 이상의 변수가 포함되어 있습니다.다음 기준을 충족하는 환자에 대한 정보가 데이터로 추출되었습니다.- 입원 환자의 만남 입니다.- 당뇨병 환자의 당뇨병 진단으로 시스템에 입력되었습니다.- 체류 기간은 최소 1 일, 최대 14 일이었습니다.- 만남 중에 실험실 테스트가 수행되었습니다.- 만남 중에..
Diabetes 130 US hospitals for years 1999-2008 / 당뇨병 환자가 30일 이내에 병원을 재방문 할 것인지에 대한 인공지능 예측(1)데이터 다운로드 링크https://www.kaggle.com/brandao/diabetes Diabetes 130 US hospitals for years 1999-2008Diabetes - readmissionwww.kaggle.com diabetes 130데이터는 미국 130 개 병원 및 통합 전달 네트워크에서 10년간의(1999-2008) 임상 치료를 나타냅니다.여기에는 환자 및 병원 결과를 나타내는 50 개 이상의 변수가 포함되어 있습니다.다음 기준을 충족하는 환자에 대한 정보가 데이터로 추출되었습니다.- 입원 환자의 만남 입니다.- 당뇨병 환자의 당뇨병 진단으로 시스템에 입력되었습니다.- 체류 기간은 최소 1 일, 최대 14 일이었습니다.- 만남 중에 실험실 테스트가 수행되었습니다.- 만남 중에..
2021.05.16