인공지능 당뇨병 예측
-
지난글에 이어서 모델 학습 및 평가를 시작하겠습니다. 사용할 모델입니다. - LogisticRegression - RandomForest - DecisionTree#- GridSearchCV -GridSearchCV는 최적의 파라미터를 찾아주고 교차검증도 해줍니다.여기서 파라미터란 모델에서 bias 값 즉 예측할때 가장 적합한 값을 찾아준다고 보면됩니다.y = wX+b 에서 b값이라고 보면됩니다.#- SMOTE -y의 값이 불균형적이라 1의 값을 늘리고 0의 값을 줄이고 하는 복합적으로 불균형한 데이터를 균형있게맞출 수 있도록 SMOTE를 씁니다. SMOTE는 데이터를 늘리고 줄여서 데이터를 변화시키기 때문에반드시 train 데이터셋에만 적용합니다. test값은 실제로 테스트해봐야하기 때문에 그데로 보..
Diabetes 130 US hospitals for years 1999-2008 / 당뇨병 환자가 30일 이내에 병원을 재방문 할 것인지에 대한 인공지능 예측(2)지난글에 이어서 모델 학습 및 평가를 시작하겠습니다. 사용할 모델입니다. - LogisticRegression - RandomForest - DecisionTree#- GridSearchCV -GridSearchCV는 최적의 파라미터를 찾아주고 교차검증도 해줍니다.여기서 파라미터란 모델에서 bias 값 즉 예측할때 가장 적합한 값을 찾아준다고 보면됩니다.y = wX+b 에서 b값이라고 보면됩니다.#- SMOTE -y의 값이 불균형적이라 1의 값을 늘리고 0의 값을 줄이고 하는 복합적으로 불균형한 데이터를 균형있게맞출 수 있도록 SMOTE를 씁니다. SMOTE는 데이터를 늘리고 줄여서 데이터를 변화시키기 때문에반드시 train 데이터셋에만 적용합니다. test값은 실제로 테스트해봐야하기 때문에 그데로 보..
2021.05.19 -
데이터 다운로드 링크https://www.kaggle.com/brandao/diabetes Diabetes 130 US hospitals for years 1999-2008Diabetes - readmissionwww.kaggle.com diabetes 130데이터는 미국 130 개 병원 및 통합 전달 네트워크에서 10년간의(1999-2008) 임상 치료를 나타냅니다.여기에는 환자 및 병원 결과를 나타내는 50 개 이상의 변수가 포함되어 있습니다.다음 기준을 충족하는 환자에 대한 정보가 데이터로 추출되었습니다.- 입원 환자의 만남 입니다.- 당뇨병 환자의 당뇨병 진단으로 시스템에 입력되었습니다.- 체류 기간은 최소 1 일, 최대 14 일이었습니다.- 만남 중에 실험실 테스트가 수행되었습니다.- 만남 중에..
Diabetes 130 US hospitals for years 1999-2008 / 당뇨병 환자가 30일 이내에 병원을 재방문 할 것인지에 대한 인공지능 예측(1)데이터 다운로드 링크https://www.kaggle.com/brandao/diabetes Diabetes 130 US hospitals for years 1999-2008Diabetes - readmissionwww.kaggle.com diabetes 130데이터는 미국 130 개 병원 및 통합 전달 네트워크에서 10년간의(1999-2008) 임상 치료를 나타냅니다.여기에는 환자 및 병원 결과를 나타내는 50 개 이상의 변수가 포함되어 있습니다.다음 기준을 충족하는 환자에 대한 정보가 데이터로 추출되었습니다.- 입원 환자의 만남 입니다.- 당뇨병 환자의 당뇨병 진단으로 시스템에 입력되었습니다.- 체류 기간은 최소 1 일, 최대 14 일이었습니다.- 만남 중에 실험실 테스트가 수행되었습니다.- 만남 중에..
2021.05.16