Certificate/data science-IBM

data methodololy, CRISP-DM, 데이터분석 단계

Olivia-BlackCherry 2023. 5. 22. 09:50

CRIST-DM

CRISP-DM은 Cross Industry Standard Process for Data Mining의 약자로, 데이터 마이닝 프로젝트를 위한 표준 절차 모델입니다. CRISP-DM은 데이터 마이닝 프로젝트를 단계별로 구성하고, 각 단계에서 수행해야 할 작업과 활동을 안내합니다. CRISP-DM은 다음과 같은 단계로 구성됩니다:

1. 비즈니스 이해 (Business Understanding)

프로젝트의 목표와 요구사항을 이해하고, 문제를 정의하는 단계입니다.

ex) Can we use historical patient hospitalization records and demographic data to predict the current number of patients?

 


2. 데이터 이해 (Data Understanding)

사용 가능한 데이터를 탐색하고, 데이터의 품질과 구조를 이해하는 단계입니다.

-Analytic Approach 

 In this matter, I would like to use historical patient hospitalization records and demographic data to predict the current number of patients. Predictive modeling techniques can be used for this purpose. Predictive modeling is used to predict future values based on patterns in historical data. Predictive modeling can be selected based on the pattern of the data and the accuracy of the prediction, and the modeling technique that best suits the characteristics and goals of the data is selected. I will use decision trees, random forests, linear regression. These models are used to predict the current number of patients by learning historical patient admission records and demographic data.

- Data Requirements - historical patient hospitalization records, demographic data

- Data Collection Utilizing internal data source of hospital purchasing or for free. Using public data sources that provided by government agencies or healthcare organizations.

 

 

3. 데이터 준비 (Data Preparation)

분석에 사용할 데이터를 선택하고, 데이터를 정제하고 변형하는 단계입니다.

- Data understanding and preparation I explore the data, assessing its quality, dealing with NaN, Null values and outliers, performing transformations, standarization, normalization to format the data in a way that is suitable for analysis.

 

 

4.모델링 (Modeling)

데이터에 적합한 모델링 기법을 선택하고, 모델을 구축하고 평가하는 단계입니다.

-I select the linear regression model. Input variables are historical patient hospitalization records and demographic data. Target variable is current number of patients. Data preprocessing was completed so I just train model and test it.

 


5. 평가 (Evaluation)

모델의 성능을 평가하고, 결과를 해석하는 단계입니다.

-I choose the MAE, RMSE for evaluation method. Calculate of evaluation metric to assess the model's performance. The result is meaningful because the accuracy is great.

 


6. 배포 (Deployment)

모델을 실제 환경에 배포하고, 결과를 활용할 수 있는 형태로 전달하는 단계입니다.