개발/AI
-
Pyspark feature engineering. Robust Scaler개발/AI 2020. 3. 31. 13:13
#Pyspark #FeatureEngineering #RobustScaler Spark 3 버전에는 pyspark RobustScaler가 제공이된다. 하지만 spark 2버전에는 제공되지 않아 직접 구현을 해야한다. 너무 간단한건지, 아무도 이렇게 까지해서 사용하지 않는지 모르겠지만 구글링을 해도 쉽게 찾을 수 없어 구현해봤다. RobustScaler의 equation은 다음과 같이 정말간단한데, 처음 구현했을때 왜인지 데이터가 spark 3.0에서 제공하는 robustScaler와 일치하지 않아 삽질을 엄청 했다. scalar 3.0에서 robustScaler을 standardScaler를 통해 구현을 해놨던데.. 왜그렇게 했는지는 의문? 대표사진 삭제 사진 설명을 입력하세요. 우선 Robust Sc..
-
Product category classification개발/AI 2020. 1. 9. 14:50
"전체 는 맨아래 github링크를 따라가세요." 매월 초 하나더 앱의 상품정보를 각 편의점 홈페이지에서 crawling하여 업데이트를 한다. 이때 상품의 카테고리정보는 제공되지 않기 때문에 직접 수작업으로 분류를 해줘야 한다. 매달 등록되는 행사상품의 갯수는 약 2000여개이고, 이를 수작업으로 분류시 1건당 2~5초의 시간이 소요된다고 했을때 약 2시간의 작업 시간이 소요된다. 이를 해소하기 위하여 우선 기존 전통적인 방법으로, 단어 유사도 검색을 통한 1차 분류를 다음과 같이 진행했다. def similar(a, b): return SequenceMatcher(None, a, b).ratio() simalarity = similar('기존등록품명', '신규등록품명') if ( simalarity >..