1 분 소요

크롤링

원래 크롤링을 맡아주신 분이 있었는데, 못한다고 연락이 왔다고 했다. 그래서 크롤링 할 사람을 알아보고 있는 중이라고 했는데, 회사 나오기 전에 크롤링 작업을 했었어서 내가 해도 상관 없을 것 같다 라고 말씀을 드렸고, 내가 맡아서 하기로 했다.

크롤링 시작

크롤링을 할 때, 옷 코디의 이미지, 그리고 상의, 하의, 아우터에 대한 정보, 상위 카테고리, 하위 카테고리, 각각의 옷 아이템들의 이름을 가져와야 했다. 그래서 크롤링할 사이트를 들어가 보니, 사이트가 되게 복잡하게 되어져 있었다. 또한 이미지를 배경을 제거를 해달라고 요청을 했다.

문제점

이미지

처음엔 아이템 리스트 페이지에서 모든 걸 가져오면 되겠지라고 생각을 했지만, 썸네일이 gif로 되어져 있어서 가져오지를 못했다. 그래서 상세 페이지에 들어가 이미지를 가져오려고 했더니, 이미지가 2개가 이어진 이미지, 3개가 이어진 이미지들이 있었다. 그래서 이미지 태그에 구분 할 수 있는 class나 id가 있으면 되겠지 싶었지만 없었다.

가로 사이즈는 1000px로 고정이 되어져 있어서, 2개로 이어진 페이지는 세로로 반만 크롭을 하고, 크롭한 2개의 이미지를 배경 삭제하고 작업을 하면 되겠다고 생각을 했었는데, 어떤게 2개가 이어진 이미지고, 어떤게 3개가 이어진 이미지인지를 모르니, 이 방법도 못할 것 같다는 생각을 하였다.

관련 상품 카테고리

또한 코디 사진에서 입었던 옷들의 대한 정보를 관련 상품에서 가져올 수 있었다. 그래서 내가 정리한 category 배열에서 category number와 일치 하는 것이 있다면 상위 카테고리와 하위 카테고리를 저장 하는 코드를 짰었는데, 아무런 카테고리가 들어오지 않았다.

그래서 살펴 보았더니, 관련 상품의 카테고리 넘버는 상위 카테고리로 지정이 되어져 있었고, 또 어떤 것은 이 쇼핑몰의 자체제작 이라는 카테고리로 되어져 있어서, 이 또한 가져오게 된다면 수동으로 다시 작성을 해야한다는 문제점이 있었다.

해결

그래서 회의를 통해서 이미지 자체를 가져오는 것은 무리가 있고, 수동으로 작성을 해야 할 것들이 많다 라고 말씀을 드렸더니, 크롤링 할 사이트를 다시 정해야 할 것 같다고 이야기를 나누었고, 일단 2~3개만 수동으로 데이터를 넣은 뒤, 이 데이터를 가지고 api를 만드는 동안 크롤링 할 사이트가 정해지면 다시 크롤링 하여 데이터를 넣는 방식으로 하자 라고 정했다.

느낀점

크롤링을 하면서, 되도록이면 이미지를 크롭을 하고 배경 제경을 하여 저장을 하고 싶었는데, 크롤링 사이트가 조금 엉망으로 되어져 있어서 데이터를 정제를 하는데 꽤나 어려움을 겪었다. 사실 기획자 분이 크롤링 할 사이트를 정해주는데, 어떤 사이트가 크롤링이 가능 할 것 같고 불가능 할 것 같다 라는 것을 판단을 하기는 어려울 수 있다.

이 사이트를 정할 때 같이 회의를 하면서 정해봐야 할 것 같다는 생각이 들었다.

댓글남기기