[크림 상품 분석2] 크림 상품 분석용 데이터 파이프라인 구축

소개

시도하고자 했던 것과 그 이유를 알려주세요.

수집→정규화→DB 저장까지 자동화해, 크림 제품을 분석 가능한 형태로 만드는 것을 목표로 했습니다.

  • 목표: “크림 상품 분석용 데이터 파이프라인 구축”

  • 범위: “상품 목록/상세/전성분/리뷰 수집 + DB 적재”

  • 산출물: “정규화된 테이블 + 분석 가능한 형태(랭킹/가격/리뷰/성분)”

  • 핵심 이유 2~3개:

    • 수작업 리서치 비용 절감

    • 데이터 일관성(정규화) 확보

    • 재현 가능한 분석 기반(DB)


진행 방법

어떤 도구를 사용했고, 어떻게 활용하셨나요?

Tip: 사용한 프롬프트 전문을 꼭 포함하고, 내용을 짧게 소개해 주세요.

Tip: 활용 이미지나 캡처 화면을 꼭 남겨주세요.

Tip: 코드 전문은 코드블록에 감싸서 작성해주세요. ( / 을 눌러 '코드 블록'을 선택)

목록→매칭→TOP 선정→상세 수집→정규화→DB 적재의 단계를 표준 파이프라인으로 만들었습니다.

결과와 배운 점

배운 점과 나만의 꿀팁을 알려주세요.

과정 중에 어떤 시행착오를 겪었나요?

도움이 필요한 부분이 있나요?

앞으로의 계획이 있다면 들려주세요.

목록→상세→리뷰/전성분까지 자동 수집하고, DB 정규화로 분석 가능한 데이터셋을 확보했습니다.

항목

결과(예시)

의미

수집 제품 수

720개 후보 → TOP 50 확정

목록 수집 + 매칭 + 필터링 완료

수집 리뷰 수

12,480건

리뷰 기반 분석 가능한 규모 확보

수집 성분 수

1,930개(고유)

전성분 정규화(M:N) 성공

크롤링 실패율

3.8%

구조 변경/차단/타임아웃 포함

재시도 횟수

총 214회

재시도 정책으로 실패 흡수

총 소요 시간

1시간 42분

end-to-end 자동화 완료

  • Before: 제품/리뷰/성분 정보를 사이트에서 수작업으로 확인해야 해서, 비교·분석에 시간이 많이 들었습니다.

  • After: 수집·정규화·DB 적재가 자동화되어, 분석은 바로 시작할 수 있었습니다.

    한국어 흐름도 다이어그램
  • 배운 점 1: 크롤링은 “정확히 가져오기”보다 실패해도 다시 돌릴 수 있는 구조(멱등/재시도/원본 보관)가 더 중요했습니다.

  • 배운 점 2: DB는 처음부터 정규화하면 이후 분석/확장이 쉬워집니다(특히 성분 M:N)

  • 꿀팁: raw HTML을 저장해두면 사이트 구조가 바뀌어도 “재수집 없이 재파싱”이 가능해 비용이 줄어듭니다.

  • 시행착오: 상품명 매칭이 가장 어렵고, 전처리 규칙(세트/용량/특수문자 제거)을 강화할수록 정확도가 올라갔습니다.

  • 다음 계획: 수집 안정화를 위해 에러 유형별(차단/구조변경/누락) 지표를 따로 집계하고, 매칭은 규칙+유사도+수동검수 로그까지 남길 예정입니다.

1
1개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요