일시: 2026년 2월 3일 (화) 오후 6:51 ~ (약 67분)
참석자: 심유나, 권은영, 안준용 (3명)
목적: ChromaDB 재생성, 매칭/프로필 DB 필드 정비, ETL 코드 변환 범위 확정
| 항목 | 결정 내용 |
|---|---|
| ChromaDB 재생성 | PostgreSQL(ETL 완료 데이터) → ChromaDB 생성 (옵션 2 확정) |
| 매칭 분리 | 회원용/챗봇용 아직 미완료, 준용 작업 |
| 주거 형태 | 전세/월세/자가 3개로 축소 (고시원→월세, 부모님집→자가, 공공임대·기타 삭제) |
| 학력 | 중졸/고졸/대학재학/대학휴학/대학중퇴/대졸(예정포함)/석박사(=대학원재학) |
| 혼인 상태 | 미혼/기혼 2개 (기타 삭제) |
| 고용 상태 | 창업준비/프리랜서 추가 필요 |
| "기타" 항목 | 전 필드에서 삭제 (매칭 로직에서 안 쓰임) |
| ETL 코드 변환 | school_cd, zip_cd 등 숫자 코드 → 사람이 읽을 수 있는 값으로 변환 |
| 지역 필터링 | zip_cd → 구 이름으로 매핑, 거주지 기반 지역 정책 필터링에 활용 |
두 가지 옵션 논의: - 옵션 1: 원본 JSON에서 ChromaDB 생성 (크로마용 ETL 별도 필요) - 옵션 2: PostgreSQL(ETL 완료) → ChromaDB 생성 (이미 정제된 데이터 활용)
확정: 옵션 2 - PostgreSQL에 이미 ETL이 적용되어 있으므로 바로 임베딩하면 됨 - 현재 342개 → 407개로 데이터 업데이트 필요 - 준용이 ETL, 배치, API 작업을 해왔으므로 벡터db생성까지 담당
작업 순서:
407개 정책 API 호출 → ETL 적용 → PostgreSQL 저장 → ChromaDB 임베딩 생성
ChromaDB 완성 후 유나가 MCP 연결 → 리랭커 포함 검색 파이프라인 완성