1. 포지션 개요 (Position Overview)
우리는 금융 시장의 수많은 비정형 데이터(PDF, 이미지 등)를 정형화된 데이터 자산으로 변환하는 핵심 모듈을 개발하고 있습니다. 복잡한 레이아웃을 가진 금융 문서에서 텍스트와 테이블을 정확하게 추출하고, 이를 분석 가능한 형태로 가공하는 것을 해당 포지션의 업무 목표로 합니다.
Rule-based 휴리스틱과 최신 Document AI 모델을 결합해, 금융 도메인 내의 포맷 유형이든 정확하게 파싱하는 시스템을 만드는 업무를 수행합니다.
2. 주요 업무 (Responsibilities)
- 금융 PDF 파서 엔진 개발 및 고도화: 금융 도메인 비정형 데이터에 특화된 ****Document Parser 파이프라인 개발 및 고도화
- ETL 파이프라인 설계 및 운영 : 수집된 비정형 데이터를 정제하여 RDB 및 VectorDB에 적재
- AI/ML 모델 적용 (R&D)
- LayoutLM, Donut, Nougat 등 Document AI 모델 파인튜닝
- 표/차트 영역 탐지 및 구조화 (Table Transformer, TATR 등)
- OCR + 후처리 파이프라인 최적화 (금융 용어, 숫자 정확도 향상)
- 품질 관리 : 파싱 데이터의 정합성 검증 프로세스 구축 및 에러 케이스 대응
3. 자격 요건 (Basic Qualifications)
- PDF/문서 처리 전문성
PyMuPDF, pdfplumber, pdf2image 등으로 PDF 구조를 깊이 다뤄본 경험
- 좌표 기반 텍스트 추출, 테이블 영역 탐지 등 로우레벨 PDF 처리 경험
- OCR 및 이미지 처리
- Tesseract, EasyOCR, PaddleOCR, 또는 Cloud OCR(AWS Textract, Google Vision, CLOVA) 실무 경험
- OCR 결과 후처리 (오탈자 보정, 레이아웃 재구성) 경험
- 엔지니어링 역량
- Python 백엔드 개발 경력 3년 이상 (또는 이에 준하는 실력)
- 정규표현식, 텍스트 패턴 매칭에 능숙
- 깔끔한 코드와 테스트 작성을 중시하는 분
- 품질에 대한 집착
- "99% 정확도"에 만족하지 않고 나머지 1%를 잡으려는 분
- 엣지 케이스를 수집하고 체계적으로 해결하는 것을 즐기는 분
4. 우대 사항 (Preferred Qualifications)
- 유관 분야 석사 학위 이상
- AI 관련 오픈소스 프로젝트에 기여해본 경험
- 금융 용어 및 재무제표, 주식 리포트 등의 문서 구조에 대한 이해도가 높은 분