본문 바로가기

Udo's Code Note

데이터 엔지니어의 기술 블로그

66개의 글

Data Engineering·

Schema Registry - 스키마 진화를 안전하게 다루는 법

이전 글에서는 Avro가 스키마를 파일에 넣어 태그 없는 바이트를 해석하고, Writer/Reader Schema 분리로 스키마 진화를 지원하는 구조를 살펴봤습니다. 마지막에 Kafka 환경에서 Schema Registry가 스키마를 중앙 관리하고 호환성을 검증한다고 ...

Data Engineering·

BigQuery - Protobuf에서 Capacitor까지

이전 글에서는 Apache Parquet의 내부 구조를 뜯어봤습니다. 인코딩으로 크기를 줄이고, Footer 통계로 불필요한 블록을 건너뛰는 디스크에서 읽는 양을 최소화하는 포맷이었습니다.

Data Engineering·

Protobuf - Wire Format과 인코딩 원리 뜯어보기

지난 1편에서는 데이터 시스템이 커질수록 직렬화 비용이 필연적인 병목이 된다는 점을 이야기했습니다. 초당 수백만 건의 이벤트를 처리해야 하는 환경에서, 범용적인 JSON은 '가독성'을 얻는 대신 CPU와 네트워크 비용을 비싸게 치르게 됩니다.

Data Engineering·

직렬화(Serialization)는 왜 비용인가?

데이터 시스템의 규모가 커지면 직렬화(Serialization) 비용이 필연적으로 병목이 됩니다. 초당 수십만~수백만 건의 이벤트를 다루는 환경에서 JSON은 가독성이라는 장점이 있지만, CPU와 네트워크 부하가 빠르게 누적되기 때문입니다.

LLM 프로젝트·

11편. MCP 연결 방식 이해하기 (Stdio vs SSE)

이전 글에서는 MCP(Model Context Protocol)가 무엇인지, 그리고 Python SDK로 간단한 MCP 서버를 만들고 연동하는 방법을 정리했습니다. MCP 서버를 한 번이라도 실행해 보면 자연스럽게 이런 질문이 따라옵니다. “내가 만든 이 파이썬 MCP...

시리즈