Posts

All the articles I've posted.

에이전트 평가 체크리스트 5개, 답변보다 실행을 먼저 보자

21 Jun, 2026

AWS Agent-EvalKit 사례와 최근 에이전트 운영 흐름을 바탕으로, 실무에서 AI 에이전트를 평가할 때 최종 답변보다 먼저 확인해야 할 실행 체크리스트 5가지를 정리한 승인용 초안입니다.
Claude Code, Cursor, Codex를 어디까지 맡길 수 있나

18 Jun, 2026

코딩 에이전트 3종을 성능 자랑이 아니라 실제 업무 배치 관점에서 비교하며, 무엇을 누구에게 맡기고 어디서 사람 승인 경계를 둘지 정리한 승인용 초안입니다.
GitHub Agentic Workflows 가이드: 이슈 분류부터 CI 실패 분석까지 어디까지 맡길 수 있나

17 Jun, 2026

GitHub Agentic Workflows 공개 프리뷰를 기준으로, 이슈 분류·CI 실패 분석·문서 업데이트 같은 반복 업무를 팀 워크플로에 어떻게 붙일지 실무 관점에서 정리한 드래프트입니다.
좋은 모델보다 끊기지 않는 모델이 먼저다

14 Jun, 2026

Anthropic Fable/Mythos 접근 중단 이슈를 계기로, AI 실무에서 모델 성능보다 운영 리스크와 fallback 설계를 먼저 봐야 하는 이유를 정리한 승인용 드래프트.

에이전트 평가 체크리스트 5개, 답변보다 실행을 먼저 보자