본문 바로가기

전체 글87

벡터 검색 : Reranking 필요 이유 [AI를 활용해 작성되었습니다.]RAG는 검색 시간을 단축 하기 위해 Approximate Nearnest Neighbor search (ANNs) 기술을 활용하는데 이대 질문과 관계 없는 문서가 검색될 수 있기 때문에 Reranking 관련 정보를 기준으로 순위를 다시 선정해야 한다[출처] https://www.pinecone.io/learn/series/rag/rerankers/ 🔁 Reranking의 원리📌 1단계: 근사 검색 (ANN - Approximate Nearest Neighbor)IVF, HNSW, PQ 등의 인덱스는 전체 데이터 중 일부 후보 벡터만 빠르게 선택합니다.이 과정에서는 정확한 유사도/거리 계산 없이, 대략적으로 "가까울 것 같은" 벡터들을 찾습니다.예: IVF는 쿼리 벡.. 2025. 7. 11.
벡터 데이터베이스 인덱스: IVF 설명 [ chatGPT를 이용해 생성한 답변을 참고합니다. ]벡터 데이터베이스의 IVF란?벡터 데이터베이스에서 IVF (Inverted File Index, 역파일 인덱스) 는 고차원 벡터의 근사 최근접 이웃 검색 (ANN, Approximate Nearest Neighbor)을 빠르게 하기 위한 대표적인 인덱싱 기법 중 하나입니다. 특히 FAISS 같은 라이브러리에서 많이 사용됩니다.✅ IVF (Inverted File Index) 개념1. 기본 아이디어고차원 벡터들을 직접 비교하지 않고, 벡터들을 여러 개의 클러스터(버킷)로 먼저 분할해두고, 검색 시 관련된 몇 개의 클러스터에서만 비교를 수행함으로써 속도를 높이는 방식입니다. 🔧 구성 방식1. 학습 단계 (Training)전체 벡터 중 일부를 샘플링해서.. 2025. 7. 11.
Embedding : Word2Vec, 임베딩 기법의 근본적인 성립 조건 [ chatGPT를 이용해 생성한 답변을 참고합니다. ]질문 : "king", "queen", "prince"는 모두 비슷한 문맥에서 등장" 하기 때문에 알 수 있다고 하나, 비슷한 문맥에서 등장을 한다는 보장이 없다면 비슷한 백터라고 하기 어려울 것 같은데 어떻게 알 수 있는가? 아주 훌륭한 질문이에요.Word2Vec, 아니 전체 임베딩 기법의 근본적인 성립 조건에 대한 본질을 짚으셨어요.당신이 지적한 대로,"비슷한 문맥에서 등장한다는 전제가 틀리면, 임베딩은 제대로 작동하지 않는다."그렇습니다. Word2Vec을 포함한 모든 분산 표현(distributed representation)은 이 전제 위에서 작동합니다.🔹 핵심 개념: Distributional Hypothesis (분포 가설)“단어의 .. 2025. 7. 10.
결정 트리(Decision Trees) 결정 트리(Decision Trees) 개요 결정 트리는 분류 및 회귀 문제에 사용되는 감독 학습 알고리즘입니다. 이 알고리즘은 데이터를 분석하여 패턴을 학습하고, 일련의 질문을 통해 결정을 내리는 나무 형태의 모델을 만듭니다. 각 노드(node)는 데이터의 특징(feature)에 대한 질문을 나타내며, 각 분기(branch)는 가능한 응답을 나타냅니다. 가장 하단의 노드(잎 노드, leaf node)는 결정 결과를 나타냅니다. 필요 이유 이해와 해석이 용이: 결정 트리는 시각화가 쉽고, 비전문가도 이해하기 쉬운 결과를 제공합니다. 데이터 전처리 요구가 적음: 결정 트리는 다른 알고리즘에 비해 덜 복잡한 데이터 전처리가 필요합니다. 비선형 관계 모델링: 결정 트리는 데이터의 비선형 패턴을 포착할 수 있습.. 2024. 1. 7.
분류분석(Classification Analysis 분류 분석(Classification Analysis)은 데이터 과학과 기계 학습 분야에서 사용되는 주요 기술 중 하나입니다. 이 방법은 입력 데이터를 미리 정의된 클래스나 범주로 분류하는 과정을 말합니다. 주요 목적은 새로운 데이터가 주어졌을 때, 이를 올바른 범주로 분류하는 것입니다. 분류 분석 알고리즘은 크게 다음과 같이 나눌 수 있습니다 결정 트리(Decision Trees): 데이터를 분류하기 위해 결정 규칙의 계층적 구조를 사용합니다. 각 노드는 특정 속성에 대한 결정을 나타내며, 이를 통해 데이터를 서브셋으로 나눕니다. 나이브 베이즈(Naive Bayes): 통계적 방법을 사용하여 각 클래스에 속할 확률을 계산합니다. 이 알고리즘은 모든 특성이 서로 독립적이라고 가정합니다. 서포트 벡터 머신.. 2024. 1. 7.
파키슨병 (PET 검사) 파키슨병 개요 파키슨 병은 중추신경계의 진행성 질환으로, 주로 운동 기능 장애를 일으킨다. 이 병은 뇌 내 도파민을 생산하는 신경 세포의 손실로 발생하며, 주요 증상으로는 손떨림, 근육 경직, 움직임의 느려짐, 균형 장애 등이 있다. 원인은 아직 명확히 밝혀지지 않았으나, 유전적 요인과 환경적 요인이 상호 작용하는 것으로 추정된다. 치료는 주로 증상의 완화와 삶의 질 향상에 초점을 두며, 도파민 대체 요법이 일반적이다. 정기적인 운동과 물리치료도 환자의 증상 관리에 도움을 준다 진단 방법 임상 증상 평가: 손떨림, 근육 경직, 운동 둔화 등 전형적인 증상을 기반으로 진단함. 신경학적 검사: 의사가 신체 검사와 신경학적 테스트를 진행함. 영상 진단: MRI나 CT 스캔으로 다른 질병을 배제함. 도파민 수송.. 2024. 1. 7.
황반변성 황반변성이란 황반변성은 눈의 망막 중심부인 황반에 영향을 미치는 질병으로, 주로 고령자에서 발생한다. 이 질환은 시력 중심부를 담당하는 황반의 기능이 떨어지면서 시력 감소를 일으키며, 크게 건성과 습성 두 가지 유형으로 나뉜다. 건성 황반변성은 망막에 노폐물이 쌓여 서서히 진행되는 반면, 습성 황반변성은 비정상적인 혈관이 자라나 출혈과 누수를 일으켜 시력 손실이 빠르게 진행될 수 있다 . 황반변성의 종류 건성 황반변성: 망막에 노폐물이 쌓이며 서서히 진행하는 형태. 대부분의 황반변성 환자가 이 유형에 속함. 습성 황반변성: 비정상적인 혈관이 황반 뒤에 자라나며, 누출과 출혈을 일으킴. 더 심각하고 급격한 시력 손상을 유발할 수 있음. 황반변성 진단 방법 안저 검사: 망막의 상태를 직접 살펴봄으로써 황반의.. 2024. 1. 7.
(금융용어) EBITDA EBITDA란? 정의: EBITDA는 '이자, 세금, 감가상각 전 이익(Earnings Before Interest, Taxes, Depreciation, and Amortization)'의 약자입니다. 이는 기업의 운영 이익을 측정하는 지표로서, 기업의 실제 영업 활동에서 발생하는 순수익을 나타냄 EBITDA의 중요성 재무 성과 측정: EBITDA는 기업의 실제 영업 성과를 이해하는 데 도움이 되며, 특히 이자, 세금, 감가상각과 같은 비현금 요소가 큰 영향을 미치는 경우에 유용함 기업 비교: 다양한 산업 분야의 기업들을 비교 분석할 때 효과적인 지표로 활용됨 투자 분석: 투자자들은 EBITDA를 활용하여 기업의 영업 효율성과 수익성을 평가함 EBITDA 계산 방법 기본 수식: EBITDA=순이익+이자.. 2024. 1. 7.
회귀분석 회귀분석은 변수들 사이의 관계를 모델링하고, 한 변수의 변화가 다른 변수에 어떤 영향을 미칠지 예측하는 통계적 방법입니다. 회귀분석의 주요 목적은 종속 변수(응답 변수)와 하나 또는 여러 개의 독립 변수(예측 변수) 간의 관계를 찾고, 이를 수학적 모델로 표현하는 것입니다. 회귀분석의 기본 수식 회귀분석에서 가장 기본적인 형태는 선형 회귀분석입니다. 선형 회귀의 일반적인 수식은 다음과 같습니다: 여기서, 회귀분석의 종류 단순 선형 회귀 (Simple Linear Regression): 한 개의 독립 변수와 종속 변수 간의 관계를 모델링합니다. 다중 선형 회귀 (Multiple Linear Regression): 두 개 이상의 독립 변수를 포함하여 종속 변수와의 관계를 모델링합니다. 로지스틱 회귀 (Log.. 2024. 1. 7.
상관계수 상관계수 (Correlation Coefficient) 정의와 의미 상관계수는 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 척도입니다. 이 값은 -1과 1 사이의 값을 가지며, 값이 클수록 변수 간의 관계가 강하다는 것을 의미합니다. 종류 피어슨 상관계수 (Pearson Correlation Coefficient): 가장 흔히 사용되는 상관계수로, 두 변수 간의 선형 관계의 강도를 측정합니다. 스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient): 두 변수의 순위 간의 관계를 측정하는 비모수적 방법입니다. 켄달 순위 상관계수 (Kendall Rank Correlation Coefficient): 두 변수 간의 순위 관계의 강도를 측정합니다. 계산 .. 2024. 1. 7.
아마존고(Amazon Go)이용 후기 아마존고가 정식으로 오픈한 것은 2018년 1월이다. 1년여의 테스트를 거쳐서 정식 오픈 했다고 한다. 필자도 좀 늦은 감이 있지만 아마존고를 이용하게 되어서 그 경험담을 공유 하고자 한다. > 아마존고 어플 설치하기 아마존고는 아직도 많은 사람들이 익숙하지 않아서인지 들어가는 매장 입구에 가이드가 서 있다. 필자가 간 아마존고는 생각보다 그리 크지는 않았다. 약간 중급 사이즈의 편의점이라고 해야 할까? 그래도 첫 이용이니 긴장하는 마음으로 들어섰다. 아마존고에 들어가려면 먼저 어플을 깔아야 한다. 어플은 Amazon Go라고 검색하면 나온다. Amazon 계정이 있다면 바로 로그인하면 되고 없다면 가입한다. 그리고 아마존고 이용후 결제될 신용카드 등의 정보를 기입한다. > 매장 들어서기 아마존고 어플을.. 2019. 9. 10.
Apple park visitor center 방문기 역시 가벼운 이야기다 Apple park는 새로지은 애플의 본사다. 캘리포니아주의 쿠퍼티노에 위치하고 있으며, 모형은 UFO를 연상을 연상시키는 모양이다. 많이 알려진 것 처럼 애플은 방문하기가 쉽지 않다. 애플 파크 까지는 들어가지 못하지만 그 앞에 애플파크 방문자 센터가 자리해 있다. 오늘은 그에 대한 짧은 이야기다 애플 파크로 들어가는 것은 어렵고 대신 앞의 Visitor Cente까지는 자유롭게 들어갈 수 있다. Visitor Center앞에 표지판이 있는데 여기서 사람들이 사진을 많이 찍는다 들어가면 아래와 같은 유리문의 건물이 있는데 1층은 커피숍과 애플 스토어가 자리해 있고 뒤쪽으로는 애플 사옥을 VR 로 감상할 수 있도록 만들어 놨다 Apple Visitor Center는 하나라도 고개들이.. 2019. 9. 9.