-
Inverted IndexNote/분류되지 않은 노트 2022. 1. 19. 22:23
1. Elastic Search 를 위해 Inverted Index라는 기법이 사용된다.
1) 엘라스틱 서치란?
[엘라스틱서치 알아보기 #2] DB만 있으면 되는데, 왜 굳이 검색엔진?
엘라스틱서치 알아보기 프로젝트는 엘라스틱서치 실무가이드의 목차와 내용을 참조하였습니다. 이 포스트를 읽는 분들이라면 엘라스틱서치 실무가이드 책을 한권 반드시 구매하는 것을 권장
velog.io
2. 대용량 검색을 빠르게 수행하기 위해 사용된다. 즉 빅데이터를 잘 다루기 위해 사용된다.
1)위키에서는 빅데이터를 100만 document이상의 data-set이라고 정의한다.
3. 일반적으로 게시판에서 특정 텍스트를 검색하면, 수십 만개의 게시판에 대해 검사하여, 텍스트의 일치, 포함 등을 따져서 게시글을 리스트업하게 된다.
1) 데이터가 5만개가 넘지 않으면 매우 훌륭한 결과물과 훌륭한 속도를 보여준다.
2) 그런데 게시글이 굉장히 많으면 수행시간이 굉장히 오래걸린다.
4. 그래서 검색할 때마다 게시글에서 텍스트를 찾는 forward-indexing을 하지 않고, 사전에 수많은 단어(Term)이 어떤 게시글에 포함되어있는지 inverted-indexing을 하게된다.
inverted indexing의 예시 1) becoming home 이라고 검색하면 becoming 과 home 으로 나눈 후에 빠르게 (8), (2,5,7,8) 이라는 결과가 반환된다.
2) 8이 가장 유사한 결과물이라고 알게 된다.
3) 인덱싱(Indexing;미리 순서대로 정렬해서 저장해두는 방식)을 하기 때문에 탐색 속도가 매우 빠르다.
주로 참고한 페이지
https://blog.lael.be/post/3056
대용량 검색 처리를 위한 inverted index (역색인) 설명
#최종 수정 : 2017-03-22 – 내용과 예제를 보강하였습니다. 이 개념은 ElasticSearch 나 Apache Solr 를 다루기 위해 필수적으로 알아야 할 개념입니다. 라엘이의 한마디 : 역방향 인덱스(inverted index)는 원
blog.lael.be
https://cloudingdata.tistory.com/45
Inverted Index 이해하기
들어가며 Elasticsearch를 사용하는데에 있어서 가장 핵심이 되는 개념인 Inverted Index를 정리해본다. 또한, Inverted Index를 알아야 Elasticsearch를 용도에 맞게 사용할 수 있다고 생각한다. 따라서, Inverte..
cloudingdata.tistory.com
'Note > 분류되지 않은 노트' 카테고리의 다른 글
가우시안 랜덤변수 발생기 (0) 2023.07.30 선형 칼만필터 (0) 2023.07.30 가우시안 분포 곱셈 (0) 2023.07.30 KNN (0) 2022.01.19