## 목차 ##
## 1. 검색엔진이란? ##
검색엔진은 매우 방대한 웹페이지, 뉴스그룹, 이미지등의 자료들을 검색할 수 있도록 해준다.
사용자가 질의어 혹은 질의문을 검색엔진에 던지면 검색엔진이 그와 연관된 자료 및 링크들을 되돌려준다.
## 2. 검색엔진의 3대 기본 구성요소 ##
1. 웹 크롤러(Web Crawler)
web spider, bot 등으로도 부른다. 웹을 돌아다니며 정보를 모은다.
2. 데이터베이스(Database)
웹 크롤러가 모은 데이터를 저장하는 장소
3. 검색 인터페이스(Search Interfaces)
유저와 데이터베이스 사이에서 동작하며 사용자의 검색어와 연관된 자료를 되돌려주는 로직을 처리하는 프로그램
## 3. 검색엔진의 기본 동작 ##
1. 데이터 모으기
크롤가 웹 상을 배회하며 온갖 Raw 데이터를 모은다.
2. 문서 만들기
크롤러가 모은 Raw 데이터를 검색 애플리케이션이 해석 가능한 형태로 가공
3. 색인
인덱싱(indexing) 이라고도 한다. 텍스트 키워드를 통한 검색이 가능하도록 목차를 생성한다.
예를들어 '바보' -> (docId : 13, docId : 3129, docId : 1772) 와 같은 리스트를 생성한다. 그러면 '바보' 라는 키워드가 들어왔을 때 리스트에 있는 문서들을 반환한다. 이것이 색인을 이용한 검색의 가장 기본적인 아이디어다.
4. 검색 애플리케이션 제작
인덱스가 생성되면 검색 애플리케이션이 검색동작을 할 수 있다. 검색 애플리케이션이 검색어를 처리하여 결과를 찾는 알고리즘 및 사용자가 이를 사용하기 위한 인터페이스(화면)을 제작한다.
5. 검색 사용
사용자가 검색어(query)를 입력하면 검색엔진에서 이를 받아 적절한 처리를 통해 결과로 반환할 문서들을 결정하고 사용자에게 보여준다.
'프레임워크 > 솔라(Solr)' 카테고리의 다른 글
(솔라) 6 - 데이터 색인(Indexing) (0) | 2020.05.16 |
---|---|
(솔라) 5 - 코어(core) (0) | 2020.05.16 |
(솔라) 4 - 솔라 아키텍처 및 용어정리(Architecture) (0) | 2020.05.16 |
(솔라) 2 - 솔라 설치 및 실행 (0) | 2020.05.16 |
(솔라) 1 - 솔라(Solr) 개요 (0) | 2020.05.16 |