본문 바로가기

웹스타일 정보

검색엔진과 검색연산자



1.검색엔진의 종류와 특징

(1). 웹 인덱스 방식(Keyword 검색방식)
- 가장 일반적인 방식으로 검색어를 포함한 웹 문서들을 검색
- 로봇이 주기적으로 인터넷 상의 정보를 검색하여 검색 엔진의 호스트 컴퓨터에 보내어 새로운 인덱스 데이터베이스 구성
- 로봇의 추출 방법과 효율성에 의해 검색 엔진의 성능 좌우
- 단점
☞ 검색결과가 너무 많아져 사용자의 판단을 흐리게 할 수 있음
☞ 특정 단어만의 검색에 의한 결과이므로 웹 문서의 신뢰도가 낮아짐
☞ 검색 연잔자가 초보자에게는 어려움
- 웹 인덱스 방식의 대표적인 검색 엔진
☞ Altavista : http://www.altavista.com
☞ Lycos : http://www.lycos.co.kr(한국)
http://www.lycos.com(미국)
☞ 네이버 : http://www.naver.com
☞ 심마니 : http://www.simmani.com


(2). 웹 디렉토리 방식(메뉴 검색방식)
- 인터넷에 존재하는 웹 문서들을 주제별, 계층별로 정리하여 데이터베이스 구축
- 검색방법 : 나열되어 있는 분류 항목 중 가장 가까운 항목을 선택하여 따라가면 되므로 매우 쉽고 간단.
- 검색원리 : 사람이 직접 문서를 수집하고 관리
- 장점 : 웹 문서의 신뢰도가 높아짐
- 단점 : 검색결과로 얻는 웹 문서의 수가 비교적 적으므로 풍부한 검색 결과를 얻을 수 없음
- 웹 디렉토리 방식의 대표적인 검색 엔진
☞ Yahoo! : http://www.yahoo.co.kr(한국)
http://www.yahoo.com(미국)

 

(3). 통합형 검색방식
- 자신만의 인덱스 데이터베이스를 소유하지 않고 사용자가 입력하는 검색어들을 다른 검색 엔진들에게 보내고 이를 통한 검색 결과들을 사용자에게 보여 주는 방식
- 검색 방법은 웹 인덱스 방식과 매우 유사
- 통합형 검색 방식의 검색엔진
☞ MetaCrawler : http://www.metacrawler.com
☞ All in One : http://www.albany.net/allinone
☞ 모찾니 : http://www.mocha!nni.com


(4). 전문검색엔진
- 분야별 전문 검색 엔진
☞ 소프트 웨어
- SoftSearch(http://www.softsearch.com) : 비즈니스 / 유틸 / 오락 / 상용 소프트웨어 전문검색엔진
- Download.com(http://download.cnet.com) : 쉐어웨어 / 프리웨어 전문검색엔진
- Fast FTP Search V4.0(http://ftpsearch.lycos.com) : 프리웨어 FTP 사이트 전문검색엔진
- Shareware Com(http://shareware.cnet.com) : 프리웨어 전문검색엔진
- www.32bit.com(http://www.32bit.com) : 프리웨어 전문검색엔진
☞ 사전
- 시사용어 사전(http://edu.donga.com/sisa.html) : 동아일보 제공, 입사 / 승진시험 전용 시사용어사전
- 웹스터 영영 사전(http://www.webster.com) : 영영사전으로 유명한 웹스터의 전자사전
- 브리태니커 백과(http://www.eb.com) : 백과사전으로 유명한 브리태니커의 전자버전
- 돌도끼 컴퓨터사전(http://doldoki.org/dic) : 컴퓨터 용어사전으로 상당한 양의 정보를 포함
☞ 출판물
- Amazon(http://www.amazone.com) : 최초의 온라인 서적쇼핑몰, 자체검색엔진 포함
- Books.com(http://www.books.com) : 방대한 양의 서적 검색가능
- 교보문고(http://www.kyobobook.co.kr) : 인터넷 서점, 교보 북네트, 북클럽 회원, 북클럽 등의 정보 및 온라인 판매서비스
- 종로서적(http://book.lotte.com/book.jsp) : 총류에서 외국서적까지 10개 주제분야로 나누어 검색 가능
☞ 전자우편 / 인물
- Lycos People Finder(http://www.whowhere.lycos.com) : 검색엔진 Lycos가 제공하는 인명검색엔진
- AnyWho People Search(http://www.anywho.com) : 전화번호, E-mail, 이름으로 검색가능한 검색엔진
- Internet Address Finder(http://www.iaf.net) : 전자우편주소 전문 검색엔진
☞ 신문 / 방송 / 언론
- 동아일보(http://www.donga.com) : 기사검색엔진
- 전자신문(http://etimesi.com) : 기사검색엔진
- 조선일보(http://www.chosun.com) : 기사검색엔진
- Time(http://www.time.com/time/index.html) : 타임지의 기사검색엔진
- USA Today(http://www.usatoday.com)
- New York Times(http://www.nytimes.com)
☞ 여행정보
- Citynet(http://travel.excite.com) : Excite에서 제공하는 해외여행정보 전문검색엔진
- 여행보따리(http://www.ansony.com/tsd) : 국내 / 해외여행의 방대한 정보를 제공하는 한국여행정보 전문검색엔진
☞ 영화정보
- 인터넷 영화 D/B(http://us.imdb.com) : 영화 / 배우 / 감독 / 스텝 등 허리우드 영화의 모든 역사와 기록이 담긴 방대한 데이터베이스 구축, 전문검색엔진
- Movie Web(http://www.movieweb.com) : 영화를 만든 영화사를 기준으로 분류된 전문검색엔진사이트
- 한국영상자료원(http://www.koreafilm.or.kr) : 국내영화산업의 모든기록을 보유한 전문검색엔진
☞ 음악정보
- 오픈타운(http://www.opentown.com:8080) : 음악관련 검색서비스
- World Wide Music(http://www.worldwidemusic.com) : 세계 음악정보관련 전문 검색엔진
- 뮤직넷(http://www.sing.co.kr) : Mp3파일 전문검색엔진
☞ 도서관 / 논문검색
- 학술자료 검색안내(http://lotus.pwu.ac.kr/~hsjung/inter/academy.htm) : 국내외 서점, 도서관, 대학, 학회사이트가 링크되어있다.
- 첨단학술정보센터(http://www.kric.ac.kr) : 국내 / 해외 학술정보 / 학술논문 / 학술지원정보 검색엔진
- 전자도서관(http://203.237.248.7/search/dlib_all.html) : 학술및 연구활동에 필요한 정보를 인터넷의 WWW를 이용하여 서비스함으로써 이용자들에게 어느 곳에서나 자료의 목록, 초록은 물론 본문까지도 체계적으로 제공하고자 개발된 전문검색 및 정보사이트
- Los Alamos National Laboratories(http://xxx.lanl.gov) : 수학 / 물리학 / 순수과학 전문검색사이트
- National Digital Library Periodic Reports(http://lcweb.loc.gov/ndl/per.html) : 미국의 정부 / 의회 관련정보 도서관

 

(5). 메타(Meta)형 - Front-End형 검색엔진
☞ All-in-One(http://allonesearch.com) : 11개 분야에 걸쳐 200여개의 검색엔진을 제공
☞ SearchCom(http://www.search.com) : 24개 분야에서 300여개의 검색엔진을 제공
- 여러 검색 엔진들을 한 곳에 모아 두고 마음에 드는 것을 선택해서 검색 할 수 있게 해주는 유형의 검색엔진
- 각 분야별로 전문 검색엔진들을 제공하는 특징 : 보다 자세한 검색가능
- 통합형 검색 엔진과의 차이
☞ 통합형 : 여러 검색 엔진들을 이용하지만, 통합형 검색 엔진 자체가 이를 규합하고 통제하며 판단 내리는 역할을 수행
☞ 메타형 : 단순하게 많은 종류의 검색 엔진들을 모아 놓은 형태

 

정보 검색의 과정
1. 내용 및 목적 분석
2. Keyword 추출
3. 검색엔진 선택
4. 검색식 구성
5. 검색 시작
6. 검색 결과 분석
7. 재검색

2.검색엔진에서 사용하는 연산자


(1) 부울 연산자

  대부분의 검색엔진은 검색어들에 대해 AND, OR, NOT 의 논리연산을 제공하고 있으며, 검색엔진에 따라서 사용하는 기호는 다를 수 있다.


1) AND 연산자(=논리곱 연산)

 두 개의 단어가 입력되었을 경우 두 단어를 동시에 모두 담고 있는 정보만을 검색한다. 주로 AND 와 & 기호를 사용한다.

네이버는 &를 사용하여 두 단어 모두 포함된 웹 페이지를 검색할 수 있다. A&B
구글은 +를 사용 (A+B)
야후도 +


예1) 한국 AND 월드컵
 '한국'이라는 단어와 '월드컵' 이라는 단어를 동시에 포함하는 문서를 검색한다. 

 

 

 

                                     그림Ⅲ-26] AND 연산자를 이용한 검색 예

예2) Computer & Internet
'Computer'라는 단어와 'Internet' 이라는 단어를 동시에 포함하는 문서를 검색한다.


【검색예제】
우리 조상들이 후손들에게 남겨준 문화재중 댐공사로 수몰 당하는 문 화재도 많지만 위기를 모면한 문화재도 많다. 위기를 모면한 문화재 중에 삼국유 사의 저자인 일연스님의 탑과 비가 그 대표적인 예이다. 이 탑과 비는 고려 충렬 왕 21년(서기 1295년)에 인각사라는 절에 건립되었다. 이 탑과 비가 있는 행정 구역상 주소를 쓰시오.(URL이 아님)

 ▶검색엔진: 네이버
 ▶키워드 : 인각사&문화재
 ▶사이트 : http://research.kyungpook.or.kr/moonhoa/HTML/T11002.HTM
 ▶답 : 주소 : 군위군 고로면 화북리 612, 613의 3전


2) OR 연산자(=논리합 연산)

 두 개의 단어가 입력되었을 경우 두 개의 단어를 모두 담고 있는 정보는 물론이고 둘 중 하나라도 담고 있는 정보를 찾는다. 주로 OR 과 | 기호를 사용하고 가끔씩 플러스 기호(+)를 사용한다.

네이버는 +
구글은 |
야후 |


예1) 한국 OR 월드컵 
 '한국'이라는 단어와 '월드컵' 이라는 단어 중 하나라도 포함하는 문서를 검색한다.

 

 


[그림Ⅲ-27] OR 연산자를 이용한 검색 예

 

예2) Computer | Internet
'Computer'라는 단어와 'Internet' 이라는 단어 중 하나라도 포함하는 문서를 검색한다.


【검색예제】
 미국 메이저리그에 진출해 있는 야구선수 박찬호는 97년 14승을 거두었다. 그렇다면, 14번째 승리를 거두었던 경기 일자와 상대팀의 이름은?

 ▶ 검색엔진: 네이버
 ▶분류 : 신문
 ▶키워드 : 박찬호+14승 과거기사순
 ▶사이트 : 중앙일보 1997. 9. 24. 水 기사 .. 박찬호,14승 마침내 해냈다
 ▶답 : 1997. 9. 24. 샌디에이고 파드리스


3) NOT 연산자(=논리차 연산)

 NOT 이후의 단어는 제외한 문서만 검색한다. 즉 연산자 앞쪽의 단어를 포함하되, 뒤쪽의 단어는 포함하지 않는 문서를 검색한다. 주로 NOT 과 마이너스(-)를 사용하며 ! 기호를 사용하기도 한다.

네이버 !
구글-
야후-



예1) Computer ! Internet
'Computer' 라는 단어가 존재하는 문서를 찾아 주되 'Internet' 이라는 단어가 포함하는 문서를 제외하고 검색한다.


예2) 한국 NOT 월드컵
'한국'이라는 단어가 존재하는 문서를 찾아 주되 '월드컵' 이라는 단어가 포함하는 문서를 제외하고 검색한다.

 

 

 


[그림Ⅲ-28] NOT 연산자를 이용한 검색 예

 

4) 부울 연산자와 특수기호


(가) 검색엔진에 따라 AND, OR, NOT 뿐만 아니라 &, |, ! 등의 특수 문자를 사용하기도 한다.


(나) 일반적으로 &는 AND를, |는 OR을, !는 NOT을 의미한다. 이러한 용법을 사용하고 있는 검색엔진은 알타비스타의 Advance Search, 핫봇 등이 해당된다. 따라서 이들 검색엔진에서는 AND, OR, NOT은 물론이고 이들 대신 간단하게 &, |, ! 등을 사용할 수도 있다.


(다) AND, OR, NOT은 대소를 가리지 않고 사용할 수 있다. 따라서 AND, And, and 중 편리한 것을 사용할 수 있다.

 가장 유용한 연산자는 위에 소개된 (NOT,AND,OR)이며 그외 간략히 소개합니다.
1.~(물결): near 인접연산자로 앞 단어와 뒷 단어 순서 상관없이 2단어 이내로 붙어 있는 문서 검색
-near 연산자(~)만 사용하는 경우 기본값으로 단어 사이에 2단어 이내로 인접한것만 검색
-물결(~)뒤에 숫자를 표시하여 검색어 사이의 단어 수를 조절하여 검색
예를들어 A~3B와 같을경우 A와 B 사이에3개 이내의 단어가 인접한 것만 검색.

2."":구문검색으로 연산자 안이 구를 포함하는 문서검색
3.*(와일드카드):절단검색으로 연산자의 앞이나 뒤 단얼르 포함하는 문서 검색

(2) 연산 순위


(가) 검색엔진마다 조금의 차이가 있지만 대부분의 검색엔진들은 여러 가지 연산자를 혼용하여 검색식이 만들어 졌을 때 다음과 같은 우선 순위를 부여한다.

① 왼쪽에서 오른쪽으로
② OR 보다는 AND 조건이 먼저 검색된다.


(나) 우선 순위지정은 괄호를 사용한다

 예) Paris AND (Korea OR Worldcup)
Korea나 Worldcup이 들어 있는 정보를 먼저 찾은 다음 그 중에서 Paris 라는 단어가 들어 있는 것만을 다시 간추리게 된다.

위의 식은 Paris AND Korea OR Paris AND Worldcup 과 같은 의미가 된다. 실제 심마니나 알타비스타의 Advance Search에 접속하게 되면 위의 두 가지 검색식을 입력하고 검색시작 단추를 누르게 되면 둘 다 동일한 결과가 나타나게 되는 것을 볼 수 있다.

 

 

 

[그림Ⅲ-29] 연산순위에 대한 검색 예 

 

(다) 세계표준기구인 ISO는 데이터베이스에서 자료를 찾을 때 AND-OR- NOT 의 순서에 따라 검색이 진행 되도록 하고 있다.

(3) 어구 검색

  연속해서 오는 두 개 이상의 단어를 하나의 단위로 취급하여 검색하는 것을 가리켜 어구검색, 어절검색, 구 검색, 구 기능이라 한다. 단체나 행사의 이름, 특정사건의 이름, 책이름 등은 대부분 두 개 이상의 단어로 이루어져 있는데, 이들을 어구로 설정하여 검색하면 좋다.

  일반적으로 큰따옴표(" ")로 두 개 이상의 단어를 감싸주면 어구로 설정되며, 큰따옴표를 사용하지 않고 옵션메뉴를 통해 'phrase' 등을 지정해주면 어구로 취급하는 엔진도 있다.


예) '나라 사랑'
'나라'라는 단어와 '사랑'이라는 단어를 묶어 '나라 사랑'이라는 하나의 단어로 취급하여 문서를 검색한다.

 

 


 

                        [그림Ⅲ-30] 어구 검색을 이용한 "나라 사랑"의 검색 예

 

 


                  [그림Ⅲ-31] 어구 검색을 이용하지 않은 "나라 사랑"의 검색 예