問題一覧
1
검색자가 검색대상의 문헌을 잘 알지 못하고 자신이 요구하는 바를 제대로 표현하지 못하는 불확실한 상황이라서 정보요구가 발생함.
2
검색대상(문헌들의 집합)에서 그 정보요구를 가장 잘 만족시키는(적합성이 높은) 걸 찾아내는 것이다.
3
행위: 검색자의 질의 기능: 시스템이 그 질의에 대해 문헌을 분석하고 매칭하는 것. 정보검색은 검색자가 요청한 질의(query)와 검색대상이 되는 문헌 간의 유사도(similarity)를 측정하고, 일정 기준의 유사도를 가지는 문헌들을 매칭(matching)기법으로 찾는 것이 정보검색이다 유사도 측정, 매칭 방법은 검색시스템에 따라 다른 알고리즘을 사용하며, 질의와 문헌의 표현, 유사도 측정과 매칭 알고리즘 등에 따라 정보검색 모델은 다양하게 구분된다.
4
검색질의: 질의는 사람들이 입력하는 자연어(예: "한국 역사에 관한 책")나 특별한 형식의 인공어(예: title:history AND country:korea)로 표현된다. 검색대상 문헌: 문헌은 색인어(index term) 나 범주(category) 같은 방식으로 미리 표현되어 있다.
5
1. 이용자가 정보요구 표현법 이용자가 키워드로 검색할지, 디렉토리를 브라우징할지에 따라 정보검색모델이 달라진다. 이용자가 키워드로 검색하는 불리언 모델이 될 수도, 다른 모델이 될 수도 있다. 2. 검색대상 문헌의 색인어, 디렉토리 범주 표현법 검색모델은 문헌이 어떻게 표현되었는지에 따라 비교 방식 자체가 달라진다. 불리언은 단어가 있냐 없냐만 보면 되는데, 언어 모델은 문맥의 자연스러움까지 본다. 3. 질의와 문헌의 색인 매칭법 질의와 문헌 간 유사도 매칭을 하여 어떤 순위로 결과를 보여주나로 이어진다.
6
용어매칭: 질의, 문헌, 혹은 문헌 표현에 있는 용어 그 자체를 직접 매칭하는 것이다. 완전매칭, 부분매칭, 위치매칭, 범위매칭이 있다.,(뭔가 객관식 나올듯) 불리언 모델에서 가장 많이 쓰이며, 다른 정보검색 모델에선 보통 유사도 매칭이 적용된다. 유사도 매칭: 용어 그 자체가 아니라 유사도를 계산하여 선택하는 것이다. 예를 들어, 벡터 간 거리/각도 혹은 용어 빈도
7
기본적으로 Baeza-Yates와 Riberio-Neto가 제시한 정보검색 모델의 구분을 이용한다. - 검색 - 전통모델(불리언, 벡터공간, 확률) - 각각 확장 모델이 있음. 정보 요구 - 브라우징 - 브라우징 모델(평면, 구조 기반(디렉토리 기반), 하이퍼텍스트) 정보 요구에 따라 검색 모델과 브라우징 모델로 나뉘며, 정보 검색은 전통적인 정보검색 모델과 확장 정보검색 모델로 구분한다. 전통 모델이 가장 많이 알려졌고, 많은 정보검색시스템에서 구현된다. 확장모델은 전통 모델들의 단점을 극복하기 위해 제안되었다. 브라우징 모델은 검색어 입력 없는 탐색 중심의 모델을 말하는 것으로, 평면 브라우징, 구조 기반 브라우징(디렉토리 기반), 하이퍼텍스트 브라우징이 있다.
8
Taube가 정보검색에 도입한 모델이다. 집합과 AND, OR, NOT의 표준적인 집합 연산자로 구성되어 있다. 질의나 문헌에 특정한 용어가 있다(1), 없다(0)의 이진법(binary)형태로만 표현된다. 불리언만으로는 검색 결과의 순위화, 차별화는 불가능하다. 따라서 상용 DB나 웹 검색엔진에서 사용될 때는 벡터공간 모델과 함께 작용한다. =대부분의 DB, 검색엔진에서 채택
9
<도서관 AND 교육> 이라는 질의에 대해서 도서관을 색인어로 갖는 A와 교육을 색인어로 갖는 B가 각각 생성된 뒤, 집합연산 AND를 수행하여 교집합에 해당하는 문헌집합 C를 생성한다.
10
<장점> 1. 불리언모델은 알고리즘이 단순하여 구현하기 수월하다. 2. 이용자는 불리언 연산을 활용하여 비교적 쉽게 검색 범위를 넓히거나 좁히거나 특정 결과를 제거할 수 있다. 할 수 있다. 3. 불리언 모델은 질의나 문헌을 분해하여 용어의 조작을 지원함으로써 정보검색의 유연성과 효과를 달성 가능하다. <단점> 1. 부분 매칭을 나타낼 수 없다. 참, 거짓만 표현이 가능하기 때문이다. 적합한 문헌과 적합하지 않은 0과 1의 계산만 가능할 뿐, 적합성이 감소되는 순서로는 나열될 수 없는 것이다. --- 검색어 일부라도 포함되어 있는 문서나 결과를 알려주진 않음., 가장 관련성 높은 문서부터 순서대로 보여주지도 않음. 2. 검색결과의 순위화가 가능하지 않다. 질의와 문헌의 완전 매칭된 결과만을 검색하기때문이다. 3. 용어 간 상대적인 중요도를 나타낼 수 없다. 모든 용어는 동일하게 1이라는 가중치를 가지고 있기때문이다. 4. 용어 간 불리언 논리 외의 관계를 표현하는 것도 불가하다.
11
1. 불리언 연산자에 의한 질의 표현 2. 본문파일에서 추출한 색인파일(사전파일, 역파일)과 색인어와 매칭 시도. 사전파일은 키워드 탐색을, 역파일은 불리언 연산자를 수행하는 데 사용됨. * 역파일은 색인어와 본문 내에서 색인어의 위치를 나타낸 파일임. 3. 결과 도출
12
Salton이 대수론(algebra theory)을 이론적 근거로 만든 정보검색이론이다. 불리언과 다르게 적정 수준의 유사도 이상인 문헌이 검색되며, 유사도 순으로 순위화가 가능하다는 특징이 있다. 불리언 다음으로 정보검색 영역의 발전에 영향을 미쳤는데, 특히 부분 매칭이 가능하다는 점에서 그 단점이 보완된다. SMART라는 정보검색 시스템에서 가장 먼저 적용했으며, 벡터모델, 대수모델, 용어벡터모델이라고도 부름.
13
문헌벡터Dj=(t1j, t2j, ... tij): 문헌에 대한 용어벡터 질의벡터q=(q1, q2, ... qk): 질의에 대한 용어벡터 용어 빈도 (TF): 특정 문헌 내에서 한 단어가 얼마나 자주 등장했는가? 역문헌 빈도 (IDF): 특정 단어가 전체 문헌 중 몇 개 문헌에 등장했는가?
14
용어빈도(TF)와 역문헌빈도(IDF)의 값을 조합한 것이다. 특정 문헌 내에서 용어빈도수가 높지만, 다른 문헌에서는 용어빈도수가 낮은 용어에 높은 가중치를 부여한다는 의미이다. 따라서 TF(용어 빈도)가 크고, DF(문헌 빈도)가 작을수록 가중치는 커지게 된다. 전체문헌에서 공통적으로 등장하는 용어들은 걸러지는 효과를 가져 온다. 이것은 많은 문헌에서 출현하는 용어들은 의미가 없다고 보기 때문이다. ex) 그래서, 왜 등
15
1. 문헌과 질의에 나타난 용어들의 벡터로부터 유사도를 구한다. t1 t2 t3 t4 t5 t6 t7 t8 D1 0 0 0.3 0 0.5 0.4 0.3 0.2 D2 0 0.5 0.2 0 0 0 0.3 0.4 유사도 내적 계수 값 SIM(D1, q) 0.09 0*0.4+0*0.3+0.3*0.3+0*0+0.5*0+0.4*0+0.3*0+0.2*0 SIM(D2, q) 0.21 만약 여기서 적정 수준의 유사도 값(임계치 0.1)을 가지는 문헌을 선택하면 D2가 뜨게 될 것이야.
16
이상적인 질의는 다음 두 가지 기준을 충족해야한다. 1. 적합 문헌과의 유사도는 최대화: 정보 검색의 목적에 가장 부합하는 문서를 정확하게 찾아내기 위해, 유사도를 최대화하는 방향으로 질의를 구성해야함. 2. 부적합 문헌과의 유사도는 최소화: 관련 없는 문서들이 검색되지 않도록, 유사도가 낮도록 질의를 정교하게 조정해야 함. 그러나 이러한 이상적인 질의를 처음부터 작성하는 것은 매우 어렵다. 검색자가 자신의 정보 요구(Information Need)를 정확하게 정의하지 못하는 경우가 많고, 문서 데이터베이스에 어떤 정보가 있는지 사전에 알 수 없기 때문이다. 따라서 초기의 질의를 시작으로 검색결과를 평가하면서 계속 질의를 수정하고 확장하는 반복된 검색 과정을 거쳐야한다.
17
<장점> 1. 이진 가중치의 제한과 색인어에 비이진 가중치를 할당함으로서 부분 매칭이 가능한 틀을 제공하게 되었다. 2. 또한, 유사도에 따라 순위화가 가능해졌으며, 이용자가 불리언 논리를 이해하지 않고 자연어로만 질문을 할 수 있게 됨. 3. 질의확장이나 연관 피드백을 사용해서 성능이 향상됨. <단점> 1. 용어들 간의 집합관계(불리언 관계)를 나타낼 수 없으며 2. 용어들 간에 존재하는 의미관계를 나타낼 수 없다. 3. 가중치 메커니즘은 주관적이거나 복잡해질 수 있으며 개념의 상대적 중요성을 나타낼 수 있는 매커니즘이 없다는 한계가 있다.
18
Maron, Kuhns의 확률기반색인 연구로 처음 논의 됐으며 Robertson에 의해 발전됐다. 지금은 Robertson-Jones의 확률 모델로 알려졌다. 문헌이 특정한 질의에 적합한지 그렇지 않은지를 산출하여 적합할 확률이 적합하지 않을 확률보다 큰 문헌을 검색하는 것이다. 적합성 확률은 질의와 문헌 사이의 유사성에 기초하여 결정된다. 베이지언 통계규칙을 활용하여 계산하므로 베이지언 확률 모델이라고도 한다.
19
일반적으로 불리언이 약한 모델로 여겨지며 낮은 성능을 보인다. 이유는 주로 단어를 이용해서 문헌과 질의를 표현하고, 또는 거짓의 이진법을 이용하여 ‘완전 매칭’으로 적합한 문헌을 식별하기 때문이다. 이러한 완전매칭의 문제점을 해결하기 위해 만든 것이 벡터공간모델과 확률모델이다. 부분적합에 의한 매칭은 검색결과를 매칭 값의 순서에 따라 순위화할 수 있는 이점이 있으며, 둘 중에는 벡터공간 모델이 대부분의 정보검색시스템에서 활용되고 있다.
20
질의 형성의 어려움을 극복하고, 초기의 질의를 자신의 정보요구에 더욱 적합한 질의로 형성하는 과정이다. 검색 이용자들이 정보 요구를 질의로 표현하여 검색시스템에 접근하면, 처음에 구성한 질의는 검색자의 요구를 표현할 수 없는 경우가 많다. 검색 결과를 보고 다시 질의를 수정하고 보완하며 질의를 확장해나간다.
21
1. 검색결과를 확인하고 만족 여부를 결정한다. 2. 검색결과가 불만족스러우면 질의를 수정후 재검색을 한다. 이 과정은 만족스러운 결과가 나올 때까지 반복될 수 있다. 또한, 질의확장 과정은 수동 또는 자동으로 처리되는데, 특히 자동적으로 처리하는 질의확장을 적합성 피드백이라고 한다. 이용자가 적합성 여부를 표시해주면 시스템이 알아서 질의를 수정하고 재검색을 해준다.
22
매칭검색 모델: 이용자가 입력한 키워드를 최대한 만족하는 콘텐츠를 보여주도록 설계된 모델이다. 검색모델의 기본이며 가장 많이 사용된다. 일정한 기준의 유사도 값에 따라 매칭여부를 결정하고 검색결과를 도출하는 것이다. 단순 DB검색이 아닌 복수 DB를 대상으로 하는 통합검색이다. 연계검색 모델: 콘텐츠의 서지사항(외형)과 내형(내용)에서 관계 정보를 추출하고, 이 정보를 두 콘텐츠 간 연계 정보로 활용하는 검색모델이다. 연계검색은 일차검색결과를 콘텐츠에 적용하는 콘텐츠 연계와, 독자적인 검색모델로 수행되는 경우로 나눌 수 있다.
23
매칭검색모델: 여러 개의 데이터베이스(DB)에서 매칭되는 정보들을 찾아주는 것이다 1. 통합검색 - 하나의 DB가 아니라 여러 DB를 대상으로 동시에 검색한다 통합검색은 메타통합검색과 메타검색으로 구분 가능하다. 메타통합 검색: DB로부터 메타데이터를 수집 후, 통합 메타데이터로 구축한 뒤 검색 한다. 메타 검색: 분산검색이라고도 하며, 이용자가 요청한 질의를 각 DB에 전달하고 결과를 반환 받는 방식으로 검색을 수행함. 2. 개인화 검색 - 방대한 정보자원을 대상으로 하는 통합검색은 개인의 특수한 관심에는 불만이 생길 수 있다. 따라서 나온 것이 개인화검색 기법이다. 이는 개인의 정보요구 환경에 적합하다. 현실에서는 협업 필터링을 이용한 콘텐츠 추천 등으로 이용된다. --------------------------------------------------------------------------------------------------------------------------------------------------------------------- 연계검색모델: 매칭검색모델보다 조금 더 진화된 형태 콘텐츠들 사이의 ‘관계’를 분석해서, 검색에 반영하는 방식이다. 즉, 직접적으로 검색어와 일치하지 않더라도, 연관된 콘텐츠를 찾아주는 고급 검색! 1. 콘텐츠 연계 - 검색결과로 나타난 콘텐츠를 토대로 관련 있는 콘텐츠로 연결해주는 것이다.(URL, 꼬리물기 연계(함께 본 자료) 등) 2. 독자적인 검색모델로서의 연계검색 브라우징 연계검색: 검색대상 DB의 개별 콘텐츠들을 카테고리로 구분하여 브라우징으로 검색을 수행하는 경우이다. 개체관계형 연계검색: 콘텐츠 간의 속성 관계를 기반으로 검색하는 것이다.
24
메타데이터는 속성, 구조, 위치 등 데이터의 가장 기본적인 사항을 포함하고 있는 데이터의 데이터를 말한다. 메타데이터는 정보자원의 구조적인 형태와 속성을 기술하는 구조화된 데이터 또는 인코딩 데이터이다. 메타데이터는 검색시스템의 저장은 물론, 관리, 운영, 검색, 유지보수 등에 결정적인 역할을 수행한다. 온라인 또는 오프라인 형태의 모든 정보자원을 표현하는 수단 내지는 도구를 총칭한다. 메타데이터의 상호운용성을 위하여 정보자원의 유형별 표준화된 메타데이터 형식(표준 스키마)을 개발하여 사용한다.
25
속성(특성)을 ‘기술한다’는 의미이다.
26
식별 탐색 평가 관리 보존
27
저자, 서명, 출판사, 주제 등과 같은 정보자원의 검색과 식별을 위해 필요한 속성들의 데이터를 의미한다. 좁은 의미의 메타데이터는 위와 같으며, 넓은 의미의 메타데이터는 정보자원의 평가, 관리, 보존 등을 위해 필요한 속성들의 데이터를 의미한다.
28
1. 대상 정보자원에 내장되는 경우: 거의 실현된 적 없음 2. 별도로 생성되는 경우: HTML의 메타태그(meta-tag)로 표현
29
메타태그
30
▪ 자동생성 되는 경우 ▪ 정보자원의 저자가 직접 생성하는 경우(셀프 아카이빙) → 저자 생성 메타데이터(가장 많이 함) ▪ 도서관 사서와 같은 메타데이터작성 전문가에 의해 생성하는 경우 ▪ 이용자가 메타데이터를 생산: 주로 도서관2.0 환경에서 이용자가 콘텐트에 대한 메타데이터(목록, 주제어, 주석 등)를 작성 하는 경우에 해당
31
일반적으로 메타데이터는 정보자원의 구조적인 형태와 속성(attribute) 정보들을 기술하는 자원기술(resource description)을 목적으로 한다. ① 검색기능 ② 식별기능 ③ 선택기능 ④ 획득기능 – 다운로드, 반출 등
32
메타데이터의 유형은 크게 기술, 관리, 구조, 보존으로 세분된다. 디지털 자원의 처리 및 관리를 용이하게 해주고 지원해주는 관리적 메타데이터의 한 종류로 분류해오던 메타데이터를 관리적 메타데이터로 분리하여 취급하고 있다. ▪ 기술적(descriptive) 메타데이터 ▪ 관리적(administrative) 메타데이터 ▪ 구조적(structural) 메타데이터 ▪ 보존(preservation) 메타데이터 → 이용자의 정보자원 요구와 활용에 부합하는 메타데이터 → 관리자의 정보자원 유지·보수·권한 관리에 쓰이는 메타데이터
33
메타데이터의 핵심요소는 핵심수준(core level)의 메타데이터 요소를 말한다. 어떠한 표준의 메타데이터 스키마에서든 공통적으로 포함되어야 하는 요소의 세트인 것이다. 핵심수준(core level)의 메타데이터 요소에서 코어 레벨은 표제, 저자, 출판년도, 주제어 등 사용자가 어떤 자료인지 식별하고 찾을 수 있는 최소한의 정보를 의미한다. 이는 어떤 표준의 메타데이터 스키마에서든 공통적으로 포함되어야 하는 요소의 세트이며, 더블린코어의 15개 기본요소 또한 이런 역할을 위해 개발된 측면이 있다는 것이다.
34
스키마는 메타데이터 요소들과 그 사용 규칙을 정의해 놓은 집합이다. 특정 목적을 위해 기술된 경우가 많으며, 스키마는 메타데이터를 일관되고 표준화된 방식으로 기술할 수 있도록 도와준다. 메타데이터가 일종의 표준화된 규격을 갖추어 정의되었을 경우에는 메타데이터 스킴(scheme) 또는 요소세트(element set)라고 부르기도 한다. = 메타데이터의 표준화
35
의미구조: 메타데이터의 요소들이 무엇을 의미하는지 명확히 정의하는 것임. 예: title은 "책 제목"을, creator는 "저자"를 의미한다고 설명 내용규칙: 각 요소에 들어갈 값의 형식이나 표현 방법을 규정 예: 날짜는 YYYY-MM-DD 형식으로, 사람 이름은 "성 이름" 순으로 쓰기 등 구문구조: 메타데이터를 기계가 읽을 수 있게 인코딩 하는가이다.(XML, JSON, RDF 등의 형식으로 구조화)
36
DC의 기본요소는 14가지이다.
37
고유성: 자원의 고유한 특성을 기술 요소로 선정한다. 확장성: 규정된 핵심요소 이외에 부가적인 내용이나 특성을 위한 기술 요소를 사용할 수 있다. 구문독립성: 응용분야나 인코딩기법을 규정하지 않는다. 선택성: 각 요소의 사용 여부를 강제하지 않는다. 반복성: 모든 기술요소들은 반복적으로 사용할 수 있다. 수정가능성: 한정어를 사용하여 세부사항을 조절할 수 있다
38
더블린코어 기본 요소: 기본적인 15개 요소 (예: Title, Date, Subject 등) 한정어(Qualifier): 이 기본 요소를 더 자세하게 설명해주는 보조 요소
39
상호운용성의 측면에서 MARC를 MODS로 변환하는 것은 데이터의 손실 없이 가능하며 MODS가 다시 MARC로 완전하게 복구 될 수 있다.
40
MODS는 2002년 7월 미국 의회도서관(Library of Congress)이 공식발표한 MARC, DC, ONIX, IMS, TEI 등을 절충하여 상호운용성과 정밀성을 모두 만족시킨 디지털 도서관 영역의 범용 서지정보표준 메타데이터이다. 다양한 정보와 웹사이트에 수록된 공개된 자료와 전자매체까지 표현이 가능한 MODS는 METS(Metadata Encoding and Transmission Standard)와 함께 사용됨으로써 디지털 도서관의 요구에 가장 적합한 메타데이터 표준이라 할 수 있다.
41
메타데이터 인코딩은 정보자원에 대한 실제의 메타데이터를 기계가독형식으로 표현하는 것으로, 앞서 언급한 구문 규칙과 관련이 있다.(메타데이터를 기계가 읽을 수 있게 표현하는 방법) 일반적으로 메타데이터는 시스템들 간의 상호교환을 위한 공통의 인코딩 포맷을 요구하는 경우가 많다. 이러한 목적의 인코딩을 위해서는 HTML, XML, RDF 등과 같은 표준을 이용하여야 한다. 이러한 인코딩은 정보검색시스템의 내부적인 저장 포맷으로 인코딩을 할 수 있기는 하지만 굳이 그러지 않음.
42
색인대상으로부터 표제, 저자, 주제, 페이지 등에 한정하여 색인을 하는 경우가 대부분이지만, 그것들을 포함하는 다양한 항목들로 구성되는 서지 항목을 색인하여 데이터베이스로 구축할 수 있다. 이 경우 작성된 색인은 색인목록이라고 하며, 정보자원의 유형에 따라 서로 다른 색인용 메타데이터가 요구되기도 한다. 사실 엄연히 말하면 목록과 색인은 다르다. 하지만 엄격히 구분하지 않고 대체로 혼용하여 유사한 의미로 사용된다. 메타데이터 형식으로 색인을 작성할 경우, 메타데이터의 각색인 항목은 구체적인 기술 규칙에 준하여 기술되어야 하며, 내용의 기술 또한 쉽게 인식될 수 있어야 하며, 고유명, 주제명, 표제 등의항목은 일관성있게 표기 되어야 한다.
43
기사색인 메타데이터: 가장 많이 색인하는 메타데이터로, 학술지, 논문기사, 잡지기사, 언론기사 등과 같은 기사 형식의 데이터를 색인하는(색인한) 것을 말한다. 인명색인 메타데이터: 인명사전이나 인물정보 데이터베이스를 색인하여 서비스할 경우에 필요하다. 네이버 인물정보 등이 이에 해당한다. 조인스 인물정보(people.joins.com)는 국내 언론사 최초로 1985년부터 구축을 시작하여 1995년부터 서비스를 시작하였다
44
Index: ‘집게손가락’ 현재와 같이 정보자원을 표현하고 검색하는 도구의 의미가 부여된 것은 16세기 프랑스에서 'index'라는 용어를 사용하는 색인지가 발행되면서 생긴 일이라고 한다.
45
서지도구(bibliographic tools)는 서지분석, 자료조직, 정보조직을 하는 데에 이용한다. 정보자원의 내용을 분석, 그 내용을 나타낼 수 있는 주요 개념들을 추출하여 원래의 정보자원을 대표(대체표현)할 수 있도록 한 것이다.
46
서지색인: 문헌 자체에 대한 것. 저자 출판일 서지색인은 색인의 가장 대표적인 형태로, 방대한 정보자원들을 대상으로 작성한다. 특정 원칙에 따라 논문, 단행본, 다른 정보자원 등을 리스트하는 주기적인 출판물을 의미한다. 본문색인: 특정한 정보자원의 본문 내용에서 작성하는 것이다.
47
지시기능: 이용자에게 정보가 어디에 있는지 찾을 수 있도록 정보의 위치를 알려주는 기능이다. 이는 위치 정보(접근점)의 색인으로 나타난다. 선별기능: 찾은 정보가 이용자가 원하는 정보인지 선별할 수 있게 하는 기능으로, 선별 정보의 색인으로 나타난다. 이러한 지시기능과 선별기능은 검색 도구(Finding aids)로서 중요한 역할을 한다.
48
🔹 서지요소의 색인 • 정보자원의 대체정보이다. 정보 자원을 대신 설명하는 메타데이터 작성 • 서지적 수준에서의 색인이다. 즉, 서지색인 (대체 정보 제공) • 기사 색인, 인물 색인, 출판물 색인 등이 있다. 🔹 접근점(Access Point) 색인 • 검색자가 정보를 찾기 위한 단서를 제공한다. • 주로 색인어, 위치정보의 형태이다.(주제어/키워드 색인) • 저자 색인, 주제 색인, 표제 색인, 권말 색인 (책 끝 용어 색인), 지명 색인 등이 있다.
49
🔹 본문 색인 (Full-text Index: 원문 검색) • 색인대상의 본문 내용에서 핵심적이고 주요한 용어를 색인한다.(내용색인) • 내용색인을 통해 본문의 내용을 직접 검색 가능하게 한다. • 단행본 권말 색인, 연속간행물별 색인, 웹 문서, 전자책, 보고서 등이 있다. • 내용색인 작업은 수동 색인과 자동 색인에 의해 작성된다. 🔹 메타데이터 색인 (Metadata Index) • 원 문헌에서 작성한 메타데이터의 특정 요소에 대한 색인이다. • 단행본 문헌이 있는 경우, 그것의 서지적 대용물인 메타데이터 항목에서 색인 추출한다.(서명, 저자, 출판사와 같은 구조적 정보) • 위와 같이 구조적인 항목을 대상으로 색인을 추출하면 해당 문헌에 대해 구조적 검색이 가능해진다.
50
🔹 색인 대상에 따라 • 문헌 색인: 검색의 대상인 문헌의 본문 내용 또는 메타데이터에서 색인을 추출한 것을 의미(본문 색인, 메타데이터 색인)라 • 질의 색인: 사용자의 검색어(질의)에서 색인을 추출하여 검색 수행
51
색인작업은 문헌(본문 또는 메타데이터)이나 질의에서 내용을 분석하여, 그 중심적인 속성(주제 또는 비주제 속성)을 가장 잘 나타내는 단어인 색인어를 선정하는 작업이다. 이때 색인어는 용어 (Term), 키워드 (Keyword), 디스크립터 (Descriptor)와 같은 말로 부르기도 한다.
52
1. 색인 결과의 형태에 따라 색인지: 인쇄물 형태의 색인 (예: 목차색인, 권말색인 색인 데이터베이스: 색인을 데이터베이스로 작성한 것. (주로 역파일의 구조로 표현) 2. 내용에 따라: 주제 vs 비주제 색인 주제 색인: 좁은 의미의 색인. 색인의 형식에 따라 분류색인과 용어 색인으로 구분한다. 문헌의 주제를 표현 (가장 일반적인 색인 개념) 비주제 색인 (Non-subject Index): 넓은 의미의 색인이다. 비주제 색인은 형식색인으로 주제색인과 다르게 정보자료의 주제에 초점을 두지 않고, 정보자료의 저자명이나 표제명, 기관명, 형태사항과 같이 주제와 직접적인 관련이 없는 색인요소를 색인어로 채택하는 경우이다.
53
주제 색인: 정보자료를 분석하여 그 정보자료가 나타내는 주제를 이용하여 색인어를 선택하는 것이다 -------------------- 개념을 조합하는 시점에 따라 전조합 색인, 후조합 색인 색인된 용어의 형태에 따라: 통제어 색인, 자연어 색인
54
✓ 정보자료의 주제를 구성하는 각 개념을 색인 작업 시 미리 조합하여 색인으로 작성하는 것. ✓ 이용자들이 정보 요구에 의해 정보 검색을 수행할 때 검색에 이용하는 키워드로써의 색인어가 복합 개념일 경우, 여러 개념을 임의로 조합해서 검색에 이용하는 것이 아니라, 색인 작업 시 미리 조합하여 만든 색인어를 이용하여 정보를 검색하는 것이다. ✓ 색인어가 이미 조합되어 있어서 전조합 색인이라고 부른다. ✓ 주제명 색인, 용어열 색인, 패싯분류 등이 있다.
55
✓ 색인작업 시 정보자료의 주제를 구성하는 개념마다 색인어를 부여하고, 정보요구에 의한 탐색을 수행할 때 개별적인 색인어를 조합하여 정보자료를 검색하는 것이다. ✓ 유니텀 색인, 키워드 색인 등이 있다.
56
통제어 색인: 통제어휘 색인 내에 있는 색인어로 정보자료의 주제를 할당하여 선정하는 것이다. = 할당색인 자연어 색인: 정보자료의 내용에서 주제를 분석하여 추출된 개념들을 색인어로 선정할 때, 정보자료에서 표현된 단어 문구 등 자연어 그대로를 색인어로 발췌해서 채택하는 것이다. = 발췌색인
57
문헌이 많던 과거엔 색인전문가가 했지만, 지금 많은 양의 문헌을 전문가가 모두 분류할 수는 없어서 자동색인의 개념이 출현하였다. 자동색인 작성은 컴퓨터에 입력된 문헌의 텍스트를 컴퓨터가 특수한 분석 기법으로 분석한 후, 문헌의 내용을 나타낼 수 있는 단어를 추출하여 색인을 작성하는 것이다. 과정: 단어 추출 > 색인어 후보 분석 > 가중치 기법을 적용하여 색인어 선정 > 색인DB 작성 원리: 문헌을 구성하는 단어들을 일정한 기준에 의해 주제어와 비주제어로 구분하고, 주제어로 평가된 단어로부터 색인어를 뽑아주는 기술이다.
58
✓ 할당색인: 컴퓨터가 문서의 내용을 분석하고, 추출한 주요 개념을 미리 정해진 단어집(통제 어휘집)을 참고해서 색인어를 선택하고 붙이는 방식이다. 컴퓨터가 자동으로 하기는 어렵다. ✓ 발췌색인: 문서에 사용된 단어를 발췌해서 색인어로 사용하는 방식이다. 대부분 자동 색인은 이 방법을 쓴다.
59
✓ 통계적 기법: 단어가 문서에 얼마나 자주 등장하는지를 계산해서 숫자를 기반으로 중요한 단어를 결정한다. (TF*IDF) ✓ 비통계적 기법: 통계보다는 의미나 규칙을 기반으로 색인어를 선택하는 방식이다.(문법이나 의미 분석 등을 이용함)
60
입력 문헌 > 용어 추출 > 색인어 후보 생성 > 색인어 선정 > 색인어(키워드) 리스트
61
모든 색인어 후보가 색인어로 될 수 있다.
62
✓ 자동색인에서 색인어 선정에 대한 연구는 Luhn의 가설로부터 시작되었다. ✓ Luhn의 가설은 문서에 나타나는 단어의 출현빈도가 문헌 내의 단어 중요성이나 의미를 판단하는 기준이 된다는 가설이다. ✓ 초기의 자동색인은 이와 같은 가설에 비롯하여 단어의 출현빈도를 근거로 하는 색인어를 선정하는 통계적 기법을 사용하였다. **** 최근의 자동색인은 문헌 내에서 문장을 분석하는 비통계적 기법(언어학적 기법)을 많이 사용한다.
63
통계적 기법은 문헌에서 출현하는 단어의 빈도가 해당 자료의 주제를 나타낼 확률이 높다는 것에서 출발한다. ✓ 대표 기법: 단어가중 기법, 단어의 출현확률에 의한 확률색인 기법 등 ✓ 단어 빈도에 따른 색인어 선정이 핵심이며, 작업과정이 간편해서 여러 효율 측면에서 매우 효과적인 방법이다. ✓ 문헌에서 출현하는 단어의 빈도가 해당 자료의 주제를 나타낼 확률이 높다는 것에서 출발한다 ✓ 지프의 법칙(Zipf’s Law)을 Luhn이 색인기법에 적용한 것에서 출발한다. ✓ 고빈도와 저빈도 단어 모두 색인으로 선택될 수 있다.
64
토큰화 (Tokenization): 텍스트를 단어 단위로 나누는 과정 • 문장에서 단어를 정확히 식별하고 분리함 스테밍 (Stemming): 중요하지 않은 차이점을 제거하기 위해 단어 끝의 문자를 잘라냄. • 단어의 어미나 접미사를 잘라내어 기본 형태로 변환 • 예: rivers → river 표제화 (Lemmatization): 어휘, 문맥 등을 고려해 단어의 사전적 형태 표제어(원형)로 변환 • 예: loved, loving → love 품사 태깅 (Part-of-Speech Tagging): 단어의 품사를 식별하고 태그를 붙이는 과정 • 한글의 경우 NNG(일반명사), NNP(고유명사), VV(동사), VA(형용사) 등 태그를 부여함. 형태소 (Morpheme): 의미를 가지는 가장 작은 언어 단위 (더 분석하면 의미를 잃음)
65
단어가중기법(가중치 기법)이 있다. 이는 초기 자동색인의 대표적 방식이다. 문헌 내 특정 단어의 출현빈도에 따라 중요도를 판단한다. 단어빈도의 산출은 단순빈도의 계산과 상대빈도의 계산으로 구분할 수 있다. 1) 단순빈도: 특정 문헌(D)에서 나타난 특정 단어(t)의 발생빈도 = 단어빈도(TF) 단어빈도는 단순히 어느 문헌에 단어가 몇 번 등장했는지를 확인하는 것이다 하지만 분석대상이 되는 문헌이나 단어 출현빈도의 크기를 고려하지 않기 때문에, 상대적인 중요성을 표현하기 위한 상대빈도도 중요하다. 2) 상대빈도: 단어빈도의 상대적 중요도를 반영하기 위한 계산법이다. 상대빈도의 산출은 다음과 같은 방식으로 진행한다. 1) TF/DF 방식 (TF × IDF) • TF (Term Frequency): 특정 문헌 내에서 특정 단어의 출현 빈도 • DF (Document Frequency): (문헌 빈도) 특정 단어가 등장한 문헌의 수 • IDF: 역문헌 빈도 2) WDF 방식 (Within Document Frequency) 한 문헌 내에서 전체 단어 출현 수에 대한 특정 단어의 출현 비율 o 문헌 D에서 총 320번의 단어 출현 o 특정 단어 ti가 6번 등장했다면 o WDF = 6 / 320 = 0.019 3) TF/CF 방식 (Term Frequency / Collection Frequency) • CF (Collection Frequency): 특정 단어가 전체 문헌 집합에서 등장한 총 빈도 o 문헌 5개에서 단어 t1의 출현 수: 0, 3, 3, 0, 2 o CF(t1) = 0 + 3 + 3 + 0 + 2 = 8
66
단어의 구문적인 형태나 문헌의 구조적 특성을 이용하여 색인어를 추출하는 것이다. 통계 계산 없이 문장 구조와 의미 중심으로 추출하기에 언어학적 기법이라고도 한다. 대표적인 비통계적 기법: 단서어 기법 , 문헌 구조적 기법 대표적인 색인어 선정 방식: 구문분석 기법: 단어와 단어구가 문헌의 내용을 나타낼 수 있다는 가정에 기초 의미분석 기법: 문장에 나타난 단어의 의미분석을 통해 대표적인 색인어 선택.
67
✓ 한글문헌은 영어와 다르게 띄어쓰기에 일관성이 없고 복합어를 사용하는 독특한 특성을 지닌다. 따라서 한글 특성을 고려한 자동색인 방법이 적용되어야 한다. ✓ 어절 단위의 선정 방법, 형태소 단위의 선정 방법, N그램 방식의 선정 방법 등이 있다. ✓ 이렇게 선정된 색인어 후보들은 통계적 기법과 비통계적 기법을 적용하여 최종적으로 색인어를 적용하게 된다.
68
웹문헌은 텍스트(단행본, 기사)기반의 색인기법과는 다른 방식을 사용해야 한다. 형태뿐만 아니라 내용이 수시로 변경되고 더 이상 존재하지 않을 수 있기때문이다. 웹문헌의 색인대상: ✓ 표면웹(surface web), 심층웹(deep web)이 색인 대상인데, 딥웹은 어렵다. ✓ 웹로봇이라는 프로그램에 의해 주기적으로 수집된다. ✓ 웹로봇은 색인 대상 웹문헌을 수집하며, 스파이더, 스크롤러, 에이전트 등으로 불린다.
69
<Zipf의 법칙> Zipf는 소설이나 성경에 나타나는 단어의 사용빈도 통계를 제시하면서 1949년 파레토 법칙이 이 사회의 광범위한 영역에서 발생한다고 주장했다. <Luhn의 연구> 단어의 출현빈도는 문헌의 내용을 나타내는 주제어로서 중요성을 측정하는 기준이 된다
70
인용관계를 토대로 만든 색인(학제적인 연관관계의 파악 가능) 색인자의 개입이 불필요, 문헌간의 상호관계를 파악할 수 있는 색인기법
71
멀티미디어 자료: 이미지, 오디오, 텍스트 정보의 혼합체 ▪ 멀티미디어 자료의 색인기법 ✓기술기반 색인과 내용기반 색인으로 나뉨 기술기반 색인: 멀티미디어의 자료의 내용 보다는 기술적인 측면을 색인어로 선정 내용기반 색인: 멀티미디어 자료에 대한 캡션이나 설명 정보에 대한 텍스트 키워드에 기반한 내용을 색인어로 선정 ✓이미지와 오디오 자료로 구분하여 색인기법을 적용하여야 한다.
72
✓ 특정 객체를 사전에 정해진 개념의 범주에 맞추어 분류하는 것을 범주화라고 한다. ✓ 일반적으로 범주화는 특정 객체를 특정 개념에 따라 구분하는 것을 말한다 ✓ 도서관이나 정보검색 영역에서 대표적인 범주화는 분류와 클러스터링이 있다.
73
분류는 도서관에서 오래전부터 사용한 범주화의 형태로 KDC 등의 분류표를 범주로 활용했다. 하지만 자료가 방대해지며 새로운 방법의 분류가 요구되고 있다. ✓ 방대한 인터넷 자료를 자동으로 분류하는 범주화 ✓ 간략한 '택소노미' 라는 분류체계에 따른 인터넷 자료들의 분류 -- 필터링, 패싯분류 ✓ 이용자 스스로 부여한 개념 키워드로 분류하는 폭소노미의 적용 -- 해시태그
74
✓ 유사한 특성을 가지는 자료들을 모으는 것을 말한다. ✓ 자동범주화: 컴퓨터 프로그램을 통해 문헌들을 자동으로 범주화 하는 클러스터링 방법 ✓ 문헌을 대상으로 할 경우 문헌에 나타나는 몇 가지 특성을 비교하여 유사한 특성별로 문헌을 자동 군집화 하게 된다.
75
정보의 관리 및 검색 대상이 되는 문헌자료가 주된 대상이지만, 경우에 따라서는 문헌에 나타나는 키워드나 문헌의 저자를 대상으로 클러스터링 할 수도 있다.
76
범주화는 망라성과 상호배타성의 원칙을 따라야한다.할 망라성: 정보표현을 위해 필요한 모든 범주 카테고리가 범주화 시스템에 포함되어 있어야 함을 의미한다. (망라적이지 못하면 특정 문헌의 분류를 표현하지 못할 수 있다.) 상호배타성: 해당 범주 카테고리는 상호배타적이어야 한다. (상호배타적이지 못하면 하나의 문헌이 복수의 범주 카테고리로 분류될 수 있다.)
77
공통점: 둘 다 비슷한 것끼리 묶는 범주화의 한 방법이다. 범주화가 분류라면, 클러스터링은 더 넓은 의미의 분류. 차이점: 분류는 이미 정해진 그룹에 따라 분류한다.(지도학습) -- "이건 고양이", "이건 강아지"라고 정답을 주고 학습 클러스터링은 비슷한 것끼리 묶어서 그룹을 만든다.(비지도 학습) -- 정답 없이 비슷한 것끼리 묶어냄
78
문헌 분류는 정보와 자료를 체계적으로 정리하는 기법이다. 수동분류(분류표, 택소노미, 폭소노미)와 자동분류(문헌 범주화, 문헌 클러스터링)으로 나뉜다.
79
• ‘택소노미’는 미리 정해진 분류 체계에 따라 정보를 분류하는 방식이다. • 웹자료는 느슨하게 구조화된 범주체계(범주 카테고리)를 이용하여 웹자원을 범주화하고 각 자원을 범주 내에 링크로 연결시키고 있다. (디렉토리 방식의 분류체계)
80
소수의 전문가가 사전에 정해진 카테고리에 정보를 분류하기에 단일방향적 특징을 가지고 있다. 또한, 웹자료가 많아지면서 제한된 인원과 시간으로 분류하는 건 불가능한 일이나 다름 없게 되었다.
81
• 집단지성을 이용한 대중들이 직접 분류하는 사회적 분류법이다. • 분류작업은 소수의 전문가보다 다수의 대중이 분류한게 훨씬 신뢰할 수 있단 믿음이 내재되어 있다. • 보통 이용자가 개별 웹자료에 자유롭게 선택한 키워드 또는 태그를 기반으로 관련된 정보자료를 체계적으로 정리해 놓은 것이다. • 양방향적인 특징을 가져서 참여분류, 대중분류라고 부를 수 있다. • 폭소노미의 태그는 분류 이상의 의미를 지닌다. 태그가 방대한 규모로 모이면 그 자체로 가치 있어지며, 개인이나 집단의 공동 관심사가 무엇인지 파악할 수 있기 때문이다. • 폭소노미는 사람들이 협동하여 생성하며 확장이 가능한 라벨링 시스템이며, 태그를 붙이는 작업을 태깅(Tagging)이라고 한다.
82
1. 택소노미는 상하위 개념이라는 계층적 구조를 가지고, 동위 계열 간 배타적 성격을 나타내고 있다. 반면, 폭소노미는 계층적이지도 배타적이지도 않다. 2. 택소노미는 물리적 개체를 대상으로 고안되어 배타적인 위치를 지정해야한다. 복합적 주제인 문헌도 더 강조되는 측면으로 분류한다. 하지만 폭소노미는 물리적 제약이 없고, 연관 주제는 링크하여 연계시킨다. 3. 택소노미는 최상위 유개념에서 최하위 종개념으로 목적에 맞는 집합을 만드는데, 폭소노미는 개체를 개인이 이해하는 바에 따라 정의한 개념의 집합체이다.
83
문헌범주화란 무엇인가? 미리 정해진 주제의 범주로 문헌을 자동으로 할당하는 것이다. 이를 텍스트 범주화, 문서 범주화라고 이야기하며, 문헌의 자동분류 또는 자동 범주화에 해당된다. 클러스터링과 문헌 범주화의 차이점은? 개별적 문헌을 특정 범주에 배정한다는 측면에서 보면 문헌의 클러스터링 작업과 유사하지만, 차이가 있다. 문헌 범주화는 학습문헌으로 분류의 사전 범주체계를 미리 결정하지만, 문헌 클러스터링은 분류의 범주를 만들어가며 분류를 한다.
84
규칙 기반 범주화: 범주화의 규칙을 지식 DB로 구축하여 분류에 활용하는 방법이다. 기계학습 기반 범주화: 학습집단의 문헌으로부터 미리 범주를 구분하여 문헌의 범주를 귀납적으로 예측하는 것이다. (기계학습은 학습과정과 추론과정으로 구성되어 있음) >>> 초기의 문헌 범주화는 규칙 기반 범주화를 사용했지만, 최근엔 알고리즘을 이용하여 기계학습 기반 범주화 방식을 많이 사용한다. 기계학습으로 수행되기에 작업 비용을 최소화할 수 있고, 통계에 의해 분류해서 객관적임
85
• 문헌집단: 학습, 입력, 검증 문헌 • 분류자질: 문헌의 주요 단어들 • 분류기: 문헌을 분류하는 알고리즘
86
유사한 특성을 가진 데이터를 하나의 그룹(클러스터)으로 묶는 것 구성요소 3가지 분류자질: 비교에 사용되는 단어 등 특징 유사도 계수: 유사성 판단 도구 (0~1 사이 값) 클러스터링 기법: 계층적 / 비계층적
87
이용자-검색인터페이스, 검색인터페이스-검색엔진, 검색엔진-문헌DB 사이에서 성능평가, 인터페이스 평가, 순위 평가 등이 수행된다. 여기서 성능은 검색기능의 성능과, 검색질의에 대한 검색결과를 제공하는 검색처리의 성능으로 구분할 수 있다.
88
검색과정에서 사용하는 개별적인 기능들이 목적하는 바를 제대로 수행하고 있는 지 나타내는 것이다. 간략하게 기능의 수행여부 정도를 판단하는 간략 평가와, 처리속도나 공간 소요와 같은 상세한 평가로 구분이 가능하다. 우리가 관심을 가지는 건, 검색 기능의 성능보다는 검색처리의 성능이다. 검색처리는 이용자와 검색 인터페이스(시스템)과 관련이 있으며, 이용자 관점의 평가로 이어진다.
89
효율성 지표: 최소한의 투자로 최적의 성능을 얻는 것.(검색처리의 신속성) 효과성 지표: 목표를 얻고자 하는 것.(사용자가 원하는 검색 결과가 나왔는가?) 효율성과 효과성은 연관이 있을 수도 없을 수도 있고, 하나가 좋다고 하나가 반드시 좋은 건 아니다. > 정보검색 시스템을 성능으로 평가하는 경우, 검색 기능보다는 검색처리의 측면에서, 효율성보다는 효과성의 지표를 주로 평가한다.
90
2진 구분이 가장 간단하다. 적합과 부적합으로 나누는 것이다. 또 다른 방법은 적합성의 수준 구분이 있다. 적합성을 3가지로 구분한다면 0(부적합), 1(부분 적합), 2(적합)으로 나눌 수 있을 것이다.
91
평가이름: 적합성 평가. 구체적 척도: 재현율과 정확률
92
재현율: 시스템이 소장한 적합 문헌 중 검색된 적합 문헌의 비율 정확률: 검색된 문헌들 가운데 적합 문헌의 비율(얼마나 많은 문헌이 적합한지. ) 재현율 70%, 정확률 40%면, 적합 문헌 중 의 70%가 검색되었음을 의미하고, 정확률 40%란 검색된 문헌 가운데 40%가 적합문헌임을 의미한다. 원하는 문헌은 전부 검색되고, 원하지 않은 문헌은 하나도 검색되지 않는 이상적인 검색시스템은 현실 세계에서 거의 불가능 재현율과 정확률은 반비례하는 경향 → 두 측청치가 모두 높은 탐색 과를 얻는 것을 불가능 두 척도 모두 과정을 평가하지 않고 결과만 평가한다. 정확률은 계산이 용이하지만 재현율은 아니다.
93
> 검색대상 문헌이 방대하면 결과가 수백만 건에 이를 수도 있다. 하지만 어렵다고해서 적합성을 계산하지 않을 수는 없으니, 적합성에 따라 순위화하여 보여주고 사용자가 스스로 적합한 것을 검색할 수 있도록 한다. > 검색질의와 검색된 문헌의 유사도를 계산하여 유사도가 높은 문헌들로부터 우선적으로 배열하고자 하는 목적에서 시도한다. ( 벡터공간 모델, 확장 불리언 모델, 확률 모델 등에서 시도)
94
활용성
95
유용성
96
1. 평가의 준비 과정 2. 평가의 실시 과정 3. 평가결과의 분석 및 적용 과정 • 사용성을 평가하는 방법 1. 이용자에 의한 평가: 질문법 및 검증법, 설문법, 각종 실험실 평가 등 2. 전문가에 의한 평가: 감정법(체크리스트 평가, 검증법의 인지과정 평가)
0. 심리학의 서막
0. 심리학의 서막
미니망고 · 18問 · 1年前0. 심리학의 서막
0. 심리학의 서막
18問 • 1年前제 8장 기억
제 8장 기억
미니망고 · 33問 · 1年前제 8장 기억
제 8장 기억
33問 • 1年前제 9장 사고와 언어
제 9장 사고와 언어
미니망고 · 19問 · 1年前제 9장 사고와 언어
제 9장 사고와 언어
19問 • 1年前제 10장 지능
제 10장 지능
미니망고 · 22問 · 1年前제 10장 지능
제 10장 지능
22問 • 1年前제 11장 동기
제 11장 동기
미니망고 · 21問 · 1年前제 11장 동기
제 11장 동기
21問 • 1年前제 12장 정서
제 12장 정서
미니망고 · 29問 · 1年前제 12장 정서
제 12장 정서
29問 • 1年前제13장 사회심리학
제13장 사회심리학
미니망고 · 39問 · 1年前제13장 사회심리학
제13장 사회심리학
39問 • 1年前제14장 성격
제14장 성격
미니망고 · 33問 · 1年前제14장 성격
제14장 성격
33問 • 1年前제15장 심리장애
제15장 심리장애
미니망고 · 32問 · 1年前제15장 심리장애
제15장 심리장애
32問 • 1年前제16장 치료
제16장 치료
미니망고 · 35問 · 1年前제16장 치료
제16장 치료
35問 • 1年前정보시스템론 개념 정리
정보시스템론 개념 정리
미니망고 · 96問 · 9ヶ月前정보시스템론 개념 정리
정보시스템론 개념 정리
96問 • 9ヶ月前전자자료관리론 족보
전자자료관리론 족보
미니망고 · 53問 · 9ヶ月前전자자료관리론 족보
전자자료관리론 족보
53問 • 9ヶ月前기록학개론
기록학개론
미니망고 · 5回閲覧 · 72問 · 9ヶ月前기록학개론
기록학개론
5回閲覧 • 72問 • 9ヶ月前디지털도서관
디지털도서관
미니망고 · 71問 · 9ヶ月前디지털도서관
디지털도서관
71問 • 9ヶ月前정보시스템론 ㅠㅠ
정보시스템론 ㅠㅠ
미니망고 · 12問 · 9ヶ月前정보시스템론 ㅠㅠ
정보시스템론 ㅠㅠ
12問 • 9ヶ月前기록학개론 개념
기록학개론 개념
미니망고 · 100問 · 7ヶ月前기록학개론 개념
기록학개론 개념
100問 • 7ヶ月前정보검색론 시험예상문제
정보검색론 시험예상문제
미니망고 · 19問 · 7ヶ月前정보검색론 시험예상문제
정보검색론 시험예상문제
19問 • 7ヶ月前기록학개론 예상 문제
기록학개론 예상 문제
미니망고 · 36問 · 7ヶ月前기록학개론 예상 문제
기록학개론 예상 문제
36問 • 7ヶ月前전자자료관리론 개념
전자자료관리론 개념
미니망고 · 100問 · 7ヶ月前전자자료관리론 개념
전자자료관리론 개념
100問 • 7ヶ月前問題一覧
1
검색자가 검색대상의 문헌을 잘 알지 못하고 자신이 요구하는 바를 제대로 표현하지 못하는 불확실한 상황이라서 정보요구가 발생함.
2
검색대상(문헌들의 집합)에서 그 정보요구를 가장 잘 만족시키는(적합성이 높은) 걸 찾아내는 것이다.
3
행위: 검색자의 질의 기능: 시스템이 그 질의에 대해 문헌을 분석하고 매칭하는 것. 정보검색은 검색자가 요청한 질의(query)와 검색대상이 되는 문헌 간의 유사도(similarity)를 측정하고, 일정 기준의 유사도를 가지는 문헌들을 매칭(matching)기법으로 찾는 것이 정보검색이다 유사도 측정, 매칭 방법은 검색시스템에 따라 다른 알고리즘을 사용하며, 질의와 문헌의 표현, 유사도 측정과 매칭 알고리즘 등에 따라 정보검색 모델은 다양하게 구분된다.
4
검색질의: 질의는 사람들이 입력하는 자연어(예: "한국 역사에 관한 책")나 특별한 형식의 인공어(예: title:history AND country:korea)로 표현된다. 검색대상 문헌: 문헌은 색인어(index term) 나 범주(category) 같은 방식으로 미리 표현되어 있다.
5
1. 이용자가 정보요구 표현법 이용자가 키워드로 검색할지, 디렉토리를 브라우징할지에 따라 정보검색모델이 달라진다. 이용자가 키워드로 검색하는 불리언 모델이 될 수도, 다른 모델이 될 수도 있다. 2. 검색대상 문헌의 색인어, 디렉토리 범주 표현법 검색모델은 문헌이 어떻게 표현되었는지에 따라 비교 방식 자체가 달라진다. 불리언은 단어가 있냐 없냐만 보면 되는데, 언어 모델은 문맥의 자연스러움까지 본다. 3. 질의와 문헌의 색인 매칭법 질의와 문헌 간 유사도 매칭을 하여 어떤 순위로 결과를 보여주나로 이어진다.
6
용어매칭: 질의, 문헌, 혹은 문헌 표현에 있는 용어 그 자체를 직접 매칭하는 것이다. 완전매칭, 부분매칭, 위치매칭, 범위매칭이 있다.,(뭔가 객관식 나올듯) 불리언 모델에서 가장 많이 쓰이며, 다른 정보검색 모델에선 보통 유사도 매칭이 적용된다. 유사도 매칭: 용어 그 자체가 아니라 유사도를 계산하여 선택하는 것이다. 예를 들어, 벡터 간 거리/각도 혹은 용어 빈도
7
기본적으로 Baeza-Yates와 Riberio-Neto가 제시한 정보검색 모델의 구분을 이용한다. - 검색 - 전통모델(불리언, 벡터공간, 확률) - 각각 확장 모델이 있음. 정보 요구 - 브라우징 - 브라우징 모델(평면, 구조 기반(디렉토리 기반), 하이퍼텍스트) 정보 요구에 따라 검색 모델과 브라우징 모델로 나뉘며, 정보 검색은 전통적인 정보검색 모델과 확장 정보검색 모델로 구분한다. 전통 모델이 가장 많이 알려졌고, 많은 정보검색시스템에서 구현된다. 확장모델은 전통 모델들의 단점을 극복하기 위해 제안되었다. 브라우징 모델은 검색어 입력 없는 탐색 중심의 모델을 말하는 것으로, 평면 브라우징, 구조 기반 브라우징(디렉토리 기반), 하이퍼텍스트 브라우징이 있다.
8
Taube가 정보검색에 도입한 모델이다. 집합과 AND, OR, NOT의 표준적인 집합 연산자로 구성되어 있다. 질의나 문헌에 특정한 용어가 있다(1), 없다(0)의 이진법(binary)형태로만 표현된다. 불리언만으로는 검색 결과의 순위화, 차별화는 불가능하다. 따라서 상용 DB나 웹 검색엔진에서 사용될 때는 벡터공간 모델과 함께 작용한다. =대부분의 DB, 검색엔진에서 채택
9
<도서관 AND 교육> 이라는 질의에 대해서 도서관을 색인어로 갖는 A와 교육을 색인어로 갖는 B가 각각 생성된 뒤, 집합연산 AND를 수행하여 교집합에 해당하는 문헌집합 C를 생성한다.
10
<장점> 1. 불리언모델은 알고리즘이 단순하여 구현하기 수월하다. 2. 이용자는 불리언 연산을 활용하여 비교적 쉽게 검색 범위를 넓히거나 좁히거나 특정 결과를 제거할 수 있다. 할 수 있다. 3. 불리언 모델은 질의나 문헌을 분해하여 용어의 조작을 지원함으로써 정보검색의 유연성과 효과를 달성 가능하다. <단점> 1. 부분 매칭을 나타낼 수 없다. 참, 거짓만 표현이 가능하기 때문이다. 적합한 문헌과 적합하지 않은 0과 1의 계산만 가능할 뿐, 적합성이 감소되는 순서로는 나열될 수 없는 것이다. --- 검색어 일부라도 포함되어 있는 문서나 결과를 알려주진 않음., 가장 관련성 높은 문서부터 순서대로 보여주지도 않음. 2. 검색결과의 순위화가 가능하지 않다. 질의와 문헌의 완전 매칭된 결과만을 검색하기때문이다. 3. 용어 간 상대적인 중요도를 나타낼 수 없다. 모든 용어는 동일하게 1이라는 가중치를 가지고 있기때문이다. 4. 용어 간 불리언 논리 외의 관계를 표현하는 것도 불가하다.
11
1. 불리언 연산자에 의한 질의 표현 2. 본문파일에서 추출한 색인파일(사전파일, 역파일)과 색인어와 매칭 시도. 사전파일은 키워드 탐색을, 역파일은 불리언 연산자를 수행하는 데 사용됨. * 역파일은 색인어와 본문 내에서 색인어의 위치를 나타낸 파일임. 3. 결과 도출
12
Salton이 대수론(algebra theory)을 이론적 근거로 만든 정보검색이론이다. 불리언과 다르게 적정 수준의 유사도 이상인 문헌이 검색되며, 유사도 순으로 순위화가 가능하다는 특징이 있다. 불리언 다음으로 정보검색 영역의 발전에 영향을 미쳤는데, 특히 부분 매칭이 가능하다는 점에서 그 단점이 보완된다. SMART라는 정보검색 시스템에서 가장 먼저 적용했으며, 벡터모델, 대수모델, 용어벡터모델이라고도 부름.
13
문헌벡터Dj=(t1j, t2j, ... tij): 문헌에 대한 용어벡터 질의벡터q=(q1, q2, ... qk): 질의에 대한 용어벡터 용어 빈도 (TF): 특정 문헌 내에서 한 단어가 얼마나 자주 등장했는가? 역문헌 빈도 (IDF): 특정 단어가 전체 문헌 중 몇 개 문헌에 등장했는가?
14
용어빈도(TF)와 역문헌빈도(IDF)의 값을 조합한 것이다. 특정 문헌 내에서 용어빈도수가 높지만, 다른 문헌에서는 용어빈도수가 낮은 용어에 높은 가중치를 부여한다는 의미이다. 따라서 TF(용어 빈도)가 크고, DF(문헌 빈도)가 작을수록 가중치는 커지게 된다. 전체문헌에서 공통적으로 등장하는 용어들은 걸러지는 효과를 가져 온다. 이것은 많은 문헌에서 출현하는 용어들은 의미가 없다고 보기 때문이다. ex) 그래서, 왜 등
15
1. 문헌과 질의에 나타난 용어들의 벡터로부터 유사도를 구한다. t1 t2 t3 t4 t5 t6 t7 t8 D1 0 0 0.3 0 0.5 0.4 0.3 0.2 D2 0 0.5 0.2 0 0 0 0.3 0.4 유사도 내적 계수 값 SIM(D1, q) 0.09 0*0.4+0*0.3+0.3*0.3+0*0+0.5*0+0.4*0+0.3*0+0.2*0 SIM(D2, q) 0.21 만약 여기서 적정 수준의 유사도 값(임계치 0.1)을 가지는 문헌을 선택하면 D2가 뜨게 될 것이야.
16
이상적인 질의는 다음 두 가지 기준을 충족해야한다. 1. 적합 문헌과의 유사도는 최대화: 정보 검색의 목적에 가장 부합하는 문서를 정확하게 찾아내기 위해, 유사도를 최대화하는 방향으로 질의를 구성해야함. 2. 부적합 문헌과의 유사도는 최소화: 관련 없는 문서들이 검색되지 않도록, 유사도가 낮도록 질의를 정교하게 조정해야 함. 그러나 이러한 이상적인 질의를 처음부터 작성하는 것은 매우 어렵다. 검색자가 자신의 정보 요구(Information Need)를 정확하게 정의하지 못하는 경우가 많고, 문서 데이터베이스에 어떤 정보가 있는지 사전에 알 수 없기 때문이다. 따라서 초기의 질의를 시작으로 검색결과를 평가하면서 계속 질의를 수정하고 확장하는 반복된 검색 과정을 거쳐야한다.
17
<장점> 1. 이진 가중치의 제한과 색인어에 비이진 가중치를 할당함으로서 부분 매칭이 가능한 틀을 제공하게 되었다. 2. 또한, 유사도에 따라 순위화가 가능해졌으며, 이용자가 불리언 논리를 이해하지 않고 자연어로만 질문을 할 수 있게 됨. 3. 질의확장이나 연관 피드백을 사용해서 성능이 향상됨. <단점> 1. 용어들 간의 집합관계(불리언 관계)를 나타낼 수 없으며 2. 용어들 간에 존재하는 의미관계를 나타낼 수 없다. 3. 가중치 메커니즘은 주관적이거나 복잡해질 수 있으며 개념의 상대적 중요성을 나타낼 수 있는 매커니즘이 없다는 한계가 있다.
18
Maron, Kuhns의 확률기반색인 연구로 처음 논의 됐으며 Robertson에 의해 발전됐다. 지금은 Robertson-Jones의 확률 모델로 알려졌다. 문헌이 특정한 질의에 적합한지 그렇지 않은지를 산출하여 적합할 확률이 적합하지 않을 확률보다 큰 문헌을 검색하는 것이다. 적합성 확률은 질의와 문헌 사이의 유사성에 기초하여 결정된다. 베이지언 통계규칙을 활용하여 계산하므로 베이지언 확률 모델이라고도 한다.
19
일반적으로 불리언이 약한 모델로 여겨지며 낮은 성능을 보인다. 이유는 주로 단어를 이용해서 문헌과 질의를 표현하고, 또는 거짓의 이진법을 이용하여 ‘완전 매칭’으로 적합한 문헌을 식별하기 때문이다. 이러한 완전매칭의 문제점을 해결하기 위해 만든 것이 벡터공간모델과 확률모델이다. 부분적합에 의한 매칭은 검색결과를 매칭 값의 순서에 따라 순위화할 수 있는 이점이 있으며, 둘 중에는 벡터공간 모델이 대부분의 정보검색시스템에서 활용되고 있다.
20
질의 형성의 어려움을 극복하고, 초기의 질의를 자신의 정보요구에 더욱 적합한 질의로 형성하는 과정이다. 검색 이용자들이 정보 요구를 질의로 표현하여 검색시스템에 접근하면, 처음에 구성한 질의는 검색자의 요구를 표현할 수 없는 경우가 많다. 검색 결과를 보고 다시 질의를 수정하고 보완하며 질의를 확장해나간다.
21
1. 검색결과를 확인하고 만족 여부를 결정한다. 2. 검색결과가 불만족스러우면 질의를 수정후 재검색을 한다. 이 과정은 만족스러운 결과가 나올 때까지 반복될 수 있다. 또한, 질의확장 과정은 수동 또는 자동으로 처리되는데, 특히 자동적으로 처리하는 질의확장을 적합성 피드백이라고 한다. 이용자가 적합성 여부를 표시해주면 시스템이 알아서 질의를 수정하고 재검색을 해준다.
22
매칭검색 모델: 이용자가 입력한 키워드를 최대한 만족하는 콘텐츠를 보여주도록 설계된 모델이다. 검색모델의 기본이며 가장 많이 사용된다. 일정한 기준의 유사도 값에 따라 매칭여부를 결정하고 검색결과를 도출하는 것이다. 단순 DB검색이 아닌 복수 DB를 대상으로 하는 통합검색이다. 연계검색 모델: 콘텐츠의 서지사항(외형)과 내형(내용)에서 관계 정보를 추출하고, 이 정보를 두 콘텐츠 간 연계 정보로 활용하는 검색모델이다. 연계검색은 일차검색결과를 콘텐츠에 적용하는 콘텐츠 연계와, 독자적인 검색모델로 수행되는 경우로 나눌 수 있다.
23
매칭검색모델: 여러 개의 데이터베이스(DB)에서 매칭되는 정보들을 찾아주는 것이다 1. 통합검색 - 하나의 DB가 아니라 여러 DB를 대상으로 동시에 검색한다 통합검색은 메타통합검색과 메타검색으로 구분 가능하다. 메타통합 검색: DB로부터 메타데이터를 수집 후, 통합 메타데이터로 구축한 뒤 검색 한다. 메타 검색: 분산검색이라고도 하며, 이용자가 요청한 질의를 각 DB에 전달하고 결과를 반환 받는 방식으로 검색을 수행함. 2. 개인화 검색 - 방대한 정보자원을 대상으로 하는 통합검색은 개인의 특수한 관심에는 불만이 생길 수 있다. 따라서 나온 것이 개인화검색 기법이다. 이는 개인의 정보요구 환경에 적합하다. 현실에서는 협업 필터링을 이용한 콘텐츠 추천 등으로 이용된다. --------------------------------------------------------------------------------------------------------------------------------------------------------------------- 연계검색모델: 매칭검색모델보다 조금 더 진화된 형태 콘텐츠들 사이의 ‘관계’를 분석해서, 검색에 반영하는 방식이다. 즉, 직접적으로 검색어와 일치하지 않더라도, 연관된 콘텐츠를 찾아주는 고급 검색! 1. 콘텐츠 연계 - 검색결과로 나타난 콘텐츠를 토대로 관련 있는 콘텐츠로 연결해주는 것이다.(URL, 꼬리물기 연계(함께 본 자료) 등) 2. 독자적인 검색모델로서의 연계검색 브라우징 연계검색: 검색대상 DB의 개별 콘텐츠들을 카테고리로 구분하여 브라우징으로 검색을 수행하는 경우이다. 개체관계형 연계검색: 콘텐츠 간의 속성 관계를 기반으로 검색하는 것이다.
24
메타데이터는 속성, 구조, 위치 등 데이터의 가장 기본적인 사항을 포함하고 있는 데이터의 데이터를 말한다. 메타데이터는 정보자원의 구조적인 형태와 속성을 기술하는 구조화된 데이터 또는 인코딩 데이터이다. 메타데이터는 검색시스템의 저장은 물론, 관리, 운영, 검색, 유지보수 등에 결정적인 역할을 수행한다. 온라인 또는 오프라인 형태의 모든 정보자원을 표현하는 수단 내지는 도구를 총칭한다. 메타데이터의 상호운용성을 위하여 정보자원의 유형별 표준화된 메타데이터 형식(표준 스키마)을 개발하여 사용한다.
25
속성(특성)을 ‘기술한다’는 의미이다.
26
식별 탐색 평가 관리 보존
27
저자, 서명, 출판사, 주제 등과 같은 정보자원의 검색과 식별을 위해 필요한 속성들의 데이터를 의미한다. 좁은 의미의 메타데이터는 위와 같으며, 넓은 의미의 메타데이터는 정보자원의 평가, 관리, 보존 등을 위해 필요한 속성들의 데이터를 의미한다.
28
1. 대상 정보자원에 내장되는 경우: 거의 실현된 적 없음 2. 별도로 생성되는 경우: HTML의 메타태그(meta-tag)로 표현
29
메타태그
30
▪ 자동생성 되는 경우 ▪ 정보자원의 저자가 직접 생성하는 경우(셀프 아카이빙) → 저자 생성 메타데이터(가장 많이 함) ▪ 도서관 사서와 같은 메타데이터작성 전문가에 의해 생성하는 경우 ▪ 이용자가 메타데이터를 생산: 주로 도서관2.0 환경에서 이용자가 콘텐트에 대한 메타데이터(목록, 주제어, 주석 등)를 작성 하는 경우에 해당
31
일반적으로 메타데이터는 정보자원의 구조적인 형태와 속성(attribute) 정보들을 기술하는 자원기술(resource description)을 목적으로 한다. ① 검색기능 ② 식별기능 ③ 선택기능 ④ 획득기능 – 다운로드, 반출 등
32
메타데이터의 유형은 크게 기술, 관리, 구조, 보존으로 세분된다. 디지털 자원의 처리 및 관리를 용이하게 해주고 지원해주는 관리적 메타데이터의 한 종류로 분류해오던 메타데이터를 관리적 메타데이터로 분리하여 취급하고 있다. ▪ 기술적(descriptive) 메타데이터 ▪ 관리적(administrative) 메타데이터 ▪ 구조적(structural) 메타데이터 ▪ 보존(preservation) 메타데이터 → 이용자의 정보자원 요구와 활용에 부합하는 메타데이터 → 관리자의 정보자원 유지·보수·권한 관리에 쓰이는 메타데이터
33
메타데이터의 핵심요소는 핵심수준(core level)의 메타데이터 요소를 말한다. 어떠한 표준의 메타데이터 스키마에서든 공통적으로 포함되어야 하는 요소의 세트인 것이다. 핵심수준(core level)의 메타데이터 요소에서 코어 레벨은 표제, 저자, 출판년도, 주제어 등 사용자가 어떤 자료인지 식별하고 찾을 수 있는 최소한의 정보를 의미한다. 이는 어떤 표준의 메타데이터 스키마에서든 공통적으로 포함되어야 하는 요소의 세트이며, 더블린코어의 15개 기본요소 또한 이런 역할을 위해 개발된 측면이 있다는 것이다.
34
스키마는 메타데이터 요소들과 그 사용 규칙을 정의해 놓은 집합이다. 특정 목적을 위해 기술된 경우가 많으며, 스키마는 메타데이터를 일관되고 표준화된 방식으로 기술할 수 있도록 도와준다. 메타데이터가 일종의 표준화된 규격을 갖추어 정의되었을 경우에는 메타데이터 스킴(scheme) 또는 요소세트(element set)라고 부르기도 한다. = 메타데이터의 표준화
35
의미구조: 메타데이터의 요소들이 무엇을 의미하는지 명확히 정의하는 것임. 예: title은 "책 제목"을, creator는 "저자"를 의미한다고 설명 내용규칙: 각 요소에 들어갈 값의 형식이나 표현 방법을 규정 예: 날짜는 YYYY-MM-DD 형식으로, 사람 이름은 "성 이름" 순으로 쓰기 등 구문구조: 메타데이터를 기계가 읽을 수 있게 인코딩 하는가이다.(XML, JSON, RDF 등의 형식으로 구조화)
36
DC의 기본요소는 14가지이다.
37
고유성: 자원의 고유한 특성을 기술 요소로 선정한다. 확장성: 규정된 핵심요소 이외에 부가적인 내용이나 특성을 위한 기술 요소를 사용할 수 있다. 구문독립성: 응용분야나 인코딩기법을 규정하지 않는다. 선택성: 각 요소의 사용 여부를 강제하지 않는다. 반복성: 모든 기술요소들은 반복적으로 사용할 수 있다. 수정가능성: 한정어를 사용하여 세부사항을 조절할 수 있다
38
더블린코어 기본 요소: 기본적인 15개 요소 (예: Title, Date, Subject 등) 한정어(Qualifier): 이 기본 요소를 더 자세하게 설명해주는 보조 요소
39
상호운용성의 측면에서 MARC를 MODS로 변환하는 것은 데이터의 손실 없이 가능하며 MODS가 다시 MARC로 완전하게 복구 될 수 있다.
40
MODS는 2002년 7월 미국 의회도서관(Library of Congress)이 공식발표한 MARC, DC, ONIX, IMS, TEI 등을 절충하여 상호운용성과 정밀성을 모두 만족시킨 디지털 도서관 영역의 범용 서지정보표준 메타데이터이다. 다양한 정보와 웹사이트에 수록된 공개된 자료와 전자매체까지 표현이 가능한 MODS는 METS(Metadata Encoding and Transmission Standard)와 함께 사용됨으로써 디지털 도서관의 요구에 가장 적합한 메타데이터 표준이라 할 수 있다.
41
메타데이터 인코딩은 정보자원에 대한 실제의 메타데이터를 기계가독형식으로 표현하는 것으로, 앞서 언급한 구문 규칙과 관련이 있다.(메타데이터를 기계가 읽을 수 있게 표현하는 방법) 일반적으로 메타데이터는 시스템들 간의 상호교환을 위한 공통의 인코딩 포맷을 요구하는 경우가 많다. 이러한 목적의 인코딩을 위해서는 HTML, XML, RDF 등과 같은 표준을 이용하여야 한다. 이러한 인코딩은 정보검색시스템의 내부적인 저장 포맷으로 인코딩을 할 수 있기는 하지만 굳이 그러지 않음.
42
색인대상으로부터 표제, 저자, 주제, 페이지 등에 한정하여 색인을 하는 경우가 대부분이지만, 그것들을 포함하는 다양한 항목들로 구성되는 서지 항목을 색인하여 데이터베이스로 구축할 수 있다. 이 경우 작성된 색인은 색인목록이라고 하며, 정보자원의 유형에 따라 서로 다른 색인용 메타데이터가 요구되기도 한다. 사실 엄연히 말하면 목록과 색인은 다르다. 하지만 엄격히 구분하지 않고 대체로 혼용하여 유사한 의미로 사용된다. 메타데이터 형식으로 색인을 작성할 경우, 메타데이터의 각색인 항목은 구체적인 기술 규칙에 준하여 기술되어야 하며, 내용의 기술 또한 쉽게 인식될 수 있어야 하며, 고유명, 주제명, 표제 등의항목은 일관성있게 표기 되어야 한다.
43
기사색인 메타데이터: 가장 많이 색인하는 메타데이터로, 학술지, 논문기사, 잡지기사, 언론기사 등과 같은 기사 형식의 데이터를 색인하는(색인한) 것을 말한다. 인명색인 메타데이터: 인명사전이나 인물정보 데이터베이스를 색인하여 서비스할 경우에 필요하다. 네이버 인물정보 등이 이에 해당한다. 조인스 인물정보(people.joins.com)는 국내 언론사 최초로 1985년부터 구축을 시작하여 1995년부터 서비스를 시작하였다
44
Index: ‘집게손가락’ 현재와 같이 정보자원을 표현하고 검색하는 도구의 의미가 부여된 것은 16세기 프랑스에서 'index'라는 용어를 사용하는 색인지가 발행되면서 생긴 일이라고 한다.
45
서지도구(bibliographic tools)는 서지분석, 자료조직, 정보조직을 하는 데에 이용한다. 정보자원의 내용을 분석, 그 내용을 나타낼 수 있는 주요 개념들을 추출하여 원래의 정보자원을 대표(대체표현)할 수 있도록 한 것이다.
46
서지색인: 문헌 자체에 대한 것. 저자 출판일 서지색인은 색인의 가장 대표적인 형태로, 방대한 정보자원들을 대상으로 작성한다. 특정 원칙에 따라 논문, 단행본, 다른 정보자원 등을 리스트하는 주기적인 출판물을 의미한다. 본문색인: 특정한 정보자원의 본문 내용에서 작성하는 것이다.
47
지시기능: 이용자에게 정보가 어디에 있는지 찾을 수 있도록 정보의 위치를 알려주는 기능이다. 이는 위치 정보(접근점)의 색인으로 나타난다. 선별기능: 찾은 정보가 이용자가 원하는 정보인지 선별할 수 있게 하는 기능으로, 선별 정보의 색인으로 나타난다. 이러한 지시기능과 선별기능은 검색 도구(Finding aids)로서 중요한 역할을 한다.
48
🔹 서지요소의 색인 • 정보자원의 대체정보이다. 정보 자원을 대신 설명하는 메타데이터 작성 • 서지적 수준에서의 색인이다. 즉, 서지색인 (대체 정보 제공) • 기사 색인, 인물 색인, 출판물 색인 등이 있다. 🔹 접근점(Access Point) 색인 • 검색자가 정보를 찾기 위한 단서를 제공한다. • 주로 색인어, 위치정보의 형태이다.(주제어/키워드 색인) • 저자 색인, 주제 색인, 표제 색인, 권말 색인 (책 끝 용어 색인), 지명 색인 등이 있다.
49
🔹 본문 색인 (Full-text Index: 원문 검색) • 색인대상의 본문 내용에서 핵심적이고 주요한 용어를 색인한다.(내용색인) • 내용색인을 통해 본문의 내용을 직접 검색 가능하게 한다. • 단행본 권말 색인, 연속간행물별 색인, 웹 문서, 전자책, 보고서 등이 있다. • 내용색인 작업은 수동 색인과 자동 색인에 의해 작성된다. 🔹 메타데이터 색인 (Metadata Index) • 원 문헌에서 작성한 메타데이터의 특정 요소에 대한 색인이다. • 단행본 문헌이 있는 경우, 그것의 서지적 대용물인 메타데이터 항목에서 색인 추출한다.(서명, 저자, 출판사와 같은 구조적 정보) • 위와 같이 구조적인 항목을 대상으로 색인을 추출하면 해당 문헌에 대해 구조적 검색이 가능해진다.
50
🔹 색인 대상에 따라 • 문헌 색인: 검색의 대상인 문헌의 본문 내용 또는 메타데이터에서 색인을 추출한 것을 의미(본문 색인, 메타데이터 색인)라 • 질의 색인: 사용자의 검색어(질의)에서 색인을 추출하여 검색 수행
51
색인작업은 문헌(본문 또는 메타데이터)이나 질의에서 내용을 분석하여, 그 중심적인 속성(주제 또는 비주제 속성)을 가장 잘 나타내는 단어인 색인어를 선정하는 작업이다. 이때 색인어는 용어 (Term), 키워드 (Keyword), 디스크립터 (Descriptor)와 같은 말로 부르기도 한다.
52
1. 색인 결과의 형태에 따라 색인지: 인쇄물 형태의 색인 (예: 목차색인, 권말색인 색인 데이터베이스: 색인을 데이터베이스로 작성한 것. (주로 역파일의 구조로 표현) 2. 내용에 따라: 주제 vs 비주제 색인 주제 색인: 좁은 의미의 색인. 색인의 형식에 따라 분류색인과 용어 색인으로 구분한다. 문헌의 주제를 표현 (가장 일반적인 색인 개념) 비주제 색인 (Non-subject Index): 넓은 의미의 색인이다. 비주제 색인은 형식색인으로 주제색인과 다르게 정보자료의 주제에 초점을 두지 않고, 정보자료의 저자명이나 표제명, 기관명, 형태사항과 같이 주제와 직접적인 관련이 없는 색인요소를 색인어로 채택하는 경우이다.
53
주제 색인: 정보자료를 분석하여 그 정보자료가 나타내는 주제를 이용하여 색인어를 선택하는 것이다 -------------------- 개념을 조합하는 시점에 따라 전조합 색인, 후조합 색인 색인된 용어의 형태에 따라: 통제어 색인, 자연어 색인
54
✓ 정보자료의 주제를 구성하는 각 개념을 색인 작업 시 미리 조합하여 색인으로 작성하는 것. ✓ 이용자들이 정보 요구에 의해 정보 검색을 수행할 때 검색에 이용하는 키워드로써의 색인어가 복합 개념일 경우, 여러 개념을 임의로 조합해서 검색에 이용하는 것이 아니라, 색인 작업 시 미리 조합하여 만든 색인어를 이용하여 정보를 검색하는 것이다. ✓ 색인어가 이미 조합되어 있어서 전조합 색인이라고 부른다. ✓ 주제명 색인, 용어열 색인, 패싯분류 등이 있다.
55
✓ 색인작업 시 정보자료의 주제를 구성하는 개념마다 색인어를 부여하고, 정보요구에 의한 탐색을 수행할 때 개별적인 색인어를 조합하여 정보자료를 검색하는 것이다. ✓ 유니텀 색인, 키워드 색인 등이 있다.
56
통제어 색인: 통제어휘 색인 내에 있는 색인어로 정보자료의 주제를 할당하여 선정하는 것이다. = 할당색인 자연어 색인: 정보자료의 내용에서 주제를 분석하여 추출된 개념들을 색인어로 선정할 때, 정보자료에서 표현된 단어 문구 등 자연어 그대로를 색인어로 발췌해서 채택하는 것이다. = 발췌색인
57
문헌이 많던 과거엔 색인전문가가 했지만, 지금 많은 양의 문헌을 전문가가 모두 분류할 수는 없어서 자동색인의 개념이 출현하였다. 자동색인 작성은 컴퓨터에 입력된 문헌의 텍스트를 컴퓨터가 특수한 분석 기법으로 분석한 후, 문헌의 내용을 나타낼 수 있는 단어를 추출하여 색인을 작성하는 것이다. 과정: 단어 추출 > 색인어 후보 분석 > 가중치 기법을 적용하여 색인어 선정 > 색인DB 작성 원리: 문헌을 구성하는 단어들을 일정한 기준에 의해 주제어와 비주제어로 구분하고, 주제어로 평가된 단어로부터 색인어를 뽑아주는 기술이다.
58
✓ 할당색인: 컴퓨터가 문서의 내용을 분석하고, 추출한 주요 개념을 미리 정해진 단어집(통제 어휘집)을 참고해서 색인어를 선택하고 붙이는 방식이다. 컴퓨터가 자동으로 하기는 어렵다. ✓ 발췌색인: 문서에 사용된 단어를 발췌해서 색인어로 사용하는 방식이다. 대부분 자동 색인은 이 방법을 쓴다.
59
✓ 통계적 기법: 단어가 문서에 얼마나 자주 등장하는지를 계산해서 숫자를 기반으로 중요한 단어를 결정한다. (TF*IDF) ✓ 비통계적 기법: 통계보다는 의미나 규칙을 기반으로 색인어를 선택하는 방식이다.(문법이나 의미 분석 등을 이용함)
60
입력 문헌 > 용어 추출 > 색인어 후보 생성 > 색인어 선정 > 색인어(키워드) 리스트
61
모든 색인어 후보가 색인어로 될 수 있다.
62
✓ 자동색인에서 색인어 선정에 대한 연구는 Luhn의 가설로부터 시작되었다. ✓ Luhn의 가설은 문서에 나타나는 단어의 출현빈도가 문헌 내의 단어 중요성이나 의미를 판단하는 기준이 된다는 가설이다. ✓ 초기의 자동색인은 이와 같은 가설에 비롯하여 단어의 출현빈도를 근거로 하는 색인어를 선정하는 통계적 기법을 사용하였다. **** 최근의 자동색인은 문헌 내에서 문장을 분석하는 비통계적 기법(언어학적 기법)을 많이 사용한다.
63
통계적 기법은 문헌에서 출현하는 단어의 빈도가 해당 자료의 주제를 나타낼 확률이 높다는 것에서 출발한다. ✓ 대표 기법: 단어가중 기법, 단어의 출현확률에 의한 확률색인 기법 등 ✓ 단어 빈도에 따른 색인어 선정이 핵심이며, 작업과정이 간편해서 여러 효율 측면에서 매우 효과적인 방법이다. ✓ 문헌에서 출현하는 단어의 빈도가 해당 자료의 주제를 나타낼 확률이 높다는 것에서 출발한다 ✓ 지프의 법칙(Zipf’s Law)을 Luhn이 색인기법에 적용한 것에서 출발한다. ✓ 고빈도와 저빈도 단어 모두 색인으로 선택될 수 있다.
64
토큰화 (Tokenization): 텍스트를 단어 단위로 나누는 과정 • 문장에서 단어를 정확히 식별하고 분리함 스테밍 (Stemming): 중요하지 않은 차이점을 제거하기 위해 단어 끝의 문자를 잘라냄. • 단어의 어미나 접미사를 잘라내어 기본 형태로 변환 • 예: rivers → river 표제화 (Lemmatization): 어휘, 문맥 등을 고려해 단어의 사전적 형태 표제어(원형)로 변환 • 예: loved, loving → love 품사 태깅 (Part-of-Speech Tagging): 단어의 품사를 식별하고 태그를 붙이는 과정 • 한글의 경우 NNG(일반명사), NNP(고유명사), VV(동사), VA(형용사) 등 태그를 부여함. 형태소 (Morpheme): 의미를 가지는 가장 작은 언어 단위 (더 분석하면 의미를 잃음)
65
단어가중기법(가중치 기법)이 있다. 이는 초기 자동색인의 대표적 방식이다. 문헌 내 특정 단어의 출현빈도에 따라 중요도를 판단한다. 단어빈도의 산출은 단순빈도의 계산과 상대빈도의 계산으로 구분할 수 있다. 1) 단순빈도: 특정 문헌(D)에서 나타난 특정 단어(t)의 발생빈도 = 단어빈도(TF) 단어빈도는 단순히 어느 문헌에 단어가 몇 번 등장했는지를 확인하는 것이다 하지만 분석대상이 되는 문헌이나 단어 출현빈도의 크기를 고려하지 않기 때문에, 상대적인 중요성을 표현하기 위한 상대빈도도 중요하다. 2) 상대빈도: 단어빈도의 상대적 중요도를 반영하기 위한 계산법이다. 상대빈도의 산출은 다음과 같은 방식으로 진행한다. 1) TF/DF 방식 (TF × IDF) • TF (Term Frequency): 특정 문헌 내에서 특정 단어의 출현 빈도 • DF (Document Frequency): (문헌 빈도) 특정 단어가 등장한 문헌의 수 • IDF: 역문헌 빈도 2) WDF 방식 (Within Document Frequency) 한 문헌 내에서 전체 단어 출현 수에 대한 특정 단어의 출현 비율 o 문헌 D에서 총 320번의 단어 출현 o 특정 단어 ti가 6번 등장했다면 o WDF = 6 / 320 = 0.019 3) TF/CF 방식 (Term Frequency / Collection Frequency) • CF (Collection Frequency): 특정 단어가 전체 문헌 집합에서 등장한 총 빈도 o 문헌 5개에서 단어 t1의 출현 수: 0, 3, 3, 0, 2 o CF(t1) = 0 + 3 + 3 + 0 + 2 = 8
66
단어의 구문적인 형태나 문헌의 구조적 특성을 이용하여 색인어를 추출하는 것이다. 통계 계산 없이 문장 구조와 의미 중심으로 추출하기에 언어학적 기법이라고도 한다. 대표적인 비통계적 기법: 단서어 기법 , 문헌 구조적 기법 대표적인 색인어 선정 방식: 구문분석 기법: 단어와 단어구가 문헌의 내용을 나타낼 수 있다는 가정에 기초 의미분석 기법: 문장에 나타난 단어의 의미분석을 통해 대표적인 색인어 선택.
67
✓ 한글문헌은 영어와 다르게 띄어쓰기에 일관성이 없고 복합어를 사용하는 독특한 특성을 지닌다. 따라서 한글 특성을 고려한 자동색인 방법이 적용되어야 한다. ✓ 어절 단위의 선정 방법, 형태소 단위의 선정 방법, N그램 방식의 선정 방법 등이 있다. ✓ 이렇게 선정된 색인어 후보들은 통계적 기법과 비통계적 기법을 적용하여 최종적으로 색인어를 적용하게 된다.
68
웹문헌은 텍스트(단행본, 기사)기반의 색인기법과는 다른 방식을 사용해야 한다. 형태뿐만 아니라 내용이 수시로 변경되고 더 이상 존재하지 않을 수 있기때문이다. 웹문헌의 색인대상: ✓ 표면웹(surface web), 심층웹(deep web)이 색인 대상인데, 딥웹은 어렵다. ✓ 웹로봇이라는 프로그램에 의해 주기적으로 수집된다. ✓ 웹로봇은 색인 대상 웹문헌을 수집하며, 스파이더, 스크롤러, 에이전트 등으로 불린다.
69
<Zipf의 법칙> Zipf는 소설이나 성경에 나타나는 단어의 사용빈도 통계를 제시하면서 1949년 파레토 법칙이 이 사회의 광범위한 영역에서 발생한다고 주장했다. <Luhn의 연구> 단어의 출현빈도는 문헌의 내용을 나타내는 주제어로서 중요성을 측정하는 기준이 된다
70
인용관계를 토대로 만든 색인(학제적인 연관관계의 파악 가능) 색인자의 개입이 불필요, 문헌간의 상호관계를 파악할 수 있는 색인기법
71
멀티미디어 자료: 이미지, 오디오, 텍스트 정보의 혼합체 ▪ 멀티미디어 자료의 색인기법 ✓기술기반 색인과 내용기반 색인으로 나뉨 기술기반 색인: 멀티미디어의 자료의 내용 보다는 기술적인 측면을 색인어로 선정 내용기반 색인: 멀티미디어 자료에 대한 캡션이나 설명 정보에 대한 텍스트 키워드에 기반한 내용을 색인어로 선정 ✓이미지와 오디오 자료로 구분하여 색인기법을 적용하여야 한다.
72
✓ 특정 객체를 사전에 정해진 개념의 범주에 맞추어 분류하는 것을 범주화라고 한다. ✓ 일반적으로 범주화는 특정 객체를 특정 개념에 따라 구분하는 것을 말한다 ✓ 도서관이나 정보검색 영역에서 대표적인 범주화는 분류와 클러스터링이 있다.
73
분류는 도서관에서 오래전부터 사용한 범주화의 형태로 KDC 등의 분류표를 범주로 활용했다. 하지만 자료가 방대해지며 새로운 방법의 분류가 요구되고 있다. ✓ 방대한 인터넷 자료를 자동으로 분류하는 범주화 ✓ 간략한 '택소노미' 라는 분류체계에 따른 인터넷 자료들의 분류 -- 필터링, 패싯분류 ✓ 이용자 스스로 부여한 개념 키워드로 분류하는 폭소노미의 적용 -- 해시태그
74
✓ 유사한 특성을 가지는 자료들을 모으는 것을 말한다. ✓ 자동범주화: 컴퓨터 프로그램을 통해 문헌들을 자동으로 범주화 하는 클러스터링 방법 ✓ 문헌을 대상으로 할 경우 문헌에 나타나는 몇 가지 특성을 비교하여 유사한 특성별로 문헌을 자동 군집화 하게 된다.
75
정보의 관리 및 검색 대상이 되는 문헌자료가 주된 대상이지만, 경우에 따라서는 문헌에 나타나는 키워드나 문헌의 저자를 대상으로 클러스터링 할 수도 있다.
76
범주화는 망라성과 상호배타성의 원칙을 따라야한다.할 망라성: 정보표현을 위해 필요한 모든 범주 카테고리가 범주화 시스템에 포함되어 있어야 함을 의미한다. (망라적이지 못하면 특정 문헌의 분류를 표현하지 못할 수 있다.) 상호배타성: 해당 범주 카테고리는 상호배타적이어야 한다. (상호배타적이지 못하면 하나의 문헌이 복수의 범주 카테고리로 분류될 수 있다.)
77
공통점: 둘 다 비슷한 것끼리 묶는 범주화의 한 방법이다. 범주화가 분류라면, 클러스터링은 더 넓은 의미의 분류. 차이점: 분류는 이미 정해진 그룹에 따라 분류한다.(지도학습) -- "이건 고양이", "이건 강아지"라고 정답을 주고 학습 클러스터링은 비슷한 것끼리 묶어서 그룹을 만든다.(비지도 학습) -- 정답 없이 비슷한 것끼리 묶어냄
78
문헌 분류는 정보와 자료를 체계적으로 정리하는 기법이다. 수동분류(분류표, 택소노미, 폭소노미)와 자동분류(문헌 범주화, 문헌 클러스터링)으로 나뉜다.
79
• ‘택소노미’는 미리 정해진 분류 체계에 따라 정보를 분류하는 방식이다. • 웹자료는 느슨하게 구조화된 범주체계(범주 카테고리)를 이용하여 웹자원을 범주화하고 각 자원을 범주 내에 링크로 연결시키고 있다. (디렉토리 방식의 분류체계)
80
소수의 전문가가 사전에 정해진 카테고리에 정보를 분류하기에 단일방향적 특징을 가지고 있다. 또한, 웹자료가 많아지면서 제한된 인원과 시간으로 분류하는 건 불가능한 일이나 다름 없게 되었다.
81
• 집단지성을 이용한 대중들이 직접 분류하는 사회적 분류법이다. • 분류작업은 소수의 전문가보다 다수의 대중이 분류한게 훨씬 신뢰할 수 있단 믿음이 내재되어 있다. • 보통 이용자가 개별 웹자료에 자유롭게 선택한 키워드 또는 태그를 기반으로 관련된 정보자료를 체계적으로 정리해 놓은 것이다. • 양방향적인 특징을 가져서 참여분류, 대중분류라고 부를 수 있다. • 폭소노미의 태그는 분류 이상의 의미를 지닌다. 태그가 방대한 규모로 모이면 그 자체로 가치 있어지며, 개인이나 집단의 공동 관심사가 무엇인지 파악할 수 있기 때문이다. • 폭소노미는 사람들이 협동하여 생성하며 확장이 가능한 라벨링 시스템이며, 태그를 붙이는 작업을 태깅(Tagging)이라고 한다.
82
1. 택소노미는 상하위 개념이라는 계층적 구조를 가지고, 동위 계열 간 배타적 성격을 나타내고 있다. 반면, 폭소노미는 계층적이지도 배타적이지도 않다. 2. 택소노미는 물리적 개체를 대상으로 고안되어 배타적인 위치를 지정해야한다. 복합적 주제인 문헌도 더 강조되는 측면으로 분류한다. 하지만 폭소노미는 물리적 제약이 없고, 연관 주제는 링크하여 연계시킨다. 3. 택소노미는 최상위 유개념에서 최하위 종개념으로 목적에 맞는 집합을 만드는데, 폭소노미는 개체를 개인이 이해하는 바에 따라 정의한 개념의 집합체이다.
83
문헌범주화란 무엇인가? 미리 정해진 주제의 범주로 문헌을 자동으로 할당하는 것이다. 이를 텍스트 범주화, 문서 범주화라고 이야기하며, 문헌의 자동분류 또는 자동 범주화에 해당된다. 클러스터링과 문헌 범주화의 차이점은? 개별적 문헌을 특정 범주에 배정한다는 측면에서 보면 문헌의 클러스터링 작업과 유사하지만, 차이가 있다. 문헌 범주화는 학습문헌으로 분류의 사전 범주체계를 미리 결정하지만, 문헌 클러스터링은 분류의 범주를 만들어가며 분류를 한다.
84
규칙 기반 범주화: 범주화의 규칙을 지식 DB로 구축하여 분류에 활용하는 방법이다. 기계학습 기반 범주화: 학습집단의 문헌으로부터 미리 범주를 구분하여 문헌의 범주를 귀납적으로 예측하는 것이다. (기계학습은 학습과정과 추론과정으로 구성되어 있음) >>> 초기의 문헌 범주화는 규칙 기반 범주화를 사용했지만, 최근엔 알고리즘을 이용하여 기계학습 기반 범주화 방식을 많이 사용한다. 기계학습으로 수행되기에 작업 비용을 최소화할 수 있고, 통계에 의해 분류해서 객관적임
85
• 문헌집단: 학습, 입력, 검증 문헌 • 분류자질: 문헌의 주요 단어들 • 분류기: 문헌을 분류하는 알고리즘
86
유사한 특성을 가진 데이터를 하나의 그룹(클러스터)으로 묶는 것 구성요소 3가지 분류자질: 비교에 사용되는 단어 등 특징 유사도 계수: 유사성 판단 도구 (0~1 사이 값) 클러스터링 기법: 계층적 / 비계층적
87
이용자-검색인터페이스, 검색인터페이스-검색엔진, 검색엔진-문헌DB 사이에서 성능평가, 인터페이스 평가, 순위 평가 등이 수행된다. 여기서 성능은 검색기능의 성능과, 검색질의에 대한 검색결과를 제공하는 검색처리의 성능으로 구분할 수 있다.
88
검색과정에서 사용하는 개별적인 기능들이 목적하는 바를 제대로 수행하고 있는 지 나타내는 것이다. 간략하게 기능의 수행여부 정도를 판단하는 간략 평가와, 처리속도나 공간 소요와 같은 상세한 평가로 구분이 가능하다. 우리가 관심을 가지는 건, 검색 기능의 성능보다는 검색처리의 성능이다. 검색처리는 이용자와 검색 인터페이스(시스템)과 관련이 있으며, 이용자 관점의 평가로 이어진다.
89
효율성 지표: 최소한의 투자로 최적의 성능을 얻는 것.(검색처리의 신속성) 효과성 지표: 목표를 얻고자 하는 것.(사용자가 원하는 검색 결과가 나왔는가?) 효율성과 효과성은 연관이 있을 수도 없을 수도 있고, 하나가 좋다고 하나가 반드시 좋은 건 아니다. > 정보검색 시스템을 성능으로 평가하는 경우, 검색 기능보다는 검색처리의 측면에서, 효율성보다는 효과성의 지표를 주로 평가한다.
90
2진 구분이 가장 간단하다. 적합과 부적합으로 나누는 것이다. 또 다른 방법은 적합성의 수준 구분이 있다. 적합성을 3가지로 구분한다면 0(부적합), 1(부분 적합), 2(적합)으로 나눌 수 있을 것이다.
91
평가이름: 적합성 평가. 구체적 척도: 재현율과 정확률
92
재현율: 시스템이 소장한 적합 문헌 중 검색된 적합 문헌의 비율 정확률: 검색된 문헌들 가운데 적합 문헌의 비율(얼마나 많은 문헌이 적합한지. ) 재현율 70%, 정확률 40%면, 적합 문헌 중 의 70%가 검색되었음을 의미하고, 정확률 40%란 검색된 문헌 가운데 40%가 적합문헌임을 의미한다. 원하는 문헌은 전부 검색되고, 원하지 않은 문헌은 하나도 검색되지 않는 이상적인 검색시스템은 현실 세계에서 거의 불가능 재현율과 정확률은 반비례하는 경향 → 두 측청치가 모두 높은 탐색 과를 얻는 것을 불가능 두 척도 모두 과정을 평가하지 않고 결과만 평가한다. 정확률은 계산이 용이하지만 재현율은 아니다.
93
> 검색대상 문헌이 방대하면 결과가 수백만 건에 이를 수도 있다. 하지만 어렵다고해서 적합성을 계산하지 않을 수는 없으니, 적합성에 따라 순위화하여 보여주고 사용자가 스스로 적합한 것을 검색할 수 있도록 한다. > 검색질의와 검색된 문헌의 유사도를 계산하여 유사도가 높은 문헌들로부터 우선적으로 배열하고자 하는 목적에서 시도한다. ( 벡터공간 모델, 확장 불리언 모델, 확률 모델 등에서 시도)
94
활용성
95
유용성
96
1. 평가의 준비 과정 2. 평가의 실시 과정 3. 평가결과의 분석 및 적용 과정 • 사용성을 평가하는 방법 1. 이용자에 의한 평가: 질문법 및 검증법, 설문법, 각종 실험실 평가 등 2. 전문가에 의한 평가: 감정법(체크리스트 평가, 검증법의 인지과정 평가)