問題一覧
1
コンピュータを用いて自然言語を処理し,役に立つ(工学的に有用である)ことを実現するための技術
自然言語処理
2
人間が言語を理解し,使用する仕組みをアルゴリズムやデータ構造という情報科学の道具立てでモデル化しようという科学的取り組み
計算言語学
3
文字コードの基本はアメリカで使われる文字を中心として1963年に制定された
ASCII
4
日本語で普通に用いられる文字は、ひらがな、カタカナ、漢字など合わせて数千以上ある
JIS漢字
5
全世界で使われる文字の統一的な文字コードとして作られた
Unicode
6
可変長の文字コード
UTF-8
7
言語的知識、意味的知識、世界知識を体系的に整理して収録したもの
辞書
8
言語規範に関する知識 文法的約束、意味的約束
言語知識
9
言語表現が使われた場に関する知識 文脈情報、状況に関する知識
場の知識
10
対象、事実、法則に関する知識、常識的知識
世界知識
11
専門分野に関する知識
専門知識
12
自然言語処理システムとしてあらかじめ提供される辞書 システム開発者が準備
システム辞書
13
専門分野ごとに必要な情報は、それぞれの専門分野において固有のため必要なもののみを用いる 専門家によって作成
専門辞書
14
利用者が独自に使用する言葉や表現を登録 利用者によって作成
利用者辞書
15
辞書利用の順序
利用者辞書, 専門辞書, システム辞書
16
国語辞典に収録されているような語(普通名詞、代名詞、形式名詞、動詞、形容詞、助詞、助動詞、副詞、接続詞など)
一般語
17
人名(姓、名、有名人名、愛称名など)、地名(地域名、自然名、施設名など)、組織名(会社名、機関名、団体名、学校名など)、その他(歴史名、民族名など)
固有名詞
18
数学、化学、生物、地質、天文、情報処理、など
専門用語
19
単語や概念を木構造の階層に体系的に分類した辞書
シソーラス
20
書かれた言葉や話された言葉を電子的に大量に蓄積したもの
コーパス
21
収集したままの状態で何も情報を付与していないコーパス
生コーパス
22
何らかの情報を付与したコーパス 品詞、構文情報、語義、テキスト構造などを付与
タグ付きコーパス
23
複数の言語の間の対訳データを収集 機械翻訳システムの開発に利用される
パラレルコーパス
24
対象言語をいかによく捉えた言語データになっているか
代表性
25
生コーパスから抽出できる知識として最も基本的で重要なもの
言語モデル
26
簡単な例として、天気を予測する問題
マルコフモデル
27
マルコフモデルの考え方を言語の並びに対して適用したもの
n-gram言語モデル
28
bigram言語モデル P(練習|の) 1. 昨日テニスの練習をしました. 2. テニスの練習は大変ですか? 3. 思ったよりも大変でした. 4. 練習のときはコーチはいるんですか? 5. テニスの球出しは先輩がしてくれます
2/4
29
n-gramを用いた文の出現確率 P(私は本を買った)=(????)P(は|私)P(本|は)P(を|本)P(買った|を)
P(私|文頭)
30
n-gram言語モデルにおいてnの値の設定 長い履歴を見るほうが言語モデルの値はより正確になる nの値を大きくしすぎるとコーパスにおいてデータが存在しなくなり確率を計算できなくなるといった問題がある
データスパースネスの問題
31
統計的言語モデルによる英語品詞推定 φNV()()N
P, Det
32
コーパス中で数単語程度の近さで共起する2つの単語x, yの間の相互情報量I(x, y)から、2単語の組の類似性を計算 xとyが強く共起し、正の相関関係を示す場合
I(x, y)≫0
33
単語間の類似度の測定
コーパスから主語/動詞/目的語の3項組を抽出, 主語の名詞と動詞の相互情報量を計算, 目的語の名詞と動詞の相互情報量を計算, 同じ動詞の主語/目的語の位置にある名詞同士は類似性が高い, すべての動詞について類似度を合計
34
単語の候補を列挙したグラフ構造
ラティス
35
文字の並び(である文)を形態素あるいは語に分割する
形態素解析処理
36
入力文字列の語の並びへの分割とそれらの語への品詞の割り当てをラティスと呼ばれる構造によって表現する
制約適用
37
ラティスからもっともらしいパスを得る
選好適用
38
ヴィタビ・アルゴリズム ()した計算をしていない 累積最小コストの計算は制約処理と()に行う パスを得る処理は()的
重複 同時 決定論
39
形態素を構成素とする語構造
語
40
↓
制約処理 選好処理
41
制約処理の流れ
処理する入力文字列の先頭を注目点とする, 単語辞書を引き、入力文字列の注目点から始まる可能な単語をすべて取り出し、ラティスに加える, ラティス中のそこを終点とする単語と連接するかを連接可否表を引いて確認し、連接可能な語の間にリンクを張る。どの語ともリンクが張られなかった語はラティスから取り除く, 注目点が入力文字列の末尾であれば、終了、そうでなければ、ラティス に含まれる単語の終点のうち、現在の注目点より右側で最も近い点を 新しい注目点とする
42
代名詞等,文内ではその意味が明らかでないものを それがおかれたテキストに照らして明らかにする
照応解決
43
テキスト中で繰り返し言及されている事物の同一性 を判定する
共参照解決
44
文間の修辞関係を通じてテキストの構造を明らかに し、テキストの目的とそれへの各文の関係を理解す る
修辞構造解析
45
事物を指し示すための表現
参照表現
46
参照表現によって指し示される事物
参照物
47
ふたつの参照表現が同じ参照物を指し示しているという関係
共参照
48
テキスト中の参照表現の参照物を明らかにし,そ れを通じて,共参照の関係にある参照表現の集 まりを明らかにする – テキスト中で参照されている参照物を明らかにし, それがどこで参照されているかを追いかける
参照解決
49
参照解決の一種 – 照応表現の先行詞や参照物を明らかにする
照応解決
50
清水市の 「ワイ・アンド・ティー」 社長 、 山田太郎さん (38)はこのほど、新薬開発時のデータ処理を簡素化 する コンピュータソフト を開発した。高校時代から独立 を目指していた 山田さん は昨年、 同社 を設立。20年 来の 自分 の夢をかなえた。 会社 は従業員7人と小さ いが、 新ソフト を携えて、医療業界で飛躍を目指す
「ワイ・アンド・ティー」社長, 山田太郎さん, 山田さん, 自分
51
照応の制約
数や性等の一致の制約, 統語的な制約, 意味的な制約(選択制約)
52
照応の選好
近接性への選好, 統語役割に関する選好, 反復性への選好, 並行性への選好
53
照応解決の基本的な流れ
照応解決の選好を反映して、先行詞の候補となる参照表現(や参照物)を順序づける。, 候補となる参照表現(や参照物)について、 その順序に従って制約を満たすかチェックし ていき、最初に制約を満たすものをその照 応表現の先行詞あるいは参照物とする。
54
参照表現全般について、照応表現だけでなく、共参照関 係にあるかの判定する
参照解決
55
比較的狭い範囲 での(局所的な)テキストの一貫性に関する理論。テキストのそれぞれの位置で中心となるものがただひ とつ存在し、その移り変わりのパターンがテキストの 一貫性や照応表現の利用に影響する。
中心化理論
56
述べられている内容の間の修辞関係に着目し、文の 内容の間の関係、テキスト全体の主張や目的への寄 与を明らかにする。
修辞構造理論
57
tf*idf値の計算 「ワクチントーク日本」(花輪和彦代表)など三つの 市民団体は26日、「インフルエンザの予防接種の効 果には疑問がある」として、子供への予防接種をやめ、 老人への接種も推奨しないように厚生省に要望した. 子供への接種はインフルエンザの発病を阻止する効果 がないことはすでに明らかで、老人への接種も効果が あるとする研究がほとんどないと指摘. 接種 3 226 12.81 予防接種 2 165 8.81
58
一般的なWeb検索手法
ブール法+tf*idf, 全文検索, フレーズ検索
59
ベクトル空間モデル
60
文書1 = 〈2.0, 1.0, 3.0, 0.0〉 – 文書2 = 〈0.0, 3.0, 1.0, 2.0〉 – 文書3 = 〈2.0, 0.0, 1.0, 3.0〉 – 文書4 = 〈0.0, 0.0, 3.0, 3.0〉 – 質問 = 〈4.0, 3.0, 0.0, 5.0〉
– Sim(質問,文書1) = 11.0/( × ) = 0.416 – Sim(質問,文書2) = 19.0/( × ) = 0.718 – Sim(質問,文書3) = 23.0/( × ) = 0.869 – Sim(質問,文書4) = 15.0/( × ) = 0.500
61
精度(適合率,precision) 再現率(recall) F値
検索された文書中の適合文書の数/検索された文書の数, 検索された文書中の適合文書の数/すべての適合文書の数, 2 P R / ( P + R )
62
学術論文13,000件からなる文書集合からB型インフルエンザ に関する文献を検索したところ、70件の文書が得られた.そ れらを読んでみると56件が確かにB型インフルエンザに関す るものであった.その後、人手で13,000件すべてを確認した ところ、B型インフルエンザに関する論文は80件含まれてい た.
63
直接翻訳方式(direct translation) トランスファ方式(transfer approach) 中間言語方式(pivot translation)
文を単語並びと捉え、それぞれの単語を対応する目的言語の単語に置き換え、局所的にそれらを並び替えたのち、形態素レベルの調整をして翻訳結果とする , 原言語の文に構文解析、意味解析を行い、得られた構文構造、意味構造を目的言語の対応する構造に変換し、その構造に基づいて目的言語の文を生成する。構文レベルの変換を構文ト ランスファ、意味レベルの変換を意味トランスファと呼ぶ。 , 言語によらない意味の表現が可能であり、このような意味の表現の枠組みを中間言語(interlingua)と呼び、それを介した翻訳を行い方式。多言語の翻訳に有利であるが、実際にはこのような言語の設計は困難である。
64
指示的(Indicative)な要約 報知的(Informative)な要約
原文の適切性を判断するなど、原文を参照する前の段階で用いるものであり、どのような視点で書かれた文書であるかを判断するための要約, 原文の代わりに要約文を用いることができるものであり、原文の情報のある程度のものが含まれている要約
65
テキスト自動要約の手順
要約文書を構成する候補の選択として、各文に与えられた重要度を元に重要文を抽出する, 選択された重要文の候補から冗長なものとして類似する表現や文を削除する, 抽出元テキスト中での出現位置、含まれる単語の共通性等テキストの結束性を考慮した順序付けを行う, 不適切な代名詞や接続詞についての処理やより簡潔な表現への言いかえ等
66
自然言語で記述さ れた任意の質問に対して大量の組織化されていない 情報から答えを得る技術
質問応答
67
質問応答の処理手順
質問文解析 – ユーザが入力した質問を解析し、テキスト検索のためのキーワード集合を抽出 – ユーザが入力した質問から回答としてどのようなものを期待し ているかを解析(質問タイプの決定), テキスト検索 – 解析されたキーワード集合を用いて、回答を含んでいると思われるテキストを検索, 回答候補抽出 – 検索されたテキストに対し、固有表現抽出技術を利用し、質問タイプに適合する回答候補を抽出, 回答選択 – 抽出された回答候補からより適切な回答を絞り込み、必要に 応じて優先順位順に並べ替えながら回答を選択する
68
構文構造の一つの表現である依存構造を得る ための解析
依存構造解析
69
依存関係が存在する確率
70
語(自立語)等の意味
節点
71
意味の表現 意味関係
弧
72
意味処理
文の構成要素である語の意味を明らかにする – 文中の各単語がどの意味で用いられているのかを 明らかにする, それらを、構文構造を参照することで構造化し ていく – 構文構造中の構文関係を参考にし、意味構造を決 定していく(直接意味構造を決めていく場合もある), 構造化の際に、それらの間の意味関係を明ら かにする(構文関係から意味関係へ) – 構文関係と単語の持っている意味関係を元に意味 関係を決定する
73
出来事に何(誰)がどのような役割(立場)で関与して いるか。この意味的な関係
意味役割
74
文の構成要素のこのような意味役割を明らかにして いくのが意味処理の仕事であり、これを
意味役割付与
75
それぞれの動詞が、表層格(格要素)に 対してどのような種類の種類の要素を取ることができ るかが決まっている意味的な制約
選択制限
76
必須格(取らなければならない格)と任意格(とることができ る格)が存在 階層的シソーラス(語彙的オントロジ)とあわせて利用
格フレーム
77
W1 = [2,3,1], W2 = [1,4,2], W3 = [2,1,4] Cosine尺度 Jaccard尺度 Dice尺度
Cosine(W1, W2) = (2*1+3*4+1*2) / (√14 * √21) = 16 / (3.75 * 4.58) = 0.932 Jaccard(W1, W2) = (1+3+1) / (2+4+2) = 0.625 Dice(W1, W2) = 2*(1+3+1) / (3+7+3) = 0.769
78
語義の間の関係
類義 対義 包摂 部分全体
79
語彙的オントロジーの代表例
WordNet
80
適合性フィードバック Qi+1 = Qi + αΣDj – βΣDj j ∈ R j ∈ N R N Q D
適合文書集合, 不適合文書集合, 質問(のベクトル), 文書(のベクトル)
81
変換元の言語 変 換先の言語
原言語 目的言語