社会人になってから、ずーーーーーーーーっと (←この長さに注目!笑) 検索をしているわけですが、日本語環境で「難しいなぁ」 と思うのは、キーワード検索、とりわけ最近の全文検索です。
私が 「難しいー!」 と感じている原因は、
● ルールのある「分類」は、ルールに基づいて検索できるし、それを教えることができる。
● 自然語からなる「キーワード」は、自分が調査する時も「勘」の領域が大きいし、教えにくい。
ということ。 ( >> 関連記事)
でも、「勘」 と 「理論・ルール」 の境界って、どのあたりにあるんでしょうね・・・?
それを探るために、今回から「キーワード検索の基礎」を眺めてみます。
◆ 2種類の「キーワード」
技術内容からの調査、といえば 「分類」か「キーワード」を使うのが一般的です。
では、キーワードに2種類ある事はご存知ですかー??
↓
↓
↓
答えは・・・ 「自然語(非統制語)」 と 「統制語」です。
「自然語」 というのは、普通に意識せず使っている日本語のこと。
では 「統制語」 とは、どんな 「語」 の事でしょうか?
◆ 「自然語」 と 「統制語」 の違い
統制語、というのは、検索専用に使う単語/キーワードのことです。
用語辞典から、定義を紹介します。
---------------------------------------
統制語彙 controlled vocabulary
---------------------------------------
情報検索において、索引語として利用する語を限定し,その意味範囲や使用方法を規定したもので、統制語ともいう。
ただし、本来、「語彙」は語の集合を指し、「語」は個別の語を指すので、それに応じて使い分けることもある。
統制語制の基本的な目的は、語形や表記の変化、同義語の存在で検索漏れが生じないよう、または同形異義語でノイズが生じないようにすることである。
典型的な統制語彙としては、シソーラスに基づくディスクリプタがある。
また、ディスクリプタが事後結合索引法の統制語彙であるのに対し、件名標目表に基づく件名標目、分類表に基づく分類記号は、事後結合索引法の統制語彙とみなすことができる。このような索引語彙を定めることを統制語制という。
『図書館情報学用語辞典』(ISBN:4621043625)より
---------------------------------------
イメージできました?
なんか、説明自体が難しいですよね(笑)。
今度は具体的な例で、説明します。
突然ですが 「芋」 。 この文字で何をイメージしますか?
photo credit: zackeys via photopin cc
さつまいも?
photo credit: Donnacadh & Lauzy via photopin cc
それとも、じゃがいも?
photo credit: Nemo's great uncle via photopin cc
斜め上の発想、焼き芋屋さん?
ここでは 「じゃがいも」で説明します。
「じゃがいも」って、色々な呼び方がありますよね?
ポテトとか、馬鈴薯とか。
品種もたくさんあります。
男爵とか、メークインとか。最近はインカの目覚め、なんて面白い名前のものも。
さて、
何か料理のレシピで
「ジャガイモ 中3個」 と書いてあっても、
「ばれいしょ 中3個」 や
「メークイン 中3個」 でも、
読者は 「じゃがいも」 を準備するのだな、と認識できますよね。
それぞれの呼び方には、次の図の関係があります。
中でも、赤字の 「ジャガイモ」 が目立っていますが・・・
これが 統制語 というものです。
「じゃがいも」を表現する、色々な呼び方の代表者、リーダーのイメージです。
周りに並んでいる、じゃがいも、馬鈴薯、メークイン・・・などは 自然語 です。
リーダーの下に集められているので、被統制語 ともいいます。
注 : 常にジャガイモが統制語になる、というわけではないですよ~
「この例では、ジャガイモを代表にした」 というだけです。
また、脱線ですが、「芋」 はジャガイモの上位概念、
「芋」の下位概念に、ジャガイモ、サツマイモ、里芋・・・などが存在しています。
「焼き芋屋さん」は、サツマイモの関連語ですね♪
なぜ、統制語という代表を決めるのか?というと・・・
◆ 統制語を使った検索
先ほどの 「統制語の定義」 で、
統制語制の基本的な目的は、語形や表記の変化、同義語の存在で検索漏れが生じないよう、または同形異義語でノイズが生じないようにすることである。
という説明が出てきました。
これって、どういう事かというと・・・?
● 統制語で検索するなら 「ジャガイモ」 の一言で、被統制語が全部カバーできる!
● 自然語/被統制語の検索は、ジャガイモ+じゃがいも+馬鈴薯+・・・・ と、関連語をできるだけ多く列挙しないと、漏れが多くなってしまう。
ということです。
「へぇー、統制語って便利なんだ!」
「関連語をできるだけ列挙、って、結構大変かも・・・」
と思った方も、いらっしゃるかもしれません。
ここで残念なお知らせが。
特許データベースで、統制語が使えるデータベースって皆無に近いのですよ・・・
日本語で、本格的に統制語が使えるのは、実質的にパトリスだけです。
(パトリスのフリーキーワードが、統制語になります。)
「えーーー。な・ん・で、他のデータベースには統制語がないの?」
と思われた方!
ナイスです! あとで、サルミアッキ※あげますね♪ >うそ
統制語って、人が作るものです。
で、
特許情報って、件数が多いですよね?
先端技術が出願されてくる関係で、
新語もどんどん登場してきますよね?
新語に追随しながら、
新規発行公報にも統制語のインデックスをつけて・・・ って、
かなり膨大な作業だと聞きます。
だから、他の特許データベースには、
あまり「統制語」 が存在しないのですね。
※ 論文データベースは、ほとんどが統制語を持っています。
これはまた、別のお話ということで。
・・・・・・・・・・・・・
ええっと、話を引き戻します。
そういうわけで、一般的な特許データベース。
こっちの 「自然語検索」 を駆使せざるを得ません。
これ、結構大変です。(汗)
次回は、キーワードの 「さじ加減」 を説明していきます~
□自然語/統制語に関連する記事□
□キーワード検索シリーズ一覧はこちら□
■ご案内■
2 件のコメント:
自然語検索は勘と経験ですね。勘の悪い人は経験重ねてもダメかも知れませんが。特定の分野であればその分野の公報を沢山読めば勘も養える筈です。特許の検索であれば、自然語が明細書と言う型にはめられて、ある程度統制されているところは有りますね。
本当に!「勘と経験」ですね。
私も"たくさん読んで勘を養う"に同感です。技術の流れなども自然と身に付きますし(^^)
> 特許の検索であれば、自然語が明細書と言う型にはめられて、ある程度統制されているところは有りますね。
なるほど、言われてみれば確かに!
ありがとうございます。
コメントを投稿