キーワードシリーズ、2回目です。
------------------------------
第1話 キーワード検索・基礎編~「勘」のありか
第2話 キーワード検索・基礎編~「さじ加減」の居所 ← この記事
関連記事 >> キーワード検索のコツと上達法を考え中
関連記事 >> 海外の検索クイズと、キーワード選びの基本
------------------------------
えっと、前回は・・・
って所まで説明しました。
統制語は便利なんだけど、作成に手間暇人件費がかかるのでしたよねー。
一般的な特許データベースは自然語、すなわち 「公報そのままのデータ」 を収録してます。
自然語対象の検索で、漏れを少なくするためには、
どうしても 「たくさんの同義語・類義語・関連語」 を入力する必要があります。
ここから「全文検索ができる、特許データベース」で、という前提で進めますね。
キーワード検索で漏れを少なくする方法は、大まかには2つしかありません。
● ひとつは 「想定される同義語・類義語・異表記を、なるべく多く列挙すること」
● もうひとつは 「検索キーワードの文字列を短くする」 です。
ご想像がつくと思いますが、一方の作戦だけではうまくいかない事が多くて、両者を適当な割合、適当なさじ加減で組み合わせて使います。
それぞれ説明しますと、
◆ 同義語・類義語・異表記
「ジャガイモ+じゃがいも+馬鈴薯+バレイショ・・・」 のように、調査テーマを表現する語を、なるべく多く・網羅的に列挙することで、検索漏れを減らす方法です。
この方法は、やっぱり王道です!
但し、
- 個人の知識量によって、選ぶキーワードが左右される
- 同義語・類義語・関連語・異表記 ・・・を完全に集めるのは困難。(ほぼ不可能)
といった難しさがあります。
◆ 文字列を短くする
たとえば、 「電圧をはかる計測器」 が調査対象だとします。すると、明細書の表現としては、
- 電圧計
- 電圧測定器
- 電圧計測器
- 電圧メーター
というような単語が使われるのではないか?と予想されます。
でも・・・他にもあるかもしれませんよね?
- 電圧モニター
- 電圧監視手段
- 電圧を測定する手段 ・・・ などなど。
このような時、 単に 「電圧」※ と検索すれば、後半部分にどんな語が続いていたとしても、網羅的に検索できますよね!
※ 常時部分一致検索されるDBなら 「電圧」、トランケーションの必要なDBなら「電圧?」 って感じになります。
しかーし!
そうなんです。皆さん、もうお気づきですよね?
「全文=電圧」って検索すると、
平成元年以降で、既に162万件あるんですよ・・・
まぁ、普通はこんな検索はしなくて、何かとAND演算されると思います。
「計」とか「測定器」とか、AND演算したら・・・?
あら~、まだ90万件越えてます。
じゃあ、「電圧計」とか「電圧測定」とか、長めに検索したら?
これだと、一挙に4万件台になります。
でも・・・?
この項目の、最初に戻ってみましょう。
「電圧をはかる計測器」 には、多くの表現がありました。
- 電圧計
- 電圧測定器
- 電圧計測器
- 電圧メーター
- 電圧モニター
- 電圧監視手段
- 電圧を測定する手段
たぶん、他の表現をしている公報もあるのでしょう。
これを共通する文字列「電圧」でまとめると、
表現のバリエーションを気にせず検索できます。
でも、この方法って件数も膨大。ノイズ(不要な公報)も多くなります。
じゃあ、「電圧計」「電圧測定器」 など、長めの単語で検索したら?
こちらは、件数も絞り込めるし、ノイズも減ります。
でも、未知なる表現のバリエーションは探せません。
まさに二律相反!(悶)
キーワード検索のさじ加減って、ひとつはこの付近に存在しています。
- 「電圧」 で検索するのが得策か?
- 「電圧計測」 のレベルで区切るのが最もうまくいくか?
- 「電圧計測器」「電圧計測機」「電圧計測手段」 と列挙するか?
最適解は、検索テーマ、場面で変わります。
「必ずこのレベルで切るのが良い」 という長さなどありません!(きっぱり)
で。
個人的には、
- 分類で、どの程度うまく検索できるか、見極める。
- 見極めた結果で、キーワードのさじ加減を決める。
っていう感じで、決めるケースが多いんですが・・・
※ ここ、すごく長くなるので、5月11日・午前のほうで、例題使って解説予定。
キーワードは 「扱いにくい子」だけど「オールマイティ」でもあるので、
ご機嫌うかがいつつ、うまく働いてもらう って感覚です。
□自然語/統制語に関連する記事□
□キーワード検索シリーズ一覧はこちら□
■ご案内■
0 件のコメント:
コメントを投稿