ヘッダーメニュー

2018/02/13

[手書き] シソーラス、分類、ロボットの作る辞書


こんにちは、酒井です。長野内勤日です。

午前中は検索をして、
午後は銀行手続きに行ってきました。

窓口で待っている間に、検索メモを書きました。
今日のお題は「シソーラスと分類とロボットの作る辞書」

データベース検索に役立つ三者。
考えてみると「それぞれの時代の要請」で出現したのかも・・・? って気がしてきます。

お付き合い頂ける方は、記事の続きにどうぞ。
(折り畳みます)




シソーラス。
「もしかして、若手のみなさんはシソーラスを知らないのでは?」(がーん・・・(≡д≡) )
「いや・・・化学系は使うかな?分野差があるのかな?」
と思ったんだけど、これは単なる想像。
実際はどうなんでしょうね。

シソーラス。語彙集とか単語リスト、と定義されてるみたい。


最近ですと
Weblio はシソーラスと名乗っていますよね。
https://thesaurus.weblio.jp


それでね
どうして「シソーラス」というものが頭に浮かんだか、というと、

「ググる」に代表される自然語検索って、
普通に検索してると、
「知っている単語、概念の少し外側までが検索結果として出てくる」という性質を持っていて


たぶん(ワタシを含めて)人間って、
知識の少し外側の何かを見て
「おおっ!」って思ったり
「かしこくなった気がするー♪」って思ったりする生物、なんじゃないでしょうか。

知っている結果を見ても「ああ、知ってる」と思うし、
全く知らない事は、そもそも検索しないので、触れる機会が少ないですものね。


それで・・・
「検索という仕事」をする時って、
「今まで知らなかった&業務に関連する知見」を知りたくて検索してるはず、なのだけれど

検索する
→知識を仕入れる
→→更に広く検索できる
→→更に知識増える
→→→ ・・・

を繰り返すのは、時間のロスが大きいのと(←もちろん楽しいですが♪)
いわゆる「やめどきがわからなく」なりやすい、という問題点もあって、

そういう時に
シソーラスなり、分類なりを使うと
「自分の知識の少し外」に、アクセスしやすいのだな、と思うのです。


シソーラスは、冒頭でも出てきたように
「用語集」的なもの。

JSTシソーラスだとこんな感じ。
技術用語が上位概念/下位概念 に整理されています。
「人間が用語の定義づけを整理」しているところが、ひとつのポイントかと!




Weblioシソーラスだと、こうなります。
同じ「シソーラス」という名前でも、かなり内容が違うんですよね。



次は「分類」のこと。

先ほど「シソーラスは、人間が用語の定義づけを整理しているところが、ひとつのポイント」と書きましたが、

新語や新概念が次々登場すると、
メンテナンスが追い付かない(=最新情報の検索に使えない)という問題点が出てきます。



その点、分類の方が
「新品種には、とりあえず「じゃがいも」の分類をつけておく」とか
「全く新しい芋が登場したら「芋類」に分類しておく」
という運用がしやすくて、
シソーラスよりは、新しい事柄に対応しやすそうです。


そして最後。
ロボットの作る辞書。Googleに入ってるのはこのタイプ、です。



ロボット(AI)が世界中のWebサイトをクロールし続けて、
単語の紐付けをしている、と言われています。最近は画像データも併用しているとか。

ジャガイモは食べられて、
「芋を洗うような混雑」は食べられません。
同じ混雑でも、大賑わいの「芋煮会」なら、食べ物ありそうですよね。

それから
芋煮会 だったら 里芋 の確率が高くて、
芋掘り遠足 なら サツマイモ が登場しやすいかも?

・・・といった単語の紐付けが、
自動生成されて、内部辞書になっているそう。


この方法だと、
分類付与よりもっと早く、大量のデータに対応できるし、
言葉の変化に自動的に対応するような、可塑性を持たせる事ができます。


私の個人的な感覚、ではあるけれど
「普通にググって、知識のちょっと外側までが検索できる」のって、
この、紐付けられている単語による部分も大きそうだな、って気がします。



それぞれ特徴が違うので、
うまく利用して「いいとこ取り」できるといいですね。

それでは!




自然語/統制語に関連する記事








■ご案内■



0 件のコメント:

コメントを投稿