ヘッダーメニュー

2017/02/21

[調査のヒント] 特徴キーワード抽出はこう使う



大量の文章(・・・公報とか?)から、含まれる内容の”傾向”を把握したいとき、
どんな方法があるでしょう?


公報類ですと、特許分類などをキーに統計解析、という手順がまず思い浮かびます。

ですが、こんな場面・・・

「カテキン/ポリフェノールなどを含む茶飲料について、多くの会社が研究開発を行なっている。このカテゴリーで会社毎の研究内容の差異を知りたい。」

となると、どうでしょうか。


もしかしたら、
出願人が異なっても、同じような分類(FI記号でも、Fタームでも)が付与されており、分類で統計解析をしても、際立った差が出にくいかもしれません。


そんな時は 「特徴キーワードの抽出」 にトライしてみると、
統計解析とは違ったヒントが得られるかも、です(^^)。


ツールのありかと使い方、は記事の続きから。
(・・・結構有名なツールなんじゃないかしらん?って思うんですけど、
 空気を読まずに書いてみます。^^;)





「特徴キーワードの抽出」
形態素解析、という手法を使ったものが多いようですが
※知識が乏しくて、うまく説明できません。。ごめんなさーい。



これ、Web版で・無料使用できるツールが
いくつかあるのです。

古くからあって、有名なものとしては
東京大学の 言選Web。
http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb.html


また、少し使い勝手の違うツールで
キーフレーズ抽出ツール というのも。
http://so-zou.jp/web-app/text/key-phrase/


他にも「形態素解析 ツール」などと検索したら、
いくつか出てくるかと思います。


使い方は、どれも簡単。

分析したい集合の「日本語テキスト」を用意します。
記事冒頭の例で・・・出願人+要約、のCSVを出力しました。




テキスト(またはCSVファイル)を開いたら、
分析したい「要約」を、複数選んで
ツール側にコピペします。


一度に解析可能な文字数は、ツールによって差がありますが、
10000文字程度、一挙に形態素解析できる、としますと
公報の【要約】は300文字くらいのボリュームなので、
30件分程度が一度に解析できる目安、となります。




解析結果は、
言選Web。ですと、短めのキーワードが出る事が多く。(重要度つき出力をしました)
茶葉 5.4
発酵 5.35
工程 5.33
飲料 4.95
製造 4.8
新鮮 4.62
組成物 4.6
茶材料 4.54
茶抽出液 4.46
提供 4.37
方法 4.17
実質的 4.13
第一 4.07
茶物質 4.05
化合物 3.96
部分的 3.92
本発明 3.86
生茶葉 3.79
開示 3.73



キーフレーズ抽出ツール は、フレーズ+出現位置、が表示されます。


入力する文章や、技術分野
実際に読み取る方の好みなどでも、評価が分かれるかとは思いますが・・・

私、個人的にはキーフレーズ抽出ツールの方が、
特徴がわかりやすいかな・・・? という気がします。


上記の例は「花王」で、
「非重合体カテキン」が重要語としてピックアップされておりました。


他の出願人の【要約】を解析させてみますと

「伊藤園」だと、非重合体カテキン類は共通なんだけど、
シュウ酸、マルトース、テアニンなどが特徴になっていそうですし



「サントリー」では、ホトリエノール、グリセロ糖脂質に注目すると、
効率良く出願の特徴が掴めそう・・・!



定量的な分析はできませんけれど、
短時間で、特徴的なキーワードを見極める目的には、
結構使いやすいのでは・・・? と思います♪




調査のお問合せはこちらからどうぞ


別窓で登録フォームが開きます
連絡板 ■
酒井美里プロフィール
少しずつ増えてます → 検索コラム集目次
代行特許調査のお問い合せはこちらからどうぞ
●  講習テキストの販売を始めました。
採用情報 はこちらから。よろしくお願いいたします。
Facebook、お友達もフィード購読も大歓迎。お気軽にどうぞ。 

特許調査入門―改訂版



Amazon
発明推進協会

0 件のコメント:

コメントを投稿