![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEj0vHq_A_yuKj9jceaCF4YjaSlIHxBol2OvwXDxAue4KefM-teCYvu43oue67ksiYfg_uOFo0Kui0urwSBitoOozVSraQNUoA6pftYtkcBWPF6wr1ScmE0RBiwVfk0UbDGfEToqJIlyRsS0/s1600/tsaiga-26406.jpg)
大量の文章(・・・公報とか?)から、含まれる内容の”傾向”を把握したいとき、
どんな方法があるでしょう?
公報類ですと、特許分類などをキーに統計解析、という手順がまず思い浮かびます。
ですが、こんな場面・・・
「カテキン/ポリフェノールなどを含む茶飲料について、多くの会社が研究開発を行なっている。このカテゴリーで会社毎の研究内容の差異を知りたい。」
となると、どうでしょうか。
もしかしたら、
出願人が異なっても、同じような分類(FI記号でも、Fタームでも)が付与されており、分類で統計解析をしても、際立った差が出にくいかもしれません。
そんな時は 「特徴キーワードの抽出」 にトライしてみると、
統計解析とは違ったヒントが得られるかも、です(^^)。
ツールのありかと使い方、は記事の続きから。
(・・・結構有名なツールなんじゃないかしらん?って思うんですけど、
空気を読まずに書いてみます。^^;)
「特徴キーワードの抽出」
形態素解析、という手法を使ったものが多いようですが
※知識が乏しくて、うまく説明できません。。ごめんなさーい。
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEilErpxHvPZ1fZyfVU2-XqShRU9KxPLntvktit6bCb-j_W8BzyDu-akTx3TQ9vUP1mt1j4dOX96SnMtp-l5vvSBRBPedT2YOBh7JLmt2dj1WTtk_D19WcLig9fKX5juTQlU_H2gFq54_ywt/s1600/ScreenClip+%255B1%255D.png)
これ、Web版で・無料使用できるツールが
いくつかあるのです。
古くからあって、有名なものとしては
東京大学の 言選Web。
http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb.html
また、少し使い勝手の違うツールで
キーフレーズ抽出ツール というのも。
http://so-zou.jp/web-app/text/key-phrase/
他にも「形態素解析 ツール」などと検索したら、
いくつか出てくるかと思います。
使い方は、どれも簡単。
分析したい集合の「日本語テキスト」を用意します。
記事冒頭の例で・・・出願人+要約、のCSVを出力しました。
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgHTyoAwq0Cb5VGiAsAy6gcX4i-Bt2vVyrQlOLo-ud4rz911He9cLffdqrloOUBNUdUFOqS7FrVNBd4t37HKVhgS-hAv_7z6UalQbglaIGCJjhxjn489VxqdRoCH2wqC6uWgeKg_Rnvq-9Y/s1600/ScreenClip+%255B2%255D.png)
テキスト(またはCSVファイル)を開いたら、
分析したい「要約」を、複数選んで
ツール側にコピペします。
一度に解析可能な文字数は、ツールによって差がありますが、
10000文字程度、一挙に形態素解析できる、としますと
公報の【要約】は300文字くらいのボリュームなので、
30件分程度が一度に解析できる目安、となります。
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEh7xhf6TNoGXDW4S0QhyGGiRT-kw-hcvC-Ppey1WszDjRVa4pK_zjzGRXY3E17WzuyjFkvBe6qgE4M2nTvUVqJQXg5_9w-uRdZKiRcfGegqOn0opfGtBzo1_wP56Bi_EtGEMpVfrNCEzs7Z/s1600/ScreenClip+%255B3%255D.png)
解析結果は、
言選Web。ですと、短めのキーワードが出る事が多く。(重要度つき出力をしました)
キーフレーズ抽出ツール は、フレーズ+出現位置、が表示されます。
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiS4WCb1nenwpkVeaB71i152CEFPMYfnj1zSh7pY0u0nxRL3fxLe6L663-4BGuT671NvealIBt7VXwEKQ73-i3SwijUaK6dU3dmfsU0ECfauBv4gRIZByDGLg3FOCEz4p5T5GWCyG39fZaS/s1600/ScreenClip+%255B4%255D.png)
入力する文章や、技術分野
実際に読み取る方の好みなどでも、評価が分かれるかとは思いますが・・・
私、個人的にはキーフレーズ抽出ツールの方が、
特徴がわかりやすいかな・・・? という気がします。
上記の例は「花王」で、
「非重合体カテキン」が重要語としてピックアップされておりました。
他の出願人の【要約】を解析させてみますと
「伊藤園」だと、非重合体カテキン類は共通なんだけど、
シュウ酸、マルトース、テアニンなどが特徴になっていそうですし
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgGUkZndE9W-G8iKvlhbu8idr-OTH9rm5Qm0rz7kFMjQRCgpue0TJe9dijdTbgXrYCxMdKRddzTzNvb8NTh98-72nFAu2iMaBB1Y4alhCZJ_WRA2UPa8zlkcLuops88iJ3cdYhleLzrPX17/s1600/ScreenClip+%255B5%255D.png)
「サントリー」では、ホトリエノール、グリセロ糖脂質に注目すると、
効率良く出願の特徴が掴めそう・・・!
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhgZK8SUWLa2dALywNP8WMaytZoiPOBTI7Ug6tE_uOX_x7HPNC0G3AITLWcUhl_tDvIPZeT-1c_xTvbZ7EKMV_U45q6zwShUKlZnzMfhRXEYdX80Xk5Nx7a60d5OxDQe5O8CkM_tO24gTHq/s1600/ScreenClip+%255B6%255D.png)
定量的な分析はできませんけれど、
短時間で、特徴的なキーワードを見極める目的には、
結構使いやすいのでは・・・? と思います♪
調査のお問合せはこちらからどうぞ
![](https://1.bp.blogspot.com/-ckh3b_0AE_o/T3U7jKuf6EI/AAAAAAAAVk4/eG9ZOOz23n4/s1600/ScreenClip.png)
Facebook、お友達もフィード購読も大歓迎。お気軽にどうぞ。
特許調査入門―改訂版
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgR3IQF-JnJ_GDf6hRlfkfu23gdDmp6JO1BUrOvdSBwW_P3TbRjEA_KxSvbmT4tYDJYXAFVZtZHpmnwt4CA1iqBVJ3jUJtU5EuWdmvJ4zmlj1zS1DL9ayHvRu9cxWng3aeYytUz5pO_7B0/s320/Guide_JPP.jpg)
Amazon
発明推進協会
0 件のコメント:
コメントを投稿