ヘッダーメニュー

2019/11/15

EPOPIC 2019⑩ AI技術は特許調査をHappyにするか


【EPOPIC2019目次】

EPOPIC 2019 ① 開催国ルーマニアの事前情報
EPOPIC 2019 ② ルーマニア に入るルート
EPOPIC 2019 ③ Espacenetのハロウィン検索式
EPOPIC 2019 ④ EPOからも注意されてたのに
EPOPIC 2019 ⑤ Patent Olympiad の前日
EPOPIC 2019 ⑥ 今年も甘味満載のPatent Olympiad
EPOPIC 2019 ⑦ ディスカッションラウンドは本当におすすめ
EPOPIC 2019 ⑧ 異国ではたらく審査官の方々
EPOPIC 2019 ⑨ もっと表現力?が欲しい! の巻
EPOPIC 2019 ⑩ AI技術は特許調査をHappyにするか(この記事)
EPOPIC 2019(終) 端末実習とEPO的検索の世界観



unsplash-logoFranki Chamaki


EPOPIC2019でも、また日本の「特許情報フェア&カンファレンス」でも
人工知能(AI)技術の利用・応用は
色々な場面で話題にのぼっておりました。



この記事では、帰国してから参加した勉強会の内容なども踏まえつつ
現在、AI技術の応用について感じている点を
自分なりに書いてみます。

記事タイトルでもある
「AI技術は特許調査をHappyにするか」
という事なのですが・・・

最近、個人的には
「特に日本だと、ハッピーエンドには辿り着けないかもしれないなぁ。」
って感じるんですよね。
(あくまでも個人的な感覚です。大事な事なので、二度言いました。( ̄∇ ̄))


なお、「特に日本」と限定したのは、
国民性の観点からです。
もっとゆったり?したお国柄だと、
案外AIと相性いいのかも、とも感じています。


少しだけ、技術的な話も出てきますが・・・
難しくはないと思います。
よろしければお付き合いくださいませ。




最近・・・「AIと調査」などのテーマを考えるにあたり、
もう少し基礎がわからないとな、と感じていて、

勉強会に参加させて頂いたり、
ネット上のコースで「基礎の基礎」を自習したりしています。




そのような中、EPOPIC 2019で聴講した
テーマのひとつがこちら。
機械学習を利用したシステムの評価について述べていました。
Gold standard collections for training and evaluating machine-learning systems
Tony Trippe, Patinformatics
Presentation (PDF, 650 KB)


タイトル冒頭の Gold standard collections というのは
医薬品の治験などでも使われる表現で、
至適基準 (gold standard)
新しい検査法を評価するときに、比較の基準になる方法や手段を指す。たとえば検査法の感度を評価するときに、至適基準として、同時に行った別の検査法(たとえば便潜血検査を評価する場合の全大腸内視鏡検査)とする場合や、がん登録で罹患を把握する場合、あるいは生検組織や剖検診断とする場合がある。至適基準自体の正確性が異なるので、単純に感度だけを比較するのではなく、至適基準をどう定義したのかに着目する必要がある。
出所はこちら

EPOPICでの発表では
「機械学習の評価基準」をGold standard collections として、説明しておられました。


上記発表では、
AIツールを開発する際や、
色々なAI検索ツールの性能比較のために、
適切な評価用コレクションを設定しよう、と提案しているのですが、


「概念検索とテストコレクション」という観点そのものは
目新しい物ではなく、日本で2003年に検討された経緯があります。
特許検索システム評価用テストコレクションの作成と評価: (PDFあり)
情報科学技術研究集会予稿集, 2003, if40 巻, 第40回情報科学技術研究集会予稿集, p. A12, 公開日 2003/11/14,


さて。
AIツールとGold standard collections の発表。

評価用コレクションは、
適切なサイズ(≓公報件数)であるべき、とか
適切な技術内容を含むべき、といった提案をしています。


特に印象に残ったのが「適切な技術内容」の項目です。


「適切」とは何か?といいますと・・・




AIツールの開発や適切な性能評価には、
テストコレクションに含まれる内容も重要。と。

なぜならば・・・

「リンゴ」と「宇宙飛行士」を区別するのは容易すぎる。
(どんなAIツールを使っても「すぐれたツールだ」という結果が出てしまう)

「リンゴ」と「魚」でも、簡単すぎると思う。



おそらくは「リンゴ」と「オレンジ」を区別するようなレベルの
テストコレクションが望ましく、

「ふじ」と「レッドデリシャス」は、AIに区別させる事自体が難しい。
評価用コレクションとしては有用と言えないはずだ。

と述べています。


以下は 私の解釈ですが、

AI/機械学習ツールでの「検索」は
「適切な分類ラベルを設定させること」だと考える事ができて、


「ふじ」と「レッドデリシャス」になると、
分類ラベルの設定自体が難しくなるのでしょう。

また
強いて「ふじとレッドデリシャスを区別するような仕組みにしよう」とすると、
過学習の問題が生じやすいのかな、とも思いました。

参考記事
→ AI(機械学習)でよくある問題過学習って?
→ 機械学習の天敵「過学習」とは何か

特許の検索システムで過学習が起こると・・・
たとえば
「指定した検索条件に合致する公報は絶対逃さないけれど、
『ちょっと似ている程度の公報』を捨ててしまう」
といった弊害も起こりそうな気がします。(ここは想像ですけどね)


もしそんな事になってしまうなら、
従来型の概念検索とか、ブーリアン検索の方が
良い結果が得られるかもしれないですよねぇぇ。(苦笑



さて、冒頭に戻ります。

「日本でのAIツール利用、ハッピーエンドは難しいのかも。」
と悲観的な事を書いてしまったのですが、
(個人の感想ですのでー!!!・・・ってもう一回書いておきます。( ̄∇ ̄))


なぜ、そう思ったのか?というと


日本の検索ユーザーって、
それはもう昔から
「注文が細かいっ!」
って、世界的に定評があるではないですか。。


AIツールの得意な事が
「リンゴとミカンを分けるレベル」だとすると

わかっちゃいるけれど、ついつい
「ふじとレッドデリシャスを分けて!」と
無理めのオーダーをするとか

もしくは
「え?ふじとレッドデリシャス、分けられないの?」って
勝手にガッカリするとか、普通にやってしまいそうな気がします。

が、そのオーダーに応えるために
過剰なチューニングを加えると、別の問題が出てきそうです。。


AIを使う”加減”を、上手に見極められたらいいと思うのですが、
やっぱり、日本人は真面目に結果評価する傾向があるでしょうし。
なんだか難しそうだな・・・なんて思いました。

AIツールの進展は、人間には思いつかない示唆を与えてくれる場面もあるだろう、と、期待しているのですけれど。。。

私、考えすぎですかね?根暗かなー?(苦笑)


それでは!


【EPOPIC2019目次】

EPOPIC 2019 ① 開催国ルーマニアの事前情報
EPOPIC 2019 ② ルーマニア に入るルート
EPOPIC 2019 ③ Espacenetのハロウィン検索式
EPOPIC 2019 ④ EPOからも注意されてたのに
EPOPIC 2019 ⑤ Patent Olympiad の前日
EPOPIC 2019 ⑥ 今年も甘味満載のPatent Olympiad
EPOPIC 2019 ⑦ ディスカッションラウンドは本当におすすめ
EPOPIC 2019 ⑧ 異国ではたらく審査官の方々
EPOPIC 2019 ⑨ もっと表現力?が欲しい! の巻
EPOPIC 2019 ⑩ AI技術は特許調査をHappyにするか(この記事)
EPOPIC 2019(終) 端末実習とEPO的検索の世界観





お問合せはこちら


■ご案内■

0 件のコメント:

コメントを投稿