arxiv.orgの人工知能の論文を分類したい（８）

入門／解説

2018.05.042023.05.16

１．arxiv.orgの人工知能の論文を分類したい（８）まとめ

・arxiv.orgに投稿された論文タイトルに出現する単語をカウントして月別トレンド把握を実現
・同様に論文タイトルにTensorFlowでセマンティッククラスタリングを実行して分類を実現
・セマンティッククラスタリングでもneural等の頻出単語の影響が大きい

２．arxiv.orgの月別傾向の公開

arxiv.orgの論文の分類は様々なクラスタリング手法に挑戦をしてみたが、細分化しすぎてしまいあまり意味がない分類になってしまう。考え方を変えて、まず大まかなトレンドをつかみ、トレンドを細分化していくトップダウンアプローチの方がわかりやすい分類が出来るのではないかと考えた。そのため、論文タイトルに出現する単語を月別に数え、WordCloudで見やすく画像化してみた。ざっと確認する限り、

・convolutionやadversarialなどの手法による分類
・detectionやclassificationなどの機能による分類

が望ましいのかもしれない。上記で何となくキーワードのヒントを得たら、英語論文執筆のためのarXivからの例文検索サービスを作った方がおられるのでそちらを利用させて頂くと関連単語に関して良いアイディアが得られるかもしれません。

また、ちょうど数日前にTensorFlowに実装されたセマンティック分類についての紹介記事があったので、セマンティックを使ったクラスタリングについても挑戦してみた。こちらは頻出単語の影響を大きく受けているので有用な分類をするためにはもう少し工夫する必要がありそう。