論文メモ ACL2019「Boosting Entity Linking Performance by Leveraging Unlabeled Documents」

Boosting Entity Linking Performance by Leveraging Unlabeled Documents

Le, P., and Titov, I. 2019. Boosting Entity Linking Performance by Leveraging Unlabeled Documents. In Proceedings of ACL. Boosting Entity Linking Performance by Leveraging Unlabeled Documents - ACL Anthology

どんなもの？

・アノテーションされていない文書群を活用
・人手でタグ付けされた学習データを使用しない Weakly-supervisedなエンティティリンキング手法の提案
・Wikipedia を用いてUnlabeled Data に自動でタグ付けをした生文を用いて学習を行う手法の提案

先行研究と比べてどこがすごい？

・Unlableded Data を用いない手法（Wikipedia-based）と比較し高精度
・人手でアノテーションしたものを用いるアルゴリズム（Fully-supervised）にタスクによっては上回る精度の達成

技術や手法のキモはどこ？

メンションがWikipedia エンティティ中のアンカーテキストとして出現する共起頻度pwiki(e|m)のスコア上位4件と
メンションとエンティティの embedding の類似度qwiki(e|m, c)のスコア上位3件を候補エンティティとする
WikipediaからLink graphを作成し、候補エンティティのリンク数上位2件を正例，残り5件を負例にし学習させる
スコアや目的関数は以下の通り
f:id:tkm-kyudo:20200120152700p:plain
f:id:tkm-kyudo:20200120152749p:plain

どうやって有効だと検証した？

Wikipedia-based手法と比べるとどのデータセットにおいても最高精度
Fully-supervised手法と比べると，タスクによっては精度の良いものもある
f:id:tkm-kyudo:20200120153027p:plain

議論はある？

Constraint-Driven Learning は有効か
f:id:tkm-kyudo:20200120153238p:plain
local と global を使うのは有効か
f:id:tkm-kyudo:20200120153437p:plain
Unlabeled Data はどれくらい必要か
f:id:tkm-kyudo:20200120153536p:plain
得意/苦手な固有表現の種類は何か
f:id:tkm-kyudo:20200120153632p:plain

次に読むべき論文は？

Nevena Lazic, Amarnag Subramanya, Michael Ringgaard, and Fernando Pereira. 2015. Plato: A selec- tive context model for entity resolution. Transactions of the Association for Computational Linguis- tics, 3:503–515.