接着剤の精進日記

競プロでの精進や研究に関係したことを書いていきます。

CRFsuiteをバイナリディストリビューションを使用してインストールする

はじめに

CRFsuiteをバイナリディストリビューションを使ってインストールします
ソースファイルからバイナリをビルドする方法ではmakeが上手く行かなかったためこちらを試します

環境

Linux(CentOS7)

インストール

Linux用のバイナリディストリビューションをダウンロードして、解凍します

wget https://github.com/downloads/chokkan/crfsuite/crfsuite-0.12-x86_64.tar.gz
tar -zxvf crfsuite-0.12-x86_64.tar.gz

解凍したら、実行ファイルにパスを通します

cd crfsuite-0.12/bin
sudo mv crfsuite /usr/local/bin

これで終わりです
コマンドラインでcrfsuite -hと打ってhelpが出てきたら完了です

論文メモ 「Joint Learning of the Embedding ofWords and Entities for Named Entity Disambiguation」

Joint Learning of the Embedding ofWords and Entities for Named Entity Disambiguation

Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji
The SIGNLL Conference on Computational Natural Language Learning (CoNLL), 2016
https://aclweb.org/anthology/K16-1025

どんなもの?

Named Entity Disambiguation(NED)タスクに対し単語とエンティティを一緒に連続したベクトル空間に埋め込んだもの(embedding)を利用することを提案

先行研究と比べてどこがすごい?

・CoNLLデータセット:93.1%
・TAC2010データセット:85.2%
上記のデータセットにおいて、accuracyでSOTA(当時)

技術や手法のキモはどこ?

Knowledge base(KB)モデルとanchor context modelの2つを使用してskip gramモデルを拡張する

どうやって有効だと検証した?

実験結果によりSOTA達成
f:id:tkm-kyudo:20190531170056p:plain

議論はある?

候補エンティティ生成方法がパフォーマンスに影響することがわかった

システムに特徴量を加えた結果、SOTAに匹敵する結果を得られた
f:id:tkm-kyudo:20190531170240p:plain

次に読むべき論文は?

Johannes Hoffart, Stephan Seufert, Dat Ba Nguyen, Martin Theobald, and Gerhard Weikum. 2012. KORE: Keyphrase Overlap Relat- edness for Entity Disambiguation. In Proceedings ofthe 21st ACMInternational Conference on Infor- mation andKnowledge Management (CIKM), pages 545–554.

論文メモ 「Deep Joint Entity Disambiguation with Local Neural Attention」

Deep Joint Entity Disambiguation with Local Neural Attention

Octavian-Eugen Ganea and Thomas Hofmann
Proceedings ofthe 2017 Conference on Empirical Methods in Natural Language Processing, pages 2619–2629 Copenhagen, Denmark, September 7–11, 2017.
https://www.aclweb.org/anthology/D17-1277

どんなもの?

文書レベルでのエンティティの曖昧性解消(entity disambiguation)のためのDeepLearningモデルを提案

DeepLearningの利点とgraphical models や probabilistic mention-entity mapsなどの伝統的なアプローチを組み合わせたもの

先行研究と比べてどこがすごい?

従来のEntity disambiguation(ED)システムは大部分が手動で設計されたfeaturesを使っている。
それらの基本的なfeaturesをディープラーニングを使うことでゼロから学ぶことで、広範なコーパスに頼る必要がない。
このようなアプローチは当時では初めてのアプローチ
そこそこのコストでSOTA(当時)やそれと同程度のaccuracyを達成

技術や手法のキモはどこ?

entity embedding、contextual attention mechanism、adaptive local score combination、unrolled differentiable message passing for global inferenceを組み合わせたEDのためのDeepLearning Architectureを提案

どうやって有効だと検証した?

f:id:tkm-kyudo:20190528010240p:plainf:id:tkm-kyudo:20190528010245p:plain

議論はある?

f:id:tkm-kyudo:20190528010259p:plain
エラー分析:
(1)アノテーションエラー
(2)候補となるエンティティの集合に現れないgold entity
(3)p(e|m)が非常に低いgold entityで、優先度の高い誤ったエンティティ候補を持つ言及
(3)の例として、「Italian」という言及は国を意味するエンティティではなく、「イタリア代表フットボールチーム」を指す。
文脈情報はこのような間違いを回避するのに十分ではない。

次に読むべき論文は?

Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, and Yoshiyasu Takefuji. 2016. Joint learning of the embedding of words and entities for named entity disambiguation. CoNLL 2016, page 250.