接着剤の精進日記

競プロでの精進や研究に関係したことを書いていきます。

Python

日本語WordNetで上位語を取得する

はじめに 日本語版WordNetを使って上位語を取得したかったので、やります。 参考記事 以下の記事を参考にしています。 おおよそのプログラムは以下の記事のものを利用させてもらいました。 日本語WordNetを使って、上位語を検索できるツールをpythonで作って…

BERTを使ってみる

はじめに 最近流行りのBERTを使ってサンプルを動かしてみます。 参考ページ techblog.nhn-techorus.com 環境 CentOS7 python3.6 tensorflow1.12 はじめに 最初に作業ディレクトリを作ります mkdir bert_test cd bert_test 公式リポジトリのクローン git clon…

Mac PythonでSeleniumを動かしてみる

はじめに 題名の通りMac上でpythonを使ってSeleniumを動かしてみます 参考ページ qiita.com 環境 MacOS Mojave Python 3.5 必要なもの selenium chrome driver Seleniumのインストール pipでSeleniumのインストールができます. pip install selenium chrome…

Wikipediaのあるカテゴリーに属する記事のタイトルを取得する方法

はじめに Wikipediaのdumpデータを用いて,あるカテゴリに含まれる記事のタイトルを取得します. 環境 CentOS7 Python3.6 事前準備 まず,word2vec-wikification-pyをインストールします.pipでできます. Wikificationをしてみよう ~Wikipediaを利用した情…

Wikipediaコーパスを使った,word2vecのモデル作成

はじめに 今回は,word2vecのモデルをWikipediaの記事本文を使って作成していきます. 以下参考記事です.ほとんど以下の記事に沿って進めました. qiita.com 環境 Linux(CentOS7) Python3.6 今回はLinuxサーバ上で行いましたが,Macなどのターミナルでも同…

Xonshを導入してみた

はじめに なぜ、Xonshを導入しようかと思ったかと言うと TwitterのTLで話題に上がってて気になったので導入してみることに。 何やら日本語の記事が少ないので売名ができるらしい 自分と同じように興味を持った人へのハードルを下げるために導入記事を書いて…

Kaggleのtitanic問題に挑戦

はじめに 機械学習やデータサイエンスの勉強をし始めてなんとなくわかってきたので、 アウトプットとしてKaggle初心者がTitanicチュートリアルに挑戦してみました。 Kaggleとは Kaggleは、世界中のデータサイエンティストに対し、企業からコンペ形式でお題を…

Pythonでニコニコ動画をスクレイピングしてまとめてみた。

はじめに 完全に趣味用だが、ニコニコ動画をスクレイピングしてみた。 内容としては、昨日一日で投稿された動画の一覧を取得し、 タイトル(動画への直リン付き)とサムネイルを表示するというものだ。 以下の画像のようなサイトとなっている。琴葉姉妹動画な…

ゼロからはじめるデータサイエンス 読了

データサイエンスについて学びたかったので ゼロからはじめるデータサイエンスを勉強し、2週間ほどで読了。 ざっくりとした感想と書評を書いていく。 どんな感じの本なのか まず、目次を見ると、 1章 イントロダクション 2章 Python速習コース 3章 データの…

Python リスト内包表記

リスト内包表記について リスト内包表記はPythonらしい書き方である。 言葉で表現すると、 ひとつ以上のイテレータからPythonデータ構造をコンパクトに作れる形式*1である。 内包表記を使えば、ループなどを簡潔に書けるし、この書き方のほうが高速。 詳しく…

Pythonの文字列操作 join

Pythonの文字列操作、joinについて。 勉強中、コードの中に return " ".join(result)というコードを発見。文字列操作はよく忘れるので、何だったかなと調べると 文字列リストを文字列に変換するものらしい。 なるほど、リストのままだと出力が面倒くさいし、…