日記20180503

日記じゃ


今日はずっとcharacter level CNNの実装してた。

完全に論文通りなのになんか上手く学習されないのでどこかバグがあるんだろうか。
tensorboardでsparsityを確認したらいきなりほぼ1になっていたのでなんかおかしい・・・
f:id:tdualdir:20180504023309p:plain


久しぶりにAWSGPUインスタンスを起動した。

Char level CNNの学習を待って居られないので時間をお金で買うことにした。
だが、Amazon reviewのデータセットを送ったらすぐにディスクが一杯になった。
前にSSDの学習のための画像データセットを保存していて、それが圧迫してたので消した。



『前処理大全』の3-3を読んだ。

極値、代表値の算出の話。

平均値

「平均値」の他の代表値とは違う利点として計算計算コストが低いから良いって言うのは、言われてみそうだがあまり意識したことなかった。

SQLの関数

SQLのMEDIAN関数やPERCENTILE_CONT関数を使ったことないな・・・
まあ、SQLでそもそもデータ分析をしたことない。手元に持ってきてPythonでやってる。そこまで巨大なデータを扱わないからか?

python

agg関数はlambdaが使えるのか。
あとは、パーセンタイルの計算としてnumpy.percentileがある。
gist.github.com


バージョン1.15からnumpy.quantileも使える。(今は1.14)
percentileは引数が1~100の整数だが、quantileは0~1の少数で指定できるようだ。
numpy.quantile — NumPy v1.15.dev0 Manual



ChromeのdevToolを開くショートカット

macOSではcommand+option+I


歌詞取得スクリプト

「歌詞タイム」ってサイトで歌詞をちょっとコピーしようとしたら出来なかったので取得スクリプトを作った。
DevToolを開いても取得できたけど
タグなどが挟まっていたので「もうスクリプト作るか・・・」ってなった。
最初、HTML要素を見て歌詞が見当たらなかったので歌詞は別APIで取得してるのかと思ったけどただエンコードしてjavascriptで持ってるだけだった。
なのでHTMLをテキストで取得してデコードした後に正規表現で対象箇所を抽出するだけで歌詞を取得できた。(
HTTP HEADERなどを駆使してもっとマシな作りに出来ないか・・・)
なんかの法律に抵触すると面倒臭いのでスクリプトは公開しないようにします。



コンソールに求人を埋め込むAbemaTV

ワロタwwww

ちなみに要素はアイコンが。