taka5hi’s blog

統計と機械学習の話題をメインに記事を書いています。

DEEP LEARNING LAB の 2 周年イベント「ディープラーニングの社会実装を阻むものは何か?」に参加しました

昨日 (2019/06/08) に、マイクロソフト様などの企業が主催するコミュニティー DEEP LEARNING LAB の 2 周年イベントに参加してきました。 というのもここ1ヶ月ほど、対応しなければいけないことができてしまい機械学習の勉強にあまり時間を割くことができて…

機械学習アルゴリズム:XGBoost の仕組みとパラメーター

XGBoost は、アンサンブル学習の一種であるブースティングを利用した手法及び実装です。 アンサンブル学習とは、複数のモデル(弱学習器)を組み合わせて、より強力なモデルを作る手法のことです。 XGBoost は、性能的にも優れており、たびたびコンペの上位…

Kaggle Titanic コンペ:分析の枠組み構築

こちらの記事にも書いたとおり、昨年末から Kaggle のコンペに参加し始めました。 しかし、なんとなく EDA (Explanatory Data Analysis: 探索的データ解析) を行うものの次第に発散していってしまうことがよくあります。 そこで、基本的な EDA を行ったうえ…

機械学習アルゴリズム:線形モデル

機械学習の線形モデルについてまとめています。 データ分析などにも広く使われる手法で、アルゴリズムにかなりのバリエーションがありますが、この記事では代表的なものをまとめています。

Ubuntu 18.04 に NVIDIA Docker をインストール

今年の初めに自宅の Deep Learning 用環境を壊してしまいました。 原因は、不用意に Python モジュールのバージョンを変更してしまったことなんですが、なんだかんだで復旧に数時間かかってしまいました。 この経験から、Deep Learning 環境を Docker 化する…

TFRecord、DataSet API を Keras で使う

機械学習では、時にはメモリに収まりきらないほどの大量のデータを扱う必要があります。 データを準備・加工する処理がボトルネックにならないようにするためには、例えば以下のような工夫が必要になります。 複数のデータをまとめて単一のファイルに保存す…

Kaggleへの初参加

2018年も残すところわずかとなりました。 今年やり残したことを一つでも減らそうと、以前より挑戦したかったKaggleに挑戦してみました。 初めてコンペに参加して、結果を提出するところまでをまとめましたので、これからKaggleに挑戦しようと思っている方の…

GLM(一般化線形モデル)で整理する回帰手法

GLM(一般化線形モデル)を使って、よく使われる線形回帰、ポアソン回帰、ロジスティック回帰の各手法をまとめてみました。 GLMを学ぶと、各回帰手法をGLMを使って統一的に説明するということがよく行われます。しかし、各回帰手法が指すものに微妙な揺れが…

積率母関数とは

積率母関数とは、その名の通り積率の母関数です。 もちろん、これでは何の説明にもなっていないので、このページでは積率母関数について整理していきます。

数式なしで読むニューラルネットワークの歴史

現在のAIブームを牽引しているニューラルネットワークですが、ブームになるのは今回が3回目だといわれています。 この記事では、過去のブームをまとめてみました。 何か新しい技術を学ぶ時、その発展の流れを知っていると理解をしやすくなると思っています。…