GCIデータサイエンス講座 Chapter4/5 ノート

Chapter4 ノート Chapter5 ノート

セミナー「ディープラニング活用の理想と現実」を聞いてきた

JDLAのコミュニティー枠で、参加できることになったので話を聞いてきた。概要は「セミナー「ディープラーニング活用の理想と現実」を参照。 ディープラーニング国内35事例を一気に紹介 「ディープラーニング活用の教科書」にまとめられた35事例を動画を交え…

GCIデータサイエンス講座 Chapter3 メモ

統計解析の種類 統計解析とは、データを客観的に分析し、そのデータに含まれる傾向を明らかにすること。大きく分けて記述統計と推論統計別れる 記述統計 集めたデータの特徴を掴んだりわかりやすく分類したり見やすくしたりする方法。 推論統計 集めたデータ…

Specialization Completion Challenge

先日、[Coursera Google CloudのSpecialization](https://www.coursera.org/courses?query=google%20cloud%20platform) の一講座を修了した。その修了証へのリンクを所定のサイトに貼り付けておくとGoogle CloudのTシャツもらえるというキャンペーンをやって…

ニューラルネットワークの特徴表現学習をTensorFlow Playgroundで垣間みる

ニューラルネットワークが特徴を学習する様子が、Machine Learning with TensorFlow on Google Cloud Platform Specializationで紹介されていた。 まずは入力x1, x2を用いて直線で分類する。 円形のデータセットに対して入力x1, x2を用いると直線では分類で…

GCIデータサイエンス講座 Chapter2 メモ

科学計算、データ加工、グラフ描画ライブラリの使い方の基礎 Numpy:基本的な配列処理や数値計算をするライブラリ。高度で複雑な計算ができるほか、Pythonの通常の計算に比べて処理速度が速い。さまざまなところで使われており、データ分析で使うのに基本中…

GCIデータサイエンス講座 Chapter1 メモ

python知っていれば後半はスキップ可な感じ 本書の概要とPythonの基礎 データサイエンティストの仕事を例にとってデータ分析を考える データサイエンティスト ビジネスの課題に対して、統計や機械学習(数学)とプログラミング(IT)スキルを使って、解決する…

Machine Learning with TensorFlow on Google Cloud Platform Specialization 修了

Machine Learning with TensorFlow on Google Cloud Platform Specialization クラウドでの開発の良いところに始まり、実際にGCPを使っての学習、TensorFlow Estimator APIの解説、feature engineering、機械学習を行うにあたり気をつけるところを学べる。 E…

dict内に指定したキーがすべて存在するかチェックする

>>> from functools import reduce >>> c = (1, 2, 3) >>> d = {1: '1', 2: '2', 3: '3'} >>> reduce(lambda a, b: a and b, [k in d for k in c]) # すべて揃っている True >>> d.pop(2) '2' >>> reduce(lambda a, b: a and b, [k in d for k in c]) # 2 が…

await Task.Delay(0) (Task.Delay(0).Wait()) は即戻ってくる

c#

レビュー中のコードに Task.Delay(0).Wait() というコードがあったので書いた本人に話を効いてみたところ、「CPUを使い切るのを防ぐため」とのコメントをもらった。Thread.Sleep(0)をそのような目的で利用してたらしく、そのアナロジーで記述したとのこと。…

tf.estimator.LinearRegressor のデフォルト学習率

と (N:feature数)の小さい方

機械学習バッチサイズは学習速度にも影響を及ぼす

学習率が学習速度に影響するのはどの解説読んでも書いてあると思う。が、バッチサイズが学習速度に影響すると明記されているのは初めて見た。バッチサイズが学習の安定性に影響する (小さすぎるとloss curveが安定しない) ことは経験したことがある。レクチ…

ビッグデータに対する前処理の基盤に Apache Beam

Google cloud 的には汎用的に使えるのはApache Beam。スケールさせるには実行インフラいるけどクラウドで。 https://www.coursera.org/learn/feature-engineering/lecture/WooGA/summary

Categoricalもしくdiscrete feature を feature cross させて新しい特徴量を作る

こうして作った特徴量は線形モデルに非線形性をもたらす。DNNのような複座なモデルを使わなくても、シンプルでデータ量に対し良くスケールし凸最適化に持ち込める線形モデルに良い表現力をもたらす。 Feature Engineering の Feature cross Feature crossし…

MySQLをext4上で使うときはマウントオプションに barrier=0 を付ける

Dockerに載せたMySQLがとても遅かったので色々見て回っていたら、ext4になってデフォルトでしっかりとディスクに書くようになった代わりにパフォーマンスが落ちているらしい。このオプションを付けると書き込みの保証レベルが下がるがUPS付いてれば大丈夫と…

グローバル消費インテリジェンス寄付講座 GCI の受講を内定した

https://gci.t.u-tokyo.ac.jp/dsonline/ オンライン・無料でで体型的にデータ分析手法を学べる講座。11月から2月頭までとちょっと長めだけど週4時間想定なので無理なく進められるかなという感じ。 定員オーバーでpythonの事前テストを受けた。内容はスライス…

Categorical featureを機械学習モデルの入力に使うにはone hotベクトル化する

例えば、従業員IDを入力に使う時、ID246の人が123の人の倍働くみたいな計算はできないわけで、それぞれの従業員を独立して扱うためにはone hotベクトル化する https://www.coursera.org/learn/feature-engineering/lecture/ZHKl0/representing-features

ディープラーニング講座修了式

JDLAのE資格に合格した。で、その前提条件だった認定プログラムの修了式がついさっき合ってピザとお酒を頂いてきた。 講座の修了条件にDLで文字認識するという課題があってその結果優秀だった人が表彰されてたんだけど、そのうちの1人が「全結合のみ、データ…

rabbitmq-java-clientにバク報告した

RabbitMQのJavaクライアントをNIOで使ってる時ネットワーク断後の回復が出来ない不具合を報告。 https://groups.google.com/forum/?nomobile=true#!topic/rabbitmq-users/khvnLE87T5M からの https://github.com/rabbitmq/rabbitmq-java-client/issues/413 …

cordova plugin add を怠ってはいけない

Windows向けCordova pluginにC++で作ったdllを含むものを作成した。このdll内コードを呼び出すところでSystem.AggregationException / System.IO.FileNotFoundExceptionが発生するとの報告を受ける。手元ではエラーが出ない。調査するとエラーが発生するappx…

GNU Screen起動用.bash_profile

PROMPT_COMMAND='echo -ne "\ek$(basename$(pwd))\e\\"' test $SHLVL -eq 1 && screen screenの多重起動を防ぎつつ、カレントディレクトリのbasenameを画面下部に表示。

複数の空行を一つの空行にまとめる

cat a.txt | perl -pe 's/^\n/^V/g' | perl-pe 's/^V+/\n/g' 空行をテキストに現れない適当な値(上記例では垂直タブ)に置き換えて一行に並べ、それを改行一つに置換。

Windows10標準でGuakeもどき

「Windowsキー + 数字キー」でタスクバーの対応位置にあるアプリを起動表示・最小化できる。これをminttyに対して行えばなんちゃってGuakeになる。ただし、仮想デスクトップ(Win+Ctrl+D)切り替えると別exeが開いちゃう。 追記: 設定 → システム → マルチタス…

lubuntu 14.04 には ax88179_178a.ko がデフォルトで存在する

usb 有線LANアダプタ では Amazon.co.jp: Anker Uspeed USB3.0 LANアダプター 10/100/1000BASE-T ギガビットイーサネット対応 USB2.0/1.1にも互換性あり MacBook Air動作確認済 ASIX AX88179チップセット: パソコン・周辺機器 のためにドライバをインストー…

Lubuntu 14.04でインストールしたパッケージ

lxkeymap CapsLockをCtrlに変更. 永続化は.config/autostart xcompmgr XのCompositeを有効化. .confing/autostartで自動起動 ibus-anthy 日本語入力 guake ワークスペースまたぎターミナル vpnc VPNクライアント xtightvncviewer VNCビューア rdesktop Windo…

行内差分をハイライト

git

diff-highlight で公開されている git-contrib の1つ. $ cd ~/bin $ wget https://raw.github.com/git/git/master/contrib/diff-highlight/diff-highlight $ chmod +x diff-highlight $ vi ~/.gitconfig .gitconfigあたりに記述 [pager] log = diff-highligh…

gradle から umlgraph を使う

要は、UMLGraphの doclet を javadoc タスクで指定し、gradle javadocすればいい. UmlGraphが依存しているgraphvizパッケージをインストール $ sudo apt-get install graphviz build.gradle に依存関係追加 configurations { doclet } dependencies { doclet…

アサーション時、 ListのtoString()がObjectのtoString()っぽくなる

Listのアサーションを記述したとき、 java.lang.AssertionError: Expected: is <[1]> but: was <java.util.ArrayList@35ffcd64> の様にObjectのtoString()っぽい表記になることがあった. 原因は toString() 内部で NullPointerException が発生していたこと. この時、org.hamcrest.BaseDisc</java.util.arraylist@35ffcd64>…

Cassandra クライアントサンプル

プロジェクトサイト The Apache Cassandra Project インストール ダウンロードしたアーカイブを展開するだけ $ tar zxvf /tmp/apache-cassandra-2.0.3-bin.tar.gz -C /opt/java $ cd /opt/java $ ln -s apache-cassandra-2.0.3 cassandra 設定変更 設定が示…

Gradle プロジェクト初期化

build.gradleのサンプルや、gradle wrapper, 基本的なディレクトリまで生成してくれる. ihiroky@LZ750HS:~/t$ gradle init --type java-library :wrapper :init BUILD SUCCESSFUL Total time: 4.28 secs ihiroky@LZ750HS:~/t$ ls build.gradle gradle gradle…