読者です 読者をやめる 読者になる 読者になる

ニートがプログラミングするブログ(はてな出張所)

ニートがプログラミングするブログです。今は主にコンピュータビジョンに関することをやっています。

Batch Normalizationを使わないDCGAN

自己符号化器を使った事前学習をDCGANに適用したものは、顔のようなバリエーションが比較的少ないものならば機能しました。 しかし背景画像のようなバリエーションが豊富なものにはうまく機能しませんでした。 本来ならDCGANの論文にあるようにBatch Normali…

ディープラーニングを使わない顔認識まとめ

sugyanさんのアイドルデータセットで99.6%程度出たのでまとめておきます。精度としては1200枚中4枚しか間違わないレベルです。ちなみに間違えた4枚は次の通りです。 1.データの水増し基本的にデータ数は多いほうが良いのでちょっとしたテクニックを使って増…

自己符号化器を用いたDCGANの事前学習

注意:まだ研究中なのでこのページの内容は間違っていたりしてると思います。 2016年12月2日追記: やはり背景画像のようなバリエーションが豊富なものに対してはうまくいきませんでした。そこで今は別の方法を検討中です。 2016年12月16日追記:いろいろと…

ディープラーニングを使わない顔認識3 CNN編

「ゼロから作るDeepLearning」を読んで畳み込みニューラルネットワーク(CNN)を実装したので顔認識で試してみました。 この本自体もgithubにあるソースコードも読みやすいのでお勧めの一冊です。 (私は、amazonでは品切れだったので、yodobashi.comで買いま…

ディープラーニングを使わない顔認識2

今回は前に書いた方法を改良したので、その方法を書いておこうと思います。 その前に以前のはてブのコメントで処理負荷を知りたいという意見があったので書いておきます。 使用したデータはsugyanさんのアイドルデータセットです。 (何度も使ってすみません…

トレーニングデータ数と正解率との関係

今回はトレーニングデータ数と正解率との関係を調べました。 使用したデータはsugyanさんのアイドルデータセットです。 このデータセットは40人のアイドルの画像がそれぞれ180枚あります。 ここでは150枚をトレーニングに使う画像、30枚をテスト用の画像とし…

自分の声を初音ミクの声に変換するためのツールを作りました。

ツールの配布は終了しました。 このツールは録音した自分の声とひらがなで書いた台本から、初音ミクv3で読み込み可能なvsqxファイルを作るというものです。 ある意味で、自分の喋らせたいように初音ミクに喋らせることが出来ます。 実際は細かい調整は手作業…

ボイスチェンジャー1

統計的声質変換 (1) ロードマップ を参考にしつつボイスチェンジャーを作っていました。 先に結果を載せておきます。 データはsoftalkの女性01と男性(m4b)を使いました。 トレーニングデータは外郎売でテストデータは平家物語の冒頭です。 ただ音声の分解コ…

ディープラーニングを使わない顔認識

最近は様々なところでディープラーニングが使われています。 ここで書く顔認識の分野でも主流となっています。 しかし、この記事ではあえてそれを使わない方法を説明します。 というか単にディープラーニングがうまく扱えなくて、自己流で顔認識技術を改良し…

はじめまして

はじめまして、suzuichiというものです。ニートです。 今はFC2ブログでブログをやっていますが、ブログやwebサービスへのアクセス数を増やそうと思いはてなブログにもブログを開設しました。 (前にますだで宣伝記事を書いたら少し叩かれたので、普通のブロ…