python データフレームで重複削除できない
今回も相当苦戦した重複削除問題を共有します。
■やりたいこと
①スクレイピングで、データ取得
③①、②をマージして重複削除する
これで週次ぐらいで情報収集して、データを蓄積することを実現したいです。
■起きた問題
以下のコードで重複データが削除できていない。
どうやら2倍ぐらいになっている。
どうみても同じデータに見える
gist8d95c0952a98c2c2b8045906f01cd2d0
■調査
GCPのCloud Functions上では削除できないが、ローカルのjupyter notebokk環境では重複削除できました。
この時点で何がなんだかですが、保存されるjsonファイルを見てみると
"専有面積":42.6 と
"専有面積":"42.6" のレコードがある。
なんか””が付いているってことは片方がstringだな。。
どのタイミングでstringになったのか、①と②で状態が違ったってことですね。。。
以下の通りソース修正
gist40dce67919f39bc8ee1da5182d4b9956
問題なく重複排除できました!!!
結局は型が違うと重複排除できないってことがわかりました。
というよりも型をちゃんと指定しとけって話ですね。