上流SEが久しぶりに開発してみる日記

マネジメント専任システムエンジニアがなれないプログラミングをしてみる日記です。

python データフレームで重複削除できない

今回も相当苦戦した重複削除問題を共有します。

 

 

■やりたいこと

スクレイピングで、データ取得

②前回保存したGCP上のjsonデータを取得

③①、②をマージして重複削除する

④結果をGCP上へjsonファイルとしてアップロード

 

これで週次ぐらいで情報収集して、データを蓄積することを実現したいです。

 

■起きた問題

以下のコードで重複データが削除できていない。

どうやら2倍ぐらいになっている。

どうみても同じデータに見える

 

gist8d95c0952a98c2c2b8045906f01cd2d0

 

■調査

GCPのCloud Functions上では削除できないが、ローカルのjupyter notebokk環境では重複削除できました。

この時点で何がなんだかですが、保存されるjsonファイルを見てみると

 

"専有面積":42.6 と

"専有面積":"42.6" のレコードがある。

なんか””が付いているってことは片方がstringだな。。

 

どのタイミングでstringになったのか、①と②で状態が違ったってことですね。。。

 

以下の通りソース修正

 

gist40dce67919f39bc8ee1da5182d4b9956

 

問題なく重複排除できました!!!

 

結局は型が違うと重複排除できないってことがわかりました。

というよりも型をちゃんと指定しとけって話ですね。