労働関係法違反リストをcsvにしてみた。

厚生労働省が公開した「労働基準関係法令違反に係る公表事案」のPDFからテーブルデータを抜き出してcsv化してみましたた。

update: 2017/9/15
170510-01.csv

pdf-table-extractを使ってサクッとできそう! とか思っていたのですが、セル内に改行や全角・半角空白が混じっているとうまくパースできないらしいです。

仕方がないので、一部強引な方法で整形しました。

[追記]
公開されているpdf、ちゃんと毎月更新されているんだけど、ファイル名が170510-01.pdfのまま追記されていく形式なのでわかりずらい。

サンプルコード

実行