ようこそ!浜村拓夫の世界へ

    ブログ内検索

    最近の記事

    ブックマーク数の多い記事

    Blog Translation

    Powered By FC2ブログ

    Powered By FC2ブログ
    ブログやるならFC2ブログ


    FC2ブログ LOGIN

    with Ajax Amazon

    スポンサーサイト

    このエントリーを含むはてなブックマーク はてなブックマーク - スポンサーサイト あとで読む
    上記の広告は1ヶ月以上更新のないブログに表示されています。
    新しい記事を書く事で広告が消せます。

    ETLツールでデータクレンジング

    このエントリーを含むはてなブックマーク はてなブックマーク - ETLツールでデータクレンジング あとで読む
    ITシステムを改修すると、リレーショナルデータベースの保守が必要になる場合があります。
    データベースの保守で、「ETL」というツールが役立つ場合があります。

    ETLとは 【 Extract/Transform/Load 】 【 ELT 】 - IT用語辞典

    企業の基幹系システムなどに蓄積されたデータを抽出(extract)し、データウェアハウスなどで利用しやすい形に加工(transform)し、対象となるデータベースに書き出す(load)こと。また、これら一連の処理を支援するソフトウェア。

    データウェアハウスを構築し、分析を行うためには、業務システムで発生したデータをデータベースに収納する必要がある。従来、この作業は専用のプログラムを開発しなければならず、ETL作業が全体の工数の半分以上を占めると言われていた。

    最近では、ETLツールの登場により、短期間に容易にETLシステムを構築できるようになった。ETLツールには、GUIを使ってデータの流れをビジュアルに構築するツールや、データ形式の変換機能、不正なデータを排除したり一定の形式にデータを修正するデータクレンジング機能などが搭載されている。



    データクレンジングとは 〔 データクリーニング 〕 〔 クレンジング 〕 - IT用語辞典

    データベースに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行い、データの品質を高めること。

    具体的な手法はデータの種類により千差万別だが、一般的な例としては、全角文字と半角文字の違いや、空白文字や区切り記号の有無、人名の異体字の誤りや姓名の分割・併合、法人名の表記(株式会社と(株)の違いなど)、住所や電話番号の表記法などが対象となり、それぞれについて表記ルールを決めて修正・削除などを行なっていく。



    National Clinical Database の医療ビッグデータ - 浜村拓夫の世界

    ●プログラマーの貢献
    NCDのデータを基にして、エキスパートシステムを構築すべきでしょう。
    =医師が適切な治療法を採用することを支援するサービス。
    その前段階として、ETLツール等で迅速にデータマイニングできるサービスを作れば良いでしょう。



    ある程度簡単なデータの保守作業であれば、簡易なETLツールを自作して、データの掃除を行えばOK
    商用ETLツールの機能や特徴について、学んでみたいと思います。

    達人に学ぶDB設計 徹底指南書 初級者で終わりたくないあなたへ
    ミック
    翔泳社
    2012-03-16
    ¥ 2,808

    関連記事

    コメント

    コメントの投稿


    管理者にだけ表示を許可する

    トラックバック

    トラックバックURL:
    http://hamamuratakuo.blog61.fc2.com/tb.php/1148-e26d04d7

    FC2Ad

    上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。