Back

ⓘ データマイニング ..




                                               

データマイニング

データマイニング (英語: Data mining )とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである。 DM と略して呼ばれる事もある。通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(heuristic、発見的)な知識獲得が可能であるという期待を含意していることが多い。とくにテキストを対象とするものをテキストマイニング、そのなかでもウェブページを対象にしたものをウェブマイニングと呼ぶ。英語では"Data mining"の語の直接の起源となった研究分野である knowledge-discovery in databases (データベースからの知識発見)の頭文字をとって KDD ...

                                               

K-means++法

k-means++法 は、非階層型クラスタリング手法の1つで、k-means法の初期値の選択に改良を行なった方法である。 標準的なk-means法が頻繁にクラスタとすべきではないものにもクラスタ割り当てを行ってしまう問題や、 k-means法がNP困難な問題であることを解消するために、2007年にDavid ArthurとSergei Vassilvitskiiによって提案された。 2006年にRafail Ostrovskyらによって提案されたthree seeding methodと似ているが初期シードの分布が異なる。

                                               

KH Coder

KH Coder とは、テキスト型データの計量的な内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェアである。各種の検索を行えるほか、どんな言葉が多く出現していたのかを頻度表から見ることができる。さらに多変量解析によって、一緒に出現することが多い言葉のグループや、同じ言葉を含む文書のグループを見ることで、データ中に含まれるコンセプトを探索できる。また一部の文書群に注目した場合に、その文書群に特に多く出現する言葉をリストアップすることで、その文書群の特徴を探索できる。あるいは分析者が指定した基準によって、文書の分類を自動的に行うこともできる。 多変量解析の具体的な手法として ...

                                               

MLTP: MultiLingual Text Processor

MLTP は、日本語、中国語、韓国語、英語などの平テキスト、自由なタグ付きテキスト、形態素解析結果、構文解析結果における項目のn-gramや共起などの集計を主とするツール。 集計結果は、専用の統計解析やデータマイニングツールによる処理を前提としている。ツールはJava言語により作成しており、jar形式で公開している。

                                               

Webインテリジェンス

Webインテリジェンス (ウェブインテリジェンス)は科学的研究開発の分野であり、ウェブによって強化された新製品、サービス、およびフレームワークに人工知能や情報技術を活用する。 この用語は、2000年にコンピュータソフトウェアとアプリケーションの学会でNing Zhong、Jiming Liu Yao、およびY.Y. Ohsugaが書いた論文で作られた。

                                               

Weka

Weka は、ニュージーランドのワイカト大学で開発した機械学習ソフトウェアで、Javaで書かれている。GNU General Public License でライセンスされているフリーソフトウェアである。

                                               

異常検知

異常検知 (いじょうけんち、英: anomaly detection )や 外れ値検知 (はずれちけんち、英: outlier detection )とは、データマイニングにおいて、期待されるパターンまたはデータセット中の他のアイテムと一致しないアイテムやイベントや観測結果を識別すること。何が異常であるかを定義するのは、タスク次第ではあるものの、Varun Chandolaらは異常というのは通常の動作として明確に定義された概念に準拠しないデータパターンである定義している。各タスクに適用すると通常、異常とはは 銀行詐欺 、クレジットカード不正利用、構造欠陥、医学的な問題、文書中の誤り検出、不審な行動検出、機械の故障検知などの問題に翻訳する。なお、異 ...

                                               

ウェブマイニング

ウェブマイニング (英: web mining )とは、ウェブサイトの構造やウェブ上のデータを利用して行うデータマイニングのことである。ウェブ上にあるデータやコンテンツ、テキスト情報から役立つ情報を抽出する処理のことで、掲示板やブログ、商品レビューの情報から意見・評判を抽出するシステム、SNSサイトやEコマースサイトからの人間や商品の関係性を抽出するシステム等が実用化されている。"Web mining"の語の初出はOren Etzioniにより1996年11月にACMに提出された論文と推測される。

                                               

データ前処理

データ前処理 (データまえしょり)は、データマイニングの過程における重要なステップである。「ガベッジイン、ガベッジアウト」という考えは、データマイニングや機械学習において特に適用可能である。取り扱い範囲外の値や、組み合わせ不可能なデータがあるなどといった結果として、データ収集の方法は大雑把になってしまう場合が多い。そのような問題に対処するために、データ収集の段階で注意深くスクリーニングを行うことは誤解を生まずに済むため有効である。

                                               

データ・クラスタリング

クラスタリング 、 クラスタ解析 (クラスタかいせき)、 クラスター分析 (クラスターぶんせき)は、データ解析手法(特に多変量解析手法)の一種。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法。また、そのアルゴリズム。 さまざまな手法が提案されているが、大きく分けるとデータの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法とがある。それぞれの代表的な手法としてウォード法、K平均法などがある。

                                               

マイニングブラウニー

株式会社マイニングブラウニー (英称: MiningBrownie,Inc. )は、かつて存在した東京都中央区に本社を置いていた企業。独自のマーケティングツールをSaaS形式で提供する提供企業である。