国产精品一久久香蕉产线看-国产精品一区在线播放-国产精品自线在线播放-国产毛片久久国产-一级视频在线-一级视频在线观看免费

數據挖掘讀書筆記

時間:2022-06-27 12:16:37 讀書筆記 我要投稿
  • 相關推薦

數據挖掘讀書筆記

  導語:數據挖掘(Data Mining)是一項較新的數據庫技術,它基于由日常積累的大量數據所構成的數據庫,從中發現潛在的、有價值的信息——稱為知識,用于支持決策。以下小編為大家介紹數據挖掘讀書筆記文章,歡迎大家閱讀參考!

數據挖掘讀書筆記

  1、數據挖掘要解決的問題

  可伸縮(算法在處理各種規模的數據時都有很好的性能。隨著數據的增大,效率不會下降很快。)

  高維性(簡單的說就是多維數據的意思。平時我們經常接觸的是一維數據或者可以寫成表形式的二維數據,高維數據也可以類推,不過維數較高的時候,直觀表示很難。)

  異種數據和復雜數據

  數據的所有權與分布(分布式數據挖掘:應付分布式海量數據的現代方法)

  非傳統的分析(傳統方法:基于一種假設-檢驗模式;數據挖掘分析-時機性樣本,而不是隨機樣本)

  2、數據挖掘任務

  1)預測任務(目標變量/因變量:被預測的屬性;說明變量/自變量:用來做預測的屬性)

  2)描述任務

  A預測建模:分類-預測離散的目標變量和回歸-預測連續的目標變量

  B關聯分析

  C聚類分析

  D異常檢測(識別其特征顯著不同于其他數據的觀測值。這樣的觀測值稱為異常點或離群點)

  3、屬性的四種類型

  1)標稱

  2)序數

  3)區間

  4)比率

  (布爾變量:Boolean Variable (布爾型變量) 是有兩種邏輯狀態的變量,它包含兩個值:真和假。如果在表達式中使用了布爾型變量,那么將根據變量值的真假而賦予整型值1或0。)

  數據挖掘讀書筆記2

  1. 確定業務對象

  清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步.挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的.

  2. 數據準備

  1)數據清理

  消除噪聲或不一致數據。

  2)數據集成

  多種數據源可以組合在一起

  3)數據選擇

  搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據.

  4)數據變換

  將數據轉換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵.

  3. 數據挖掘

  對所得到的經過轉換的數據進行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成.

  4. 結果分析

  解釋并評估結果.其使用的分析方法一般應作數據挖掘操作而定,通常會用到可視化技術.

  5. 知識的同化

  將分析所得到的知識集成到業務信息系統的組織結構中去.

  3、 數據挖掘熱點

  8.1電子商務網站的數據挖掘

  在對網站進行數據挖掘時,所需要的數據主要來自于兩個方面:一方面是客戶的背景信息,此部分信息主要來自于客戶的登記表;而另外一部分數據主要來自瀏覽者的點擊流,此部分數據主要用于考察客戶的行為表現。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數據分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現數據中來推測客戶的背景信息,進而再加以利用。就分析和建立模型的技術和算法而言,網站的數據挖掘和原來的數據挖掘差別并不是特別大,很多方法和分析思想都可以運用。所不同的是網站的數據格式有很大一部分來自于點擊流,和傳統的數據庫格式有區別。因而對電子商務網站進行數據挖掘所做的主要工作是數據準備。

  8.2生物基因的數據挖掘

  生物基因數據挖掘則完全屬于另外一個領域,在商業上很難講有多大的價值,但對于人類卻受益非淺。例如,基因的組合千變萬化,得某種病的'人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數據挖掘技術的支持。對于生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,更需要一些新的和好的算法。現在還遠沒有達到成熟的地步。

  8.3文本的數據挖掘

  在現實世界中,可獲取的大部分信息是存儲在文本數據庫中的,由來自各種數據源的大量文檔組成。由于電子形式的信息量的飛速增長,文本數據庫得到飛速的發展。文檔數據庫中存儲最多的數據是所謂的半結構化數據(semistructure data),它既不是完全無結構的,也不是完全結構化的。在最近數據庫領域研究中已由大量有關半結構化數據的建模和實現方面的研究。而且,信息檢索技術已經被用來處理費結構化文檔。傳統的信息檢索已經不適應日益增長的大量文本數據處理的需要。因此,文檔挖掘就成為數據挖掘中一個日益流行而重要的流行課題。

  8.4Web數據挖掘

  Web上有海量的數據信息,怎樣對這些數據進行復雜的應用成了現今數據庫技術的研究熱點。數據挖掘就是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。充分利用有用的數據,廢棄虛偽無用的數據,是數據挖掘技術的最重要的應用。顯然,面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多。因為它面臨如下諸多挑戰:

  1、 對于有效的數據倉庫和數據挖掘而言,Web的存儲量實在是太龐大了。

  2、 Web頁面的復雜性遠比任何傳統的文本文檔復雜得多。

  3、 Web是一個動態性極強得信息源。

  4、 Web面對的是一個廣泛形形色色的用戶群體。

  5、 Web上的信息只有很小的一部分是相關的或有用的。

  一般的,Web數據挖掘可分為三類:Web內容挖掘(Web content mining),Web結構挖掘(Web structure mining),Web使用紀律挖掘(Web usage mining)。

  面向Web的數據挖掘是一項復雜的技術,由于上述種種挑戰的存在,因而面向Web的數據挖掘成了一個難以解決的問題。而XML的出現為解決Web數據挖掘的難題帶來了機會。由于XML能夠使不同來源的結構化的數據很容易地結合在一起,因而使搜索多樣的不兼容的數據庫能夠成為可能,從而為解決Web數據挖掘難題帶來了希望。XML的擴展性和靈活性允許XML描述不同種類應用軟件中的數據,從而能描述搜集的Web頁中的數據記錄。同時,由于基于XML的數據是自我描述的,數據不需要有內部描述就能被交換和處理。作為表示結構化數據的一個工業標準,XML為組織、軟件開發者、Web站點和終端使用者提供了許多有利條件。相信在以后,隨著XML作為在Web上交換數據的一種標準方式的出現,面向Web的數據挖掘將會變得非常輕松。

  4、 數據挖掘的未來

  當前,DMKD研究方興未艾,其研究與開發的總體水平相當于數據庫技術在70年代所處的地位,迫切需要類似于關系模式、DBMS系統和SQL查詢語言等理論和方法的指導,才能使DMKD的應用得以普遍推廣。DMKD的研究還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:

  發現語言的形式化描述,即研究專門用于知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化。

  尋求數據挖掘過程中的可視化方法,使知識發現的過程能夠被用戶理解,也便于在知識發現的過程中進行人機交互。

  研究在網絡環境下的數據挖掘技術(WebMining),特別是在因特網上建立DMKD服務器,并且與數據庫服務器配合,實現WebMining。

  加強對各種非結構化數據的開采(DataMining for Audio & Video),如對文本數據、圖形數據、視頻圖像數據、聲音數據乃至綜合多媒體數據的開采。

  交互式發現。

  知識的維護更新。

  但是,不管怎樣,需求牽引與市場推動是永恒的,DMKD將首先滿足信息時代用戶的急需,大量的基于DMKD的決策支持軟件產品將會問世。只有從數據中有效地提取信息,從信息中及時地發現知識,才能為人類的思維決策和戰略發展服務。也只有到那時,數據才能夠真正成為與物質、能源相媲美的資源,信息時代才會真正到來。

主站蜘蛛池模板: 黄色小毛片 | 欧美日韩国产在线 | 亚洲天堂首页 | 亚洲成人福利 | 亚洲色图日韩精品 | 欧美人与动欧交视频 | 国产高清美女一级a毛片久久 | 国产精品亚洲一区二区在线观看 | 国产成人一区二区三区在线播放 | 国产一区精品 | 欧美三级成人理伦 | 女人洗澡一级毛片一级毛片 | 精品国产成人在线 | 午夜嘿嘿嘿 | 视色视色 | 高清欧美在线三级视频 | 成人免费视频网站www | 日日噜噜夜夜狠狠久久丁香七 | 主播蜜汁丝袜 精品自拍 | 婷婷综合亚洲 | 欧美三级中文字幕hd | 国产精品成人影院 | 亚洲国产精品一区二区久 | 一级特黄录像免费播放肥 | 中国黄色a | 香蕉1024| 日韩伦理亚洲欧美在线一区 | 国产精品久久久久久久久久一区 | 国产日韩欧美亚洲综合首页 | 欧美黑人巨大xxxx猛交 | 男人的天堂色偷偷之色偷偷 | 中文字幕亚洲精品资源网 | 国产免费啪视频观看网站 | 日韩免费福利视频 | 亚洲色图天堂 | 欧美在线播放成人a | 精品哟哟哟国产在线观看不卡 | 天天射天天干天天舔 | 日韩三 | 翁熄性荡事最新篇王伟忠 | 一级毛片免费完整视频 |