(資料圖)
這個更新的手冊提供了理解和開發(fā)線性代數在數據挖掘和機器學習中應用所必需的線性代數背景。這里既介紹了基礎知識,也介紹了高級新主題(譜理論、奇異值、矩陣、張量和多維數組的分解技術),以及線性代數的幾種應用(k-means聚類、雙坐標圖、最小二乘逼近、降維技術、張量和多維數組)。這本有用的參考文獻包括了600多個練習和補充材料,其中許多都有完成的解決方案和MATLAB應用。該書對模式識別/圖像分析、人工智能、機器學習和數據庫領域的專業(yè)人員、學者、研究者和研究生都有益處。
線性代數在數據挖掘和模式識別研究中的作用日益重要,無論是直接應用,還是通過在圖論和優(yōu)化中應用線性代數。基于線性代數的算法既簡潔又快速,它們基于一個包含基本思想和技巧的公共數學原理,并且易于實現;它們特別適合并行和分布式計算來解決如從整個網絡中搜索和提取模式之類的大規(guī)模挑戰(zhàn)性問題。因此,線性代數技術在數據挖掘和機器學習研究中的應用構成了一個日益吸引人的領域。許多線性代數的結果對其在生物學、化學、心理學和社會學中的應用至關重要。
計算機科學家的標準本科教育包括一到兩個學期的線性代數,這對數據挖掘或模式識別的研究者來說是遠遠不夠的。即使是對這些學科的出版物進行隨意的審查,也能令人信服地展示出線性代數、優(yōu)化、概率、函數分析和其他領域的相當復雜的工具的使用。線性代數及其應用領域在不斷發(fā)展,本卷只是對終身學習的一個簡單介紹。數學背景對于理解當前的數據挖掘和模式識別研究以及在這些學科進行研究是至關重要的。因此,這本書的構建旨在提供這種背景,并展示一系列的應用,吸引讀者研究其數學基礎。我們沒有關注算法的數值方面,特別是錯誤敏感性,因為這個非常重要的主題已經在數值分析的大量文獻中得到了處理,而且不特定于數據挖掘應用。我們討論的數據挖掘應用包括k-means算法及其幾種放寬版本、用于數據降維的主成分分析和奇異值分解、雙坐標圖、用于無監(jiān)督和半監(jiān)督學習的非負矩陣分解以及潛在語義索引。為這本書的第二版做準備涉及糾正現有的文本,大量的重寫,并引入新的主要話題:張量、外代數和多維數組。預期的讀者是從事數據挖掘和模式識別工作的研究生和研究者。我努力使這個卷冊盡可能地自足。對應用感興趣的讀者將在本卷中找到目前所需的大部分數學背景。每一章的主要部分都支持很少的例行練習,而且還有600多個練習和補充材料。