問題一覧
1
1.商管人最需要培養的資料探勘技能是
理解商業上的管理意涵
2
2.商管人應該要至少能以下列角度去看資料探勘,那就是從資料輸入、資料分析與資訊輸出等三個單純的動作去展開,資料輸入不包含哪個程序
操作軟體工具
3
3.資料探勘的資料輸入過程中依照需要轉換資料格式有幾種做法,在前置作業完成後要做資料簡化與轉換工作。因為資料量過大且有很多用不到的資料,將不必要的欄位刪除或不納入分析,這是程序上哪一個環節
精簡維度
4
4.資料探勘的資料輸入過程中依照需要轉換資料格式有幾種做法,在前置作業完成後要做資料簡化與轉換工作。因為資料量過大且有很多用不到的資料,將原始資料改變為較能理解的格式,這是程序上哪一個環節
調整編碼方式
5
5.資料探勘的資料輸入過程中依照需要轉換資料格式有幾種做法,在前置作業完成後要做資料簡化與轉換工作。因為資料量過大且有很多用不到的資料,「決定資料是要分析到每日還是每月?」,這是程序上哪一個環節
調整顆粒度
6
6.資料探勘的資料輸入過程中依照需要轉換資料格式有幾種做法,在前置作業完成後要做資料簡化與轉換工作。因為資料量過大且有很多用不到的資料,連續值與離散值轉換,這是程序上哪一個環節
資料型態轉換
7
7.資料探勘的資訊輸出過程中,解釋探勘後的資訊成為知識無法透過下列哪一種方式完成
解釋程式碼
8
8.關於資料勘探描述,以下何者為非
挖掘出奇點
9
9.資料探勘上,所謂的「挖哪邊」的概念,以下何者為非
痛點可以視為替代品
10
10.進行資料探勘的起手式描述中,所謂可能有商機的痛點是指
面對可能有商機之處應該要繼續透過質化與量化的手法繼續深入了解內在意義
11
11.在資料探勘的過程中,如果遇到資料找到不多,通常可以從下列哪一點去著手改進
我們資料找的還不夠仔細,我們去找找是否可以找到顆粒度較細的資料
12
12.關於資料探勘的描述何者正確
是一種事後分析,需要有資料才能進行
13
13.「如何確認資料可用」的描述中,包含了下列哪一個選項
確認是使用什麼演算法
14
14.何謂有品質的資料,下列敘述何者正確
可用
15
15.在資料完整的觀念中,資料有效性是指
沒有缺漏或空值
16
16.關於探勘可用的資料表的觀念,下列何者正確
多以二維表示
17
17.所謂的集群就是要從過往的資料中
取共通性來整合
18
18.關於集群的做法的敘述不包含
喜不喜歡這個物件
19
19.電腦要判別人長相是否接近不會透過下列哪一個選項
聲音的資料庫
20
20.關於歐幾里德距離計算的描述,下列何者正確
丟入隨機參數,以選定的幾個(比如:三個)單筆資料為主,看其他資料與該種子資料的距離進行運算
21
21.透過人腦要判別一個人的長相是否為美女/帥哥的方式不包含下列哪一選項
觀察書寫文字
22
22.關於集群分析描述,下列何者為非
所有資料都要納入
23
23.下列選項中何者不為集群分析的觀念
整理過往資料建立模型判別進入門內的是男生或女生
24
24.在資料探勘的分析方法中,集群分析其英文名稱為下列哪一個選項
Clustering
25
25.集群分析又可以稱為
聚類分析
26
關於RFM模型的英文的基本名稱,正確選項為
R(Recency)
27
27.關於K-Means演算法的觀念,下列正確選項為
K是指K個分群數量的意思
28
28.關於Colab敘述何者正確
不用在自己電腦上面安裝Python就可以執行的程式
29
29.讓消費習慣有差異的客戶可以分別集結到不同的客戶組群中,同時也將有相類似消費習慣的客戶集結到相對應的客戶組群中,這就是
集群分析
30
30.「公司的訂單收入中,有80%的銷售額來自於20%的客戶」這是下列哪一種分析
柏拉圖法則
31
31.在RFM模式中說明客戶最近一次消費的時間點距離目前數據分析工作的時間點的時間間距(Time interval)的是下列哪一個選項
Recency
32
32.關於RFM模型中F的觀念是下列哪一個選項
消費頻率
33
33.電子商務興起與關聯規則的描述,下列何者正確
透過電子商務要設法透過關聯規則分析了解商品的關聯,適當透過線上跑馬燈來激起顧客的購買慾望
34
34.實體商店與電子商務之差異的描述,以下何者為非
實體商店可以賣出更多商品
35
35.何謂關聯規則分析,以下的描述何者為非
關聯必須是「連續」而非「離散」的資料
36
36.在發現關聯規則之後,以下敘述何者為非
可以直接應用
37
37.關於Apriori演算法的描述,下列何者正確
一定要給定支持度與信心度
38
38.關於關聯規則的支持度的描述,以下何者為是
就是商品組合在納入模型計算的樣本中出現的總次數
39
39.關於關聯規則的信心度的描述,以下何者為非
信心度一定要非常高才有意義
40
40.關於「買啤酒也會買尿布」的故事當時是發生在
沃爾瑪大型零售賣場中
41
41.「啤酒與尿布」的故事是採用下列哪一類演算法
關聯規則
42
42.購物籃分析所採用的方法是
關聯規則
43
43.分析購物籃的採購內容就等同是在分析客戶的
消費行為
44
44.關於Market basket analysis 的中文意思為
購物籃分析
45
45.購物籃(車)中的內容可以提供許多珍貴的資訊,這對賣場中商品的下列哪一項活動非常重要
補貨(Replenishment)
46
46.關於Apriori方法的功能與描述,下列何者正確
是一種關聯規則方法
47
47.因為當交易資料量很大的時候常常會遇到計算上瓶頸,因此需要將原來的list 資料型態轉為二維表格的資料框(DataFrame),而這個資料框的內容填滿True與False的邏輯值,這些真、假值也就是什麼值
布林值
48
48.關聯規則實作上利用Apriori尋找客戶的消費習性的方式非常簡單,只需要事先準備兩個欄位就可以執行Apriori 找出有趣的商品之間的關聯規則,除了交易的商品編號與名稱欄位之外還需要什麼欄位資料
交易編號
49
49.關於決策樹的基本原理敘述,以下何者錯誤
非監督式學習
50
50.關於決策樹的描述,以下何者不正確
向上長的樹
51
52.關於決策樹分枝的判別標準值描述中,以下何者正確
熵越低越好
52
51.關於決策樹分枝的判別標準的英文名稱,下列哪一個選項是正確的?
吉尼係數(Gini Coefficient)
53
53.關於CART決策樹方法的特色描述,以下何者為非
不能分類連續變數
54
54.關於使用決策樹建立分類模型的描述中,何謂過度擬合(overfitting)的概念
切太細了
55
55.在決策樹建立模型的過程中,關於事後剪枝的描述,以下何者正確
在樹已經生成之後,才對過度擬合的部分進行修剪
56
56.關於決策樹的概念,以下選項何者不正確
吉尼係數為正數表示分類已經一致
57
57.關於決策樹分類演算法的描述何者正確
監督式方法
58
58.關於決策樹分類演算法的描述何者錯誤
自變數就是要預測的未來資料
59
59.關於決策樹的預測的驗證議題,下列何者錯誤
測試組資料量一定要是訓練組資料量的九倍
60
60.使用分類六大步驟完成建立分類與預測決策樹不包含
產生訓練資料集的預測結果
61
61.在建立模型的過程中,需要將原始資料切割成兩部份,第一部份是訓練資料集,第二部分是
測試資料集
62
62.在決策樹的模型建立步驟中經過測試資料測試過後的學習模型稱為
分類模型
63
63.分類與迴歸樹方法的英文名稱是下列哪一個選項
CART
64
64.請問下列哪一個選項是Classification 的中文名稱
分類
65
65.關於隨機森林的方法,下列選項何者正確
是衍生於決策樹
66
66.關於隨機森林方法的可能用途
推算顧客重要性
67
67.關於隨機森林演算法的觀念,下列何者正確
採取bootstrapping 法抽取後還會放回
68
68.關於隨機森林演算法的敘述,以下何者錯誤
out-of-bag是指都沒有被列入考慮的變數(欄位)
69
69.關於kNN演算法中k的條件之描述,以下何者錯誤
用來集群
70
70.關於kNN演算法的觀念,以下何者錯誤
與k-Means相同
71
71.關於模型預測的驗證之描述,下列何者正確
在隨機森林中沒被抽到的樣本數可以當作驗證資料用
72
72.關於隨機森林方法的觀念,下列何者正確
隨機森林的樣本抽樣設計是採取抽取之後還可以放回的方法
73
73.分類模型可以由隨機森林方法所建立,而隨機森林方法的方法是衍生於
決策樹
74
74.綜合多棵決策樹分類結果的方法被稱為
隨機森林
75
75.有句俗語「三個臭皮匠勝過一個諸葛亮」,這句話也提醒大家集思廣益也能想出贏過諸葛亮的想法,上述說明其實就是下列哪一種演算法的概念
Random forests
76
76.CART決策樹所描述的過程,不管是使用何種方法所產生的決策樹其實都是一個資料分類模型,即每一棵決策樹都可以被視為一個
分類器
77
77.下列哪一個選項的中文名稱被稱為隨機森林
Random forests
78
78.隨機森林的方式就是綜合多個分類器的結果,這就好像每一個分類器都是一個
領域專家
79
79.隨機森林的方式綜合多個分類器的結果,最後猶如一場會議投票表決計票方式,以什麼方式來當作答案,如此那將會是綜合全體意見的答案,其預測正確率將可以有所提升
取多數決定
80
80. Random forests 的中文名稱稱為
隨機森林
81
81. 關於kNN預測分析以下何者正確
設定k必須要是奇數
82
82.分類模型又可以成為
分類器
83
83.所謂「近朱者赤,近墨者黑」的觀念類似下列哪一種商業數據分析的技術
k最近鄰演算法
84
84.建立模型過程中,基本上會將資料集切割成兩部分,其一為測試資料集,另一為
訓練資料集
85
85.整個建立模型過程中的啟動點在於資料的取得與區分,如果將測試資料集與訓練資料集合併在一起就等同於
原始資料集
86
86.如果使用kNN建立分類模型,則其原理與CART決策樹分類模型
不同
87
87.在訓練kNN的分類模型中,最近鄰資料點基本上可以仰賴什麼機制完成
資料點之間的距離
88
88.以kNN來方法建立分類模型屬於非常簡單就可以完成,在機器學習眾多方法中歸屬於
監督式機器學習
89
89.以下的哪一選項的描述何者不為預測
離職的可能性
90
90.關於類神經網路的神經元運作,以下何者為非
可以天馬行空去思考
91
91.過往在商管的統計上,要預測大多是透過迴歸分析,關於迴歸分析
因變數就是預測的結果
92
92.關於類神經網路運算能否合於預期的判斷方式之描述,下列何者錯誤
逐步修正錯誤值
93
93.為何類神經演算法會很準的描述中,以下何者不正確
在訓練數量極少下可以產生最佳結果
94
94.關於倒傳遞神經網路方法的描述,以下何者為非
會經過反函數判斷或調整其數據
95
95.在倒傳遞神經網路方法中,不會透過誤差回饋修訂下列哪一個選項
激勵函數
96
96.關於類神經的特性之描述,以下何者為非
類神經分析的結果一定有一個合理的解釋
97
97.下列哪一項選項是模仿生物神經網路(特別是大腦)的方式
類神經網路
98
98. Perceptron是一種簡單形式的人工神經網路,稱為
感知機
99
99. TensorFlow本身是Google所開發出來用於人工智慧的框架,Tensor指的是
張量