Page 30 - 證券半年刊113年第6期
P. 30
28 2024 TAIWAN SECURITIES ASSOCIATION
一、股票投資智能營業員前台核心技術 係從「聚合關係」與「組合關係」兩個視角來
觀察、彙集與組織語義知識,其中「組合關係」
對於投資者使用自然語言所描述的股票投 關注於字詞間如何結合成更大的語言單位,
資相關問句 ( 例如:台積電可以買嗎? ),先 「聚合關係」主要描述詞語的分類體系,而句
將此問句切割為有意義的詞彙集並標註詞性, 法決定了句子裡詞語的排列組合。此外,過去
再依據已標註詞性的詞彙進行特徵字詞擷取 在進行內容極性分析時,除了往往忽略了文章
( 例如:台積電、買 ),以作為股票投資智能營 內的描述主題,而導致分析的結果無法對應所
業員後台股票輿情擷取與分析之依據。 需求的目標企業與產品之外,亦因網路評價文
章的描述常常出現新的流行口語詞彙與句法,
二、股票投資智能營業員後台核心技術 使得網路輿情極性分析時需不斷更新其內在判
斷評價的依據。也因此,本文在內容極性分析
依據股票投資智能營業員前台之自然語言 時考量詞性組合特徵、主題判別以及不斷更新
問句處理之結果,股票投資智能營業員後台將 其評價判斷依據等三項要素開發一詞性組合輔
進行問句之股票輿情擷取與分析,其核心技術 助之中文內容極性分析的創新技術,透過此極
包括即時輿情擷取、極性分析以及個股選取, 性分析技術能將中文輿情內容之句子極性判斷
說明如下: 正確率提升至 90% 以上 ( 例如:「VCM 對大
立光貢獻有限」、「晶片成長受阻」會判斷為
( 一 ) 股票輿情擷取: 負面;「台積電只會大漲不會大跌」會判斷為
針對台灣所有股票討論社群與財經新聞相 正面 ),以能正確且自動地分析股票輿情內容
關網站,利用 Python 程式語言針對每一個股 之正負評價,進而大幅提高選股績效。
票討論社群與財經新聞網站之網頁結構與格式
開發資料爬蟲程式,以能夠即時且自動地從各 ( 三 ) 個股選取:
大論壇、討論區、部落格、Facebook、電子 依據上述 ( 二 ) 之股票輿情內容之極性分
新聞等上百個網站資料來源擷取大量、複雜性 析結果,建立選股量化指標 ( 例如:台積電每
的股票輿論資料,以利後續股票輿情內容之極 週輿情正評價佔比 ),依據此選股量化指標可
性分析。 以篩選出每週買進個股與賣出個股並於固定時
間自動產生交易週報;綜觀過去四年之投資報
( 二 ) 股票輿情內容之極性分析: 酬率,輿情選股之投資效益實為相當顯著。
極性分析係為分析股票輿情內容之正負評
價,其分析技術的優劣攸關於股票投資分析結 肆、系統展示
果之正確性以及選股績效。過去在內容極性分
析的作法多以單一極性字詞作為判斷特徵、以 目前證券商提供給投資大眾的股票資訊系
連續字詞 N-gram 作為判斷特徵或加上否定詞 統大多以「量化行情資料分析」為主,包括個
來加以進行邏輯判斷。然而,句子語意之極性 股基本面、技術面與籌碼面。而本文所建置與
是會受到字詞與句法間的交互影響,而語言學 介紹的股票投資智能營業員則以「質化股票輿