詞條
詞條說明
隨著互聯網技術的快速發展和普及,人們可以在網絡上獲得各種信息,怎樣防止青少年接觸到不健康內容是一個嚴肅的社會問題。要防止不健康、無用內容的蔓延,除了從法律角度采取措施外,從技術角度考慮的網絡過濾技術是一種有效的手段。 目前網絡的信息過濾技術主要有三種,它們是基于URL過濾方式、基于文本的過濾方式和基于圖像內容的過濾方式。這幾種過濾技術各有優劣,有的實現比較簡單,有的具有較廣泛的適應性,有的效率高
近年來,隨著Internet?的迅猛發展以及人們利用信息技術生產和搜集數據能力的大幅度提高,大規模的網絡文本庫不斷涌現。為了便于在海量文本庫中搜尋、過濾、管理這些文本,基于人工智能技術的文本大數據挖掘成為人們研究的焦點。 數據挖掘(KD)是從數據中自動抽取模型。數據挖掘包括許多步驟:從大規模數據庫中(或從其他來源)**數據;選擇合適的特征屬性;挑選合適的樣本策略;剔除數據中不正常的數據并補足不夠
漢語分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎,搜索引擎只是中文分詞的一個應用。其他的比如機器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等,都需要用到分詞。 漢語自動分詞是目前中文信息處理領域公認的一大難題,也是自然語言理解研究領域
隨著計算機技術和網絡技術的*發展,互聯網上共享的文本呈海量趨勢增長,包括各種環境下的大文本和社交媒體文本等。如何有效存儲、管理、檢索和使用這些文本數據,是擺在人們面前巨大的挑戰和亟待解決的研究問題。文本語義分析與挖掘是解決上述問題的基礎。 互聯網大環境下的共享文本具備特殊的屬性:1)半結構化;2)多尺度;3)海量;4)復雜關聯;5)多樣化。LJParser文本語義分析系統結合人工智能、統計分析
公司名: 靈玖中科軟件(北京)有限公司
聯系人: 張寶
電 話: 010-62648216
手 機: 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區蘇州街49-3號盈智大廈5層
郵 編: